分布式数据库技术解读

2023-10-28 理论教育版权反馈

【摘要】：近年来，大数据成为一个热门词汇，在现实生活中随处可见，如微博上的数据量非常大，以及电子商务的交易数据量也很大。大数据的涌现产生了以下三个问题。图18.4大数据的4个V这里要强调两个因素。数据不停地增长是大数据遇到的第一个问题。如果数据分析员不能及时获得数据，则分析成本增加，收益减少。为了解决大数据的问题，需要很好的系统体系结构。

近年来，大数据成为一个热门词汇，在现实生活中随处可见，如微博上的数据量非常大，以及电子商务的交易数据量也很大。

提到数据量，现在很多企业使用PB级来存储数据。

从数据量级看：

1 Terabyte=1024 Gigabytes=240 Bytes

1 Petabyte=1024 Terabytes=250 Bytes

1 Exabyte=1024 Petabytes=260 Bytes

1 Zettabyte=1024 Exabytes=270 Bytes

1 ZB数据量究竟有多大？它相当于2500亿张DVD存储的数据量。

大数据的涌现产生了以下三个问题。

●存储（store）：如何获取和存储这些数据？

●处理（process）：如何清洗、充实和分析这些数据？

●存取（access）：如何检索、搜索、集成和可视化这些数据？(www.chuimin.cn)

传统来说，大数据特征可用四个V来描述（见图18.4）。第一个是容量（volume）大。第二个是流动性（velocity）快，如微博。第三个是种类（variety）多，即多样性。数据种类是从结构化到半结构化甚至非结构化的东西。传统的批量处理方式向流处理方式转变。第四个是真实性（veracity），数据必须是真实的，不是臆造的。

pagenumber_ebook=396,pagenumber_book=381

图18.4　大数据的4个V

这里要强调两个因素。

●数据越来越多：我们已经有能力存储和处理所有的数据，即机器生成的数据、多媒体数据、社交网络、交易数据，等等。

●取得更大的效果：机器学习、预测分析（predictive analytic）和群体智能（collective intelligence）的发展可以从数据中获得比以往更多的价值。

有趣的是，数据的意义可以通过工业革命来比较。在工业革命前，所有产品基本上都是手工生产的，工业革命后，产品是在工厂的装配线上生产的。类似地，数据工业革命前，所有数据是“家里”产生的，而现在的数据来自客户、用户的行为、社交网络、传感器和所有的传统数据源等。

数据不停地增长是大数据遇到的第一个问题。今日的挑战是找到一个合适的体系结构，让这些数据可被管理。第二个问题是如何获得数据样本，因为数据分析员需要它们。随着数据的不断增长、数据源数目越来越多，能否获得数据样本也成了困难的事。第三个问题是是否来得及处理和分析数据，很可能时间过了，数据已经失效。第四个问题是分析投入与产出的问题。如果数据分析员不能及时获得数据，则分析成本增加，收益减少。

为了解决大数据的问题，需要很好的系统体系结构。体系结构的重要需求是可伸缩性，系统的规模应当能按照数据的大小、流量、类别等进行调整。数据量小时，冗余的硬件和软件白白耗费了预算。

实践证明，技术上必须是分布式的，否则，无论是处理能力、处理速度等都无法适应4V的特点。

分布式数据库技术解读

相关推荐