首页 理论教育分布式数据库技术解读

分布式数据库技术解读

【摘要】:近年来,大数据成为一个热门词汇,在现实生活中随处可见,如微博上的数据量非常大,以及电子商务的交易数据量也很大。大数据的涌现产生了以下三个问题。图18.4大数据的4个V这里要强调两个因素。数据不停地增长是大数据遇到的第一个问题。如果数据分析员不能及时获得数据,则分析成本增加,收益减少。为了解决大数据的问题,需要很好的系统体系结构。

近年来,大数据成为一个热门词汇,在现实生活中随处可见,如微博上的数据量非常大,以及电子商务的交易数据量也很大。

提到数据量,现在很多企业使用PB级来存储数据。

从数据量级看:

1 Terabyte=1024 Gigabytes=240 Bytes

1 Petabyte=1024 Terabytes=250 Bytes

1 Exabyte=1024 Petabytes=260 Bytes

1 Zettabyte=1024 Exabytes=270 Bytes

1 ZB数据量究竟有多大?它相当于2500亿张DVD存储的数据量。

大数据的涌现产生了以下三个问题。

●存储(store):如何获取和存储这些数据?

●处理(process):如何清洗、充实和分析这些数据?

●存取(access):如何检索、搜索、集成和可视化这些数据?(www.chuimin.cn)

传统来说,大数据特征可用四个V来描述(见图18.4)。第一个是容量(volume)大。第二个是流动性(velocity)快,如微博。第三个是种类(variety)多,即多样性。数据种类是从结构化到半结构化甚至非结构化的东西。传统的批量处理方式向流处理方式转变。第四个是真实性(veracity),数据必须是真实的,不是臆造的。

图18.4 大数据的4个V

这里要强调两个因素。

●数据越来越多:我们已经有能力存储和处理所有的数据,即机器生成的数据、多媒体数据、社交网络、交易数据,等等。

●取得更大的效果:机器学习、预测分析(predictive analytic)和群体智能(collective intelligence)的发展可以从数据中获得比以往更多的价值。

有趣的是,数据的意义可以通过工业革命来比较。在工业革命前,所有产品基本上都是手工生产的,工业革命后,产品是在工厂的装配线上生产的。类似地,数据工业革命前,所有数据是“家里”产生的,而现在的数据来自客户、用户的行为、社交网络、传感器和所有的传统数据源等。

数据不停地增长是大数据遇到的第一个问题。今日的挑战是找到一个合适的体系结构,让这些数据可被管理。第二个问题是如何获得数据样本,因为数据分析员需要它们。随着数据的不断增长、数据源数目越来越多,能否获得数据样本也成了困难的事。第三个问题是是否来得及处理和分析数据,很可能时间过了,数据已经失效。第四个问题是分析投入与产出的问题。如果数据分析员不能及时获得数据,则分析成本增加,收益减少。

为了解决大数据的问题,需要很好的系统体系结构。体系结构的重要需求是可伸缩性,系统的规模应当能按照数据的大小、流量、类别等进行调整。数据量小时,冗余的硬件和软件白白耗费了预算

实践证明,技术上必须是分布式的,否则,无论是处理能力、处理速度等都无法适应4V的特点。