在常规无副本平台里,使用封锁机制可以观察到会晤一致性。这样一个完全透明的复制系统也应当提供会晤一致性。为了提供会晤一致性,需要对协议进行扩展。其他协议如使用2PL和2PC的积极协议自动提供会晤一致性。虽然Tj的第一个操作提交时Ti可能尚未提交,但必须保证Ti处于准备状态,或者后续状态维持所有必要的封锁。......
2023-10-28
近年来,大数据成为一个热门词汇,在现实生活中随处可见,如微博上的数据量非常大,以及电子商务的交易数据量也很大。
提到数据量,现在很多企业使用PB级来存储数据。
从数据量级看:
1 Terabyte=1024 Gigabytes=240 Bytes
1 Petabyte=1024 Terabytes=250 Bytes
1 Exabyte=1024 Petabytes=260 Bytes
1 Zettabyte=1024 Exabytes=270 Bytes
1 ZB数据量究竟有多大?它相当于2500亿张DVD存储的数据量。
大数据的涌现产生了以下三个问题。
●存储(store):如何获取和存储这些数据?
●处理(process):如何清洗、充实和分析这些数据?
●存取(access):如何检索、搜索、集成和可视化这些数据?(www.chuimin.cn)
传统来说,大数据特征可用四个V来描述(见图18.4)。第一个是容量(volume)大。第二个是流动性(velocity)快,如微博。第三个是种类(variety)多,即多样性。数据种类是从结构化到半结构化甚至非结构化的东西。传统的批量处理方式向流处理方式转变。第四个是真实性(veracity),数据必须是真实的,不是臆造的。
图18.4 大数据的4个V
这里要强调两个因素。
●数据越来越多:我们已经有能力存储和处理所有的数据,即机器生成的数据、多媒体数据、社交网络、交易数据,等等。
●取得更大的效果:机器学习、预测分析(predictive analytic)和群体智能(collective intelligence)的发展可以从数据中获得比以往更多的价值。
有趣的是,数据的意义可以通过工业革命来比较。在工业革命前,所有产品基本上都是手工生产的,工业革命后,产品是在工厂的装配线上生产的。类似地,数据工业革命前,所有数据是“家里”产生的,而现在的数据来自客户、用户的行为、社交网络、传感器和所有的传统数据源等。
数据不停地增长是大数据遇到的第一个问题。今日的挑战是找到一个合适的体系结构,让这些数据可被管理。第二个问题是如何获得数据样本,因为数据分析员需要它们。随着数据的不断增长、数据源数目越来越多,能否获得数据样本也成了困难的事。第三个问题是是否来得及处理和分析数据,很可能时间过了,数据已经失效。第四个问题是分析投入与产出的问题。如果数据分析员不能及时获得数据,则分析成本增加,收益减少。
为了解决大数据的问题,需要很好的系统体系结构。体系结构的重要需求是可伸缩性,系统的规模应当能按照数据的大小、流量、类别等进行调整。数据量小时,冗余的硬件和软件白白耗费了预算。
实践证明,技术上必须是分布式的,否则,无论是处理能力、处理速度等都无法适应4V的特点。
有关分布式数据库技术的文章
在常规无副本平台里,使用封锁机制可以观察到会晤一致性。这样一个完全透明的复制系统也应当提供会晤一致性。为了提供会晤一致性,需要对协议进行扩展。其他协议如使用2PL和2PC的积极协议自动提供会晤一致性。虽然Tj的第一个操作提交时Ti可能尚未提交,但必须保证Ti处于准备状态,或者后续状态维持所有必要的封锁。......
2023-10-28
Oracle公司的OPS环境比一般的(单实例)Oracle环境复杂得多。不同结构下的OPS的实施略有不同。图14.23OPS体系结构为了利用这些特性,需要专业人员合适的设计以及恰当的手工配置。下面对有些关键问题进行简单讨论,讨论中会涉及一些Oracle系统专用的术语,读者可参阅Oracle公司的相关文档。DLM与Oracle进程一起工作并相互通信。DLM相关的初始化参数在每个实例的SGA[12]中分配必要的结构以处理消息机制、封锁与实例相关的Cache管理,这样就为各种Oracle进程操纵提供了基础。......
2023-10-28
查询优化的本地化分层聚焦于将查询转换成本地数据。一个全局关系可以通过应用重构规则来重构,从而导出一个关系代数程序,其操作数是数据片,这个程序称为本地化程序。将分布查询分配到节点上的自然办法是生成查询,让每个全局关系使用本地化程序来代替。这可以看成是在一棵分布查询的算符树上将叶子用与本地化程序对应的子树来替代。数据水平分片关系的连接也可以简化。......
2023-10-28
与数据库安全系统打交道的人员可以分为两类:数据库管理员和普通用户。DBA要对安全负责,所以他(们)要创建授权规则,定义谁可以使用哪部分数据,以及如何使用。图13.1数据库安全系统由图13.1可知,数据库安全系统里存放着授权规则,在每次数据库存取时强制满足其规则。从完整性方面考虑,数据库安全可以包含以下两方面。1)设计阶段的数据库安全在设计阶段必须关注数据库的安全性。DBA负责处理整个数据库系统里的用户账号和口令。......
2023-10-28
图3.1软件开发过程数据库设计的过程与软件开发的过程类似。下面先来看一下集中式数据库设计的情况。在分布式数据库系统中,集中式数据库设计的问题依然存在,且有以下两个新的问题需要考虑。这个过程就是确定如何将全局关系划分成水平、垂直或者混合的数据片。数据片的分配,即决定数据片如何映射到物理镜像上,决定如何复制数据片。数据片的分配问题则研究已久,当然,过去研究的则是“文件分配”问题。......
2023-10-28
自1995年以来,基于CORBA软件的企业级应用发展迅猛。CORBA是OMG随着硬件和软件产品的快速增长,针对互操作性的需要而提出的。CORBA 2.0于1994年12月被提出,它定义了不同供应商的ORB怎样才能实现真正的互操作性。图12.4OMA体系结构OMA体系结构主要包括以下几部分。ORB用于发现与该请求对应的对象实现,对所要求的所有机制做出响应,准备好对象实现以响应请求,并完成请求所需要的数据通信。由图12.5可知,客户端通过ORB向对象实现发送请求。......
2023-10-28
显然,自动识别技术是物联网体系的重要组成部分,借此可以对每个物品进行标识和识别,并可以实时更新数据,是构造全球物品信息实时共享的重要组成部分,是物联网的基石。按照国际自动识别技术的分类标准,自动识别技术可以分为数据采集技术和特征提取技术两大类。......
2023-10-28
视频和音频点播系统可以在网络上提供连续的视频/音频流,可以是实验的演示情况、教师讲课的录像等。视频服务器是视频/音频点播系统中的核心,通过视频服务器将经过技术处理的视频信息进行存放,当网络在接收到客户端的点播请求时送出视频信息。视频信息经过处理存放到视频服务器后,要让它能够被更多的人使用,这也是视频信息的发布问题。......
2023-10-28
相关推荐