目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
随着数据应用在公共、流通、制造、金融、国防等多个领域中的应用剧增,一定要确认数据分析的安全问题。大多数大数据项目通常通过广为人知的技术,以集群构建方式推进大量的数据分析,但大多数用户加密异常的安全标准几乎或者全部没有体现。
如果观察大多数大数据项目,除了体现旨在分析大数据的扩展性较强的低价集群,都未能考虑到大多数的安全问题,解决这种问题只能全部依赖几种传统网络和警戒安全支持。但是几种重要安全问题可通过少数安全措施解决。进一步讲,因为集群是在虚拟和云环境中展开,所以可使用供应商提供的管理工具解决很多运营安全问题。这种措施虽然不是全部的根本安全对策,但只通过这几种措施就可使恶意用户难以随意破坏系统或盗用信息。
大数据集群和网络应用程序及现有传统数据仓库大多数都存在相同的安全隐患。因此,合并大数据集群之前应先精确调查各数据节点和应用程序,并注意避免网络通信中的数据随意流出。网络应用程序的安全或大数据集群仍是安全保护的重要对象,应优先考虑以下几种重要安全设置。
(1)使用包含Hadoo(p分布式计算)的Kerberos(身份验证)。进入集群前确认节点和客户端应用程序,检查分布式编程(MR)和与其类似的功能应用程序请求的有效性。
(2)使用File/OS级别的加密。如果能防御数据泄露的话,则可控制数据管理员或其他应用程序随意读取数据。
(3)使用密匙/认证管理。不能指望在磁盘中保存密匙(keys)和认证并保证其安全。使用中央密匙管理服务器保护密匙,并管理其他文件中不同的密匙。
(4)检查分配有效性。可通过虚拟管理、云供应商设施以及Chef and Puppet等其他公司的产品检查。
(5)监视日志事务、变通行为。大数据平台本身通过记录系统应用,留下使用痕迹。
(6)安全使用SSL和TLS网络。保证认证和接点、名称服务器、应用程序之间的通信隐私。
上述内容虽然远不够全面,但这种技术可最大限度减少对应用程序和操作的妨碍,免受基本攻击。因解决方法较少或没有,应保证使用大数据集群、认证和权限赋予、实时监控的网络应用程序的安全。
对于保护大数据的安全,从大企业到小的新生企业,数以千计的企业在大数据项目上花费精力。通过这种新技术的尝试,所有公司可对数据收集、管理和巨大的大数据集进行分析。这种系统越来越常见,储存位置被越来越多的敏感数据填满。公司只有在发现需要依赖大数据之后才会询问保护方法。
重要的是,需要对有太多问题、太多关注以及太多混乱的大数据安全进行公开问题处理。为更好处理这些问题,需要检查以下三个方面。
(1)它的结构有何不同:此系统的信息处理和分配方法有何不同?应列出特定差异,观察其对数据和数据库安全有何影响。
(2)它的运营有何不同:需要仔细观察大数据平台和运营安全问题。特别是应观察对以基本安全功能不足为首的系统缺陷管理和大数据保护问题的观点。
(3)建议及常见问题:为保护此种环境下的特定方面,需要战术建议和诸如此类的数据存储位置确保策略。
1)大数据系统的定义
大数据系统是指提供多个系统的数据管理、数据检索、数据一致性和系统管理等功能的能存储大量数据的系统。
大数据不是指巨大的数据存储位置,这里并不是指巨大的主框架环境,也不是指网格(grid)集群、独占MPP(大规模并行处理)数据库、SAN阵列、Cloud-in-a-box以及现有的数据仓库,是指可制作过去数十年相当大的数据存储位置和数据库的功能。并非管理许多平台数据负荷量的问题,也不是要分析那么大的数据集。多数据管理平台虽具有可分析大量数据的功能,但因其费用和复杂性,大多数应用程序将无法生存。大数据革命不仅仅是指为进行存储和分析而开拓新容量。分散文件系统是核心要素,但大数据更重要。大数据不是分布式编程集群,所以,现有oracle数据库的PL/SQL子系统也跟分布式编程一样可以运行。
分布式编程虽是普通要素,但其他查询引擎(为选择其他种类的数据以Hadoop为基础构建)根据NoSQL的其他用途使用。大数据不只是数据分析应用程序的一种类型,事实上还有更多。(www.chuimin.cn)
实际上构建大数据系统和应用程序的人与开发人员交谈时对用语的意义会获得更好的想法。平台的设计单一性正是开发人员所追求的。如果可轻易使用,相对低廉的构建费用可吸引更多的用户使用。大数据不是特定技术,而是属性和功能的结合。
2)大数据的必需特性
大数据具有以下特性的数据存储位置定义。
(1)处理大量(千兆字节以上)的数据。
(2)存储分散重复数据。
(3)处理并行操作。
(4)提供数据处理(分布式编程或同级)功能。
(5)极速插入数据。
(6)中央管理和指挥。
(7)多种硬件互换性和低构建费用。
(8)读取。可商用或作为开放源码产品使用。
(9)扩展。可增加和变更基本功能。
简而言之,也就是说大而便宜且简单的数据管理。大数据革命(使通过大量减少费用扩展数据存储位置成为可能)有三个支柱作为基础,也就是大众可使用的数据分析。现有的数据库功能(索引、事务一致性、关系型映射)可有可无,缺陷也可有可无,系统代替运营(重复控制节点)可包含也可不包含,复杂数据类型可存储也可不存储,实时查询结果可提供也可不提供。大数据具有以上所有特性,充分表明即使没有现有数据库的功能也可有效执行操作。
某种程度上可以说大数据是Hadoop架构,Hadoop架构(例:HDFS组合、YARN、一般等)是大数据的典型模型,提供所有必需特性。大多数的大数据系统使用多个Hadoop构成要素,交替或扩展其中的部分基本功能。Hadoop虽设计不同,但可满足简单Amazon数据和要求。作为开放源码对策而设计的谷歌独有的Big Table设计与Hadoop十分相似,但是我们无法广泛使用的独立系统,所以排除。这种定义虽然有点模棱两可,但从受欢迎角度考虑还是非常有用的。大多数客户的焦点在所用Hadoop架构和共同NoSQL变种(Cassandra, MongoDB, Couch, Riak等)上。
将Hadoop架构认为是和LAMP stack相同的“栈”共享。这些碎片通常一起分组,但可混合、配合并根据需要添加到栈中。例如,Sqoop和Hive可代替数据访问服务,Lustre、GFS和GPFS可代替HDFS。关系型数据库结构和关系型查询不仅仅依赖分析器(即根据存储的数据种类可代替其他查询引擎),也可具体选择支持统称为“NoSQL”的圆柱、图形、文件、XML和多维数据的大数据环境。此外,可使用Scribe日志工具扩展HDFS功能。也可根据需要整体选题进行构建和扩展。模块式读取方式虽然适应能力突出,但因各选项有自身安全选项和缺陷,保护安全变得更加困难。如果存储量大、廉价且容易进行数据管理和处理,则安全功能相对落后。Hadoop栈模块和对策如图8-3所示。
图8-3 Hadoop栈模块和对策
(图片来源:Securosis)
有关数据质量管理与安全管理的文章
目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
为察觉外部安全威胁,在60余个业务中应用了DB快速检查系统,内部人员追加使用了门禁系统。此次下一代DB安全系统构建过程中,掌握公共账户使用现状将成为可能。即使职员没有DB方面的知识,在这种环境下有恶意的DB攻击、信息泄露危险,需要通过DB安全系统进行更改,本案例中将其果断更改。......
2023-11-16
1)功能方面数据错误原因分析和删除。通过对错误原因进行分类,采取制作方针、对相关人员进行教育等措施防止错误再次发生。2)作用方面应从企业角度进行数据错误原因分析,在可跟踪的位置对相关数据、系统、用户等进行跟踪。数据错误原因分析和数据质量标准设置:将数据错误原因分析的结果反映在数据质量标准中。......
2023-11-16
1)功能方面企业数据架构管理在功能方面属于数据应用,有企业数据概念模型和企业数据标准管理两种主要活动。企业数据概念模型。将数据概念模型和数据标准作为确保质量的方向共享,数据结构变更时,起到保持概念模型和应用系统之间的映射等持续管理作用。制定的质量计划中将重要事项作为企业数据概念模型的管理对象,同时也应管理企业数据标准。企业数据架构管理和数据设计:企业数据架构为数据设计提供数据标准和概念模型等标准。......
2023-11-16
最近以数据治理、数据法规遵守为题的项目渐渐增多,下面介绍几个企业进行数据质量管理的案例。在这类项目中,数据质量管理被认为是必要而必需的。而且数据质量管理在数据质量问题发生后的原因追查中,作为决定性因素,以减少项目数据层面的危险为目标实施。通过第1阶段初步质量管理标准可以看出我国企业的数据质量管理现状。目前为止,因受数据质量管理的几处制约,在IT组织中,投资优先顺序已下降。......
2023-11-16
但是,这样的独立访问方法可能会表现出将所有焦点对准Hadoop的安全解决方案的缺乏。在组织中,移动信息的必要性和大数据的流入被黑客及其他网络罪犯制作成大规模的新目标。由于这种安全配置的困难,Hadoop用户在采纳最基本的安全功能方面也受到限制。到目前为止,开源社区没有解决这样的安全差距,而是关注创造像MapReduce 2.0这样的已改善的Hadoop技术。大数据环境中,追加安全功能的功能应当与数据一同扩张。......
2023-11-16
DB是企业IT资产中最主要的系统。即使有防火墙、IDS/IPS保护企业基础设施,对于DB的输入输出记录或内部认可人员,也无法控制不加分别的Data查看/变更。并且,利用保护泄露数据安全的密码或数据库弱点直接DDoS攻击,或者无法应对Buffer Overflow攻击。在这样DB安全脆弱的基础设施系统环境中,以全世界的个人信息保护法为首,国际上很多IT守约对于DB技术上/理论上的保护措施提出了要求,其共同内容如下。......
2023-11-16
因为没有大数据平台安全技术,所以应尽早解决此问题。网络应用程序、数据库的安全或大数据集群仍是安全保护的重要对象,需要保证大数据的保密性、可用性、完整性。与此同时,各个产业群中,致命的数据安全事故激增。大数据平台也成为重要的数据安全对象,针对数据的机密性、完整性、可用性的安全目标以及能够防御来自数据的掠夺、伪造等外部威胁的体系和标准测定模型图的开发是必要的。......
2023-11-16
相关推荐