首页 理论教育新媒体运营数据处理体系方法研究

新媒体运营数据处理体系方法研究

【摘要】:在新媒体机构的运营过程中,如果要充分地使用大数据技术,首先就应当具备一套比较完善的数据挖掘体系。一般来说,新媒体机构数据挖掘体系的建设可以从使用者的视角来审视,从四个基本环节来实现。作为新媒体机构搭建大数据处理体系的第一步,如何获取数据是相当重要的。它决定了新媒体机构是否能够高效、快速地收集到尽可能多的数据,以便于下一步进行相应的数据处理。

在新媒体机构的运营过程中,如果要充分地使用大数据技术,首先就应当具备一套比较完善的数据挖掘体系。一般来说,新媒体机构数据挖掘体系的建设可以从使用者的视角来审视,从四个基本环节来实现。

从使用者的视角来筹建数据体系,主要是指数据的获取可以划分为使用前、使用中和使用后三个阶段。

第一个阶段是在用户使用媒体产品之前,新媒体机构可以通过对目标用户的充分研究获得一定的用户数据,从而更好地了解用户、服务用户;同时,可以通过对现有的市场发展环境进行调研,获得行业发展数据以及竞争对手数据,从而更好地了解自身所处的行业发展情况以及竞争情况;此外,还可以通过对各类合作机构进行调研,获得相关的数据,了解合作机构对自身的预期与要求,更好地促进自身的运营。

第二个阶段是用户使用媒体产品过程中留下的相关数据,包括用户在使用媒体产品时的各种行为记录,从而熟悉用户的媒体使用习惯及特征;用户针对媒体产品产生的一些反馈信息,这是用户主动留下的数据信息,可以有效地转化为新媒体产品与优化服务的参考依据;用户在使用其他媒体产品时相关的、可获得的数据同样可以作为自身产品与服务设计的重要参考。

第三个阶段是用户使用媒体产品后的数据,包括用户对媒体产品的态度与评价信息,针对用户的营销传播活动有效性判断的数据信息,与竞争对手进行比较的数据信息,来自合作伙伴的反馈数据信息,等等。

数据处理体系的构建环节来看,一般可以分为采集、导入和预处理、统计和分析,挖掘四个基本步骤。

大数据的采集是指利用多个数据库来接收从客户端发送的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔数据,除此之外,Redis和MongoDB这样的关系型数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高(指网站在同一时间访问的人数,人数越多,瞬间带宽要求越高),因为同时可能会有成千上万的用户在访问和操作,比如火车售票网站和淘宝,它们并发的访问量在峰值时可以达到上百万或上千万,所以需要在采集端部署大量数据库才能支撑网站正常运行。

如何在这些数据库之间进行负载均衡(Load Balance,即将操作分摊到多个操作单元上进行)和分片(互联网协议允许IP分片,这样的话,当数据包比链路最大传输单元大时,就可以被分解为足够多的小片段,以便能够在其上进行传输),的确是需要深入思考和设计的。虽然采集端本身会有很多数据库,也会有不同的数据类型,但是如果要对这些海量数据进行有效的分析,就应该将这些来自前端的数据导入到一个集中的大型分布式数据库中,或者分布式存储集群中,并且可以在导入基础上做一些简单的清洗和预处理工作。

也有一些用户会在导入时使用推特的Stom来对数据进行流失计算,以满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量极大,每秒钟的导入量经常会达到百兆级别,甚至是千兆级别。

大数据的统计和分析阶段,主要是利用分布式数据库,或者分布式计算机群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析所涉及的数据量是否会极大地占用系统资源,特别是I/O。

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用户统计学习的SVM(Support Vector Machine,是一个有监督的学习模型,通常用来进行模式识别分类以及回归分析)和用于分类的Naive Bayes(朴素贝叶斯法,是基于贝叶斯定理与特征条件独立假设的分类方法),主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是在于数据挖掘的算法很复杂,并且计算所涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

作为新媒体机构搭建大数据处理体系的第一步,如何获取数据是相当重要的。它决定了新媒体机构是否能够高效、快速地收集到尽可能多的数据,以便于下一步进行相应的数据处理。

一般来说,新媒体机构在获取数据、搭建数据体系的时候,常用的方法包括搜索获取法、Agent法(在IT领域,Agent可指能够自主活动的软件或者硬件实体,通常被翻译为“代理”)、扫描法和载体监听法。

其中,搜索获取法包括“搜索——下载法”和“搜索——抽取法”。前者主要是指利用搜索引擎等工具进行数据搜索并下载;后者指搜索到所需要的数据之后,链接到相应的数据源,分析并入侵该数据源的数据,建立数据获取程序,定期获取所需数据。

Agent法是指将一个Agent植入数据源服务器,监控数据源服务器的运行,一旦发现有新的数据产生,就将这些数据传送到指定的服务器上,完成一次数据获取。扫描法需要设计一个扫描程序,定期扫描各种数据源服务器,将数据源中需要的数据抽取出来。载体监听法则是通过监听各种数据载体,例如各种网络、无线信号、路由设备,甚至盗窃服务器等,从中截获数据。

(1)Cookie

所有互联网机构获取用户数据的最基本的方法就是利用Cookie信息。Cookie由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的Key/Value保存到某个目录下的文本文件内,下次请求同一网站数据时就发送该Cookie给服务器(前提是浏览器设置为启用Cookie)。Cookie的基本组成包括:Cookie的名字(Name);Cookie的值(value);Cookie的过期时间(Expires/Max-Age);Cookie的作用路径(Path);Cookie所在域名(Domain);使用Cookie进行安全连接(Secure)。前两个参数是Cookie应用的必要条件。另外,还包括Cookie的大小(Size,不同浏览器对Cookie个数及大小限制是有差异的)。进行Session管理、个性化识别以及跟踪与监测是Cookie的基本功能。

Cookie有什么作用呢?几乎所有网站都有新用户注册这个选项,当用户注册之后,等到下次再访问该站点时,网站会自动识别用户,可以免去登录的操作,并且向用户问好。更重要的是,网站可以利用Cookies跟踪统计用户访问该网站的习惯,比如什么时间访问,访问了哪些页面,在每个网页的停留时间等。

利用这些信息,一方面可以为用户提供个性化的服务;另一方面也可以作为了解所有用户行为的工具,这对于网站经营策略的改进有一定的参考价值。通常来说,Cookie可以分成三种类型:第一种为Session Cookie,一个用户的Session Cookie(也称为内存Cookie或瞬息Cookie)是当用户浏览网站的时候,网站暂存的Cookie。当用户在该Cookie的有效日期或者有效间隔内访问网站,Session Cookie将被创建,当用户关闭浏览器的时候,Session Cookie将被删除。第二种为第一方Cookie。第一方Cookie是由受访网站以相同域名(或其子域名)创建的。第三种为第三方Cookie。第三方Cookie是由受访网站以不同域名创建的。

(2)网络爬虫

网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做的优化。网络爬虫为搜索引擎从万维网下载网页,一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干个初始网页的URL开始,先是获得初始网页上的URL,在抓取网页的过程中,又不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗地讲,也就是通过源码解析来获得想要的内容。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某条件时停止。

(3)载体监听

近年来,轰动世界的通过载体监听以获取数据的案例正是2013年发生的“棱镜门”事件。这一事件也充分证明了媒体监听方法在数据获取方面的极大能量。2013年6月,中情局(CIA)前职员爱德华·斯诺登(EdwardSnowden)将两份绝密资料交给英国《卫报》和美国《华盛顿邮报》,并告诉媒体何时发表这两份绝密资料。按照计划,2013年6月5日,英国《卫报》先扔出了第一颗舆论炸弹:美国国家安全局有一项代号为“棱镜”的秘密项目,要求电信巨头威瑞森公司必须每天上交数百万用户的通话记录。6月6日,美国《华盛顿邮报》披露称,“棱镜”窃听计划始于2007年的小布什时期,美国情报机构一直在9家美国互联网公司中进行数据挖掘工作,从音频、视频、图片、邮件、文档等信息中分析个人的联系方式与行为。监控的类型有10类:信息电邮即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间、社交网络资料的细节,其中包括两个秘密监视项目,一是监视、监听民众电话的通话记录,二是监视民众的网络活动。

对已经搜集到的数据,需要进行进一步的筛选和整理,才能够为数据搜集者所用,进行下一步的数据挖掘与分析。在这个过程中,还有一个重要的步骤就是数据清洁。现在,这个工作必须有软件工具进行支持。

一般来说,大数据的整理和筛选需要经过三个非常重要的步骤,包括空缺值的处理、噪声数据处理以及数据一致化。所谓空缺值的处理,是指要给出一个方法来解决属性空缺值的问题,比如忽略含有空缺值的数据记录、人工填写空缺、使用一个常量填充等。噪声数据处理是指对测量过程中出现的随机错误和变差,或者是测量失真较为明显的数据进行处理。数据一致化是指对各个数据源之间的数据进行分析对比,发现各种数据之间的冲突,然后进行转换。

接下来,我们将以中央电视台的媒资系统——央视音像资料馆的建设情况来举例说明新媒体机构大数据处理与筛选的过程。

目前央视音像资料馆的内容为央视所有公开频道中播出的内容,既包括自主生产的部分,也包括外来购买的部分。在将来,央视音像资料馆会对这些内容进行多种指标的细分,包括有无版权、使用程度和频率等。音像资料馆每天上载的内容和数据接收量超过300小时;每年为台内节目生产提供资料下载近2万小时;共有9个磁带库房,总面积达3600余平方米;馆藏音像资料录像带100万盘,包括多种格式;具有124万盘磁带介质的存储空间。

按照内容类别和种类,目前央视音像资料馆中的内容分为7类:专题、体育素材、影视剧、新闻、综艺纪录片。对这些节目内容和数据进行存储和管理之前,央视音像资料馆的一个重要工作就是进行编目,相当于数据的整理和筛选。央视音像资料馆分为4个编目区、10条编目生产线、200个编目工位,按照7类内容给每个工位进行工作任务划分,每天可以完成300小时的节目编目量,全年编目量达10万小时。在编目细则方面,央视音像资料馆遵循《广播电视音像资料编目规范》与《中央电视台音像资料编目细则》制定的基本规范,将节目数据分为四层编目:节目层、片段层、场景层、镜头层。场景、镜头主要以其再利用价值和珍贵程度作为选取原则。之后,央视音像资料馆会对这些节目资料进行数字化的处理,并最终形成可用的信息数据。

这个流程可以基本分为10个步骤,即资料筛选、磁带清洗、预处理、上载、质量控制、存储管理、编目下发、编目标引、编目审核、应用。其中,央视音像资料馆在上载这个环节中建设了24个上载通道,包括18个工作站点采集通道和6个机械手采集通道。通过视频服务器上载和数字化工作站上载两种方式将原始音像资料数字化,同时生成用于归档保存的高码率视音频数据和用于编目检索、网络发布的低码率视音频数据。

央视音像资料馆在编目标引环节采用多点协同工作的编目生产流水线方式。来自上载数字化环节的待编节目数据进入编目检索系统后,审核人员按照四层编目进行审核。在用户应用环节,通过现有7个下载工作站和下载输出软件模块,将资料馆内的节目资料数据进行多种介质的复制或转录。在管理人员对预约下载的数据进行合理性审查和统计分析等工作后,用户可快速获取所需数据。

数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找、规律表示、结果评价四个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集规律。寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户能够理解的方式将找出的数据表示出来。

一般说来,数据挖掘较为完整的步骤如下:理解数据和数据的来源(Understanding),获取相关知识与技术(Acquisition),整合与检查数据(IntegrationandChecking),去除错误或不一致的数据(DataCleaning),建立模型和假设(Modeland Hypothesis Development),实际数据挖掘工作(Data Mining),测试和验证挖掘结果(TestingandVerification),解释和应用(Interpretationand Use)。

数据挖掘的常见任务包括关联分析、聚类分析、分类分析、异常分析、特异群组挖掘和演变分析等。

关联分析是寻找数据项之间感兴趣的关联关系,用关联规则的形式予以描述。比如,我们通过对超市交易的数据分析,得出“在有婴幼儿成员的家庭中,85%购买尿布的男性也会同时购买啤酒,并且购买尿布的总次数占所有购物次数的8%”这样一条关于“啤酒”和“尿布”之间关系的结论。

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它的目标就是在相似的基础上收集数据来分类。比如,在电子商务网站中,通过分组找出具有相似浏览行为的客户,并分析客户的共同特征,来更好地帮助电子商务用户了解自己的客户,向客户提供更合适的服务。分类分析是找出描述并区分数据类的模型,以便能够使用模型预测给定数据对象所属的数据类。比如,信用卡公司可以将持卡人的信誉度分类为良好、普通和较差三类。

分类分析可能给出一个信誉等级的显示模型为:信誉良好的持卡人是年收入在10万到50万之间、年龄在30岁到45岁之间、居住面积大于100平方米的人。这样,对于一个新的持卡人,就可以根据他的特征预测其信誉度了。异常分析是发现数据对象集中与大部分数据对象具有明显差异的数据的过程。比如,我们在信用卡使用模式这样的大量数据中,使用可以发现明显不同于其他数据的异常对象的技术,就可以在欺诈甄别、网络入侵检测等方面发挥非常积极的作用。

特异群组是指由给定大数据集里面少数相似的数据对象组成的,表现出有异于大多数数据对象而形成异常的群组,是一种高价值、低密度的数据形态。特异群组的挖掘、聚类和异常检测都是根据数据对象间的相似程度来划分数据对象的数据挖掘任务的,但它们在问题定义、算法设计和应用效果上存在差异。大数据特异群组挖掘具有广泛的应用背景,在证券交易、智能交通社会保险、生物医疗银行金融和网络社区等领域都有应用需求。例如,在证券市场中,特异群组挖掘常常表现为分辨合谋操纵(多账户联合操纵)、基金“老鼠仓”等行为。

演变分析是一种用于描述对象行为随时间变化的规律或趋势,并对其建模,以预测其未来形势的技术。例如,通过对股票交易数据的演变分析,可能会得到“有90%的可能,在X股票持续上涨一周左右之后,Y股票也会出现上涨”的判断。

根据数据类型和来源,数据挖掘的对象可以分为一般数据源与特殊应用数据源。在一般数据源挖掘中,序列数据挖掘的对象是超市交易记录、证券数据等按照时间、位置顺序排列的数据。文本数据挖掘的对象是电子书、网页、各种文本格式的文档资料。

Day-by-Day数据挖掘的对象是每个人每天的行为数据记录,反映的通常是对象的各种主动的行为方式。流数据挖掘的对象是网络监测、电信数据管理等只要联机环境运行就会持续获得的数据。空间数据挖掘的对象是数字地图、遥感数据、交通控制、环境等领域出现的与空间有关的数据。特殊应用数据源挖掘主要包括交易数据挖掘与Web数据挖掘两种。其中,交易数据挖掘的对象主要包括交易ID、交易时间、交易商品、交易金额等与交易行为直接相关的数据。Web数据挖掘的对象则包括内容数据、日志数据、网站结构数据等。

在这个强调可交互的信息时代,任何数据及信息的表达都应该是有趣的,至少是富有亲和力的。一幅优秀的信息图表不能仅仅罗列数据,而应该是一个系统,包括数据分类、逻辑关系、阅读习惯和视觉体验等因素。设计者依靠这个系统引导观看者进入预先设定的主题情景,启发观看者的兴趣,从而传达信息。作为数据挖掘的重要步骤之一,数据可视化可以迅速拉近用户与数据之间的距离,用最合适的方法来展示数据,并表达数据背后的信息含义,这是数据可视化的重要目标。

(1)数据可视化的内涵

数据可视化(Data Visualization)和信息可视化(Information Visualization)是两个相近的专业领域名词。狭义上的数字可视化是指将数据用统计图表方式来呈现,而信息图形(信息可视化)则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。广义上数据可视化是信息可视化中的一类,因为信息是包含了数字和非数字的。

从原词的解释来讲,数据可视化重点突出的是“可视化”,而信息可视化的重点则是“图示化”。整体而言,可视化就是数据、信息以及科学等多个领域图示化技术的统称。其中Visualize是动词,意即“生成符合人类感知”的图像,通过可视化元素传递信息。Visualization是名词,表达“使某物、某事可见的动作或事实”,是将某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。Visualization也可用于表达对某一目标进行可视化的结果,即一帧图像或动画。

在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色和纹理等,增强数据识别效率,传递有效信息。所以,可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。

(2)数据可视化的目的

数据可视化与数据挖掘、商业智能、分析及企业报表共享一个最终目标:实现更多息化支撑的商业决策。即时数据可视化主要是数据探索及发现有洞见价值的手段。它既不是实时报表,也不仅仅是为了生成美观图表。换言之,最有价值的数据可视化通常是基于工作人员不能确切知道他们真正要寻找什么的假设的,更不用说他们能够发现什么。

内森·邱(Nathan Yau)在他2013年出版的《数据之美:一本书学会可视化设计》书中强调了要将数据可视化看作一种媒介而不仅仅是一种特定工具。“可视化是展示数据的一种方式,是对现实世界的抽象反映,与书写的文字一样,也是可以用来讲述不同种类的故事的,”他写道,“纪实文章不能以小说的标准进行评价,对数据艺术的评价也应该与业务仪表盘有所不同。”

Smashing的总编维塔力·弗里德曼(Vitali Friedman)对数据可视化的解释是这样的:数据可视化的主要目标在于,其将数据进行可视化的能力、对信息的传播和交流的作用要清晰且有效,并不是说数据可视化因为功能性要求就显得沉闷,或者要看起来美观就得相当复杂,要有效表达观点,不仅形式上要符合审美,而且功能上要符合需求,两者要齐头并进,对信息稀疏且复杂的数据库提供洞见,并以更直观的方式传达出信息的关键方面。设计师们通常不顾设计和功能之间的平衡,对大量数据生成可视化图表,以至于并不能达到其主要目标——信息的传播和交流。可以说,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。

虽然“可视化”是一个伴随着大数据发展起来的概念,但是利用图表等方式来表现数据即信息的行为却由来已久。陈为等在《数据可视化》一书中认为,可视化与山岳一样古老。中世纪时期,人们就开始使用包含等值线的地磁图、表示海上主要风向的箭头图和天象图。史蒂芬·菲尤(Stephen Few)在他的论文《数据可视化的人类感知》中表示,至少在公元2世纪人们就已经将数据放进表格。但是,直到17世纪才真正出现将定量信息用图形化呈现的思想。1644年,荷兰的天文学家及制图师米歇尔·弗洛伦特范·朗伦(Michel Florent van Langren)首次生成统计数据图表,展示了西班牙中部城市托莱多和意大利罗马之间很大范围的经度距离估算。一个半世纪后,苏格兰工程师及政治经济学家威廉·普莱费尔创建了包含线图、条形图、饼图以及曲线图等的分类。

可以说,可视化发展史与测量、会话、人类现代文明的启蒙和科技的发展一脉相承。在地图、科学与工程制图、统计图表中,可视化理念与技术已经应用发展了数百年。

在《信息设计:数据与图表的可视化表现》一书中,作者将常见的数据可视化表现方式归为四类,即示意图、统计图表、地图和象形图标。

一般来说,所有的图表、象形图标、地图等都可以被称为示意图(Diagram),但是从表现形式来讲,示意图是一个相对特定的概念,主要指以插图的形式来表现难以用文字描述的概念、事件等内容。除插图以外,示意图还经常结合图表、图标等元素。其中的插图形式也是多种多样的,不仅包括计算机制图,而且还可以使用照片进行合成。

统计图表的最大特点是对量化对比的柱状图、折线图,以及表示各要素所占比例的饼图等视觉元素的运用,但它并不拘泥于这三种形式。从表现手法上看,可以根据实际需要选择绘制平面或立体的统计图表,其中立体的统计图表往往会给读者带来更强烈的视觉冲击。此外,统计图表以往个人化的刻板形象还可以结合生动的插图或其他视觉元素来改变,例如增加透视效果、运用丰富的色彩等。象形图标,即以图像的形式简单明确地传达信息。象形图标在设计上与示意图有明显的区别:首先,设计象形图标通常不使用文字,这主要是因为文字受语言不通、距离较远时难以识别等限制,而示意图通常是图文结合的;其次,示意图更加形象具体,细节较多,而象形图标则更加简洁,是对事物形象的抽象提炼。在实际应用中,象形图标通常也是成套设计的,以统一视觉形象。

地图就是将真实的地理环境平面化,在统一平面上表现出特定区域内的位置关系。在日常生活中,我们常见的地图都是非常精确的,且大多以地形图为基础设计而成。但对于信息图表中的地图而言,其表现的手法与主题是多种多样的,且往往并不精确,是经过抽象提炼的。即便如此,观者同样可以借助此类地图理解基本一致的区域方向与所处位置。因此,设计信息图表中的地图时,最重要的原则就是能够让人直观地判断出方位。换句话说,就是必须具备易用性。

作为全球最大的、致力于让网民更便捷地获取信息的中文搜索引擎,百度拥有超过千亿的中文网页数据库,可以让用户瞬间找到相关的搜索结果。此外,百度还包括了新闻、贴吧、翻译、音乐、地图、统计、百度指数等非常多样的业务类型,几乎每项业务都需要极为大量的数据作为支撑。百度大数据的两个典型应用是面向用户的服务和搜索引擎。百度大数据的主要特点是:第一,数据处理技术比面向用户服务的技术所占比重更大;第二,数据规模比以前大很多;第三,通过快速迭代进行创新。因此,百度的大数据挖掘与大数据体系是非常值得我们学习与了解的。

百度大数据引擎的整体架构,从最底层的开放云,到中间层的数据工厂,再到百度大脑,三部分共同构成了百度大数据引擎。开放云提供信息基础设施服务;数据工厂主要用于大数据的存储管理以及查询分析;百度大脑更确切地说是一个基于大数据的人工智能系统,它会利用语音识别、图像识别、深度学习等技术,分析和挖掘大数据的价值。

(1)百度的数据来源

2012年百度公布的信息显示,作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB(PB=1024TB)的数据,精确抓取约10亿个网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。过去10年中,百度网页搜索库已从500万猛增到了500亿。

在数据来源方面,百度至少可以从三个方向进行数据获取:(www.chuimin.cn)

第一类数据是互联网上的开放信息与暗网数据。所谓暗网,是指那些存储在网络数据库里、不能通过超链接访问,而需要通过动态网页技术访问的资源集合,不同于那些可以被标准搜索引擎索引的表面网络。迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面拉起一个大网进行搜索,大量的表面信息固然可以通过这种方式被查找到,可是还有很多的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分隐藏的信息是必须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查,这些页面才会动态产生。于是相对地,暗网就隐藏了起来。

第二类数据是用户在使用百度相关产品和服务时所产生的数据,包括个人用户和机构用户。这类数据包括用户注册数据、百度网页搜索数据、百度贴吧和百度知道等产生的数据、安装有百度插件的浏览器数据、百度站长平台提交的数据等。这些数据可以有效地帮助百度了解与自身用户切身相关的数据信息。第三类数据是第三方组织开放的数据。到目前为止,百度已经和国家知识产权局中国专利信息中心、北大图书馆、国家代码中心、中国四维测绘技术有限公司合作并获得其提供的各类数据,极大地提升了百度搜索结果的准确性和权威性。例如,中国四维测绘技术有限公司提供的卫星地图数据可以帮助百度地图获得更加精准的地理数据信息。

(2)百度的数据分类

百度大数据号称建立了中国最大的用户行为数据库,覆盖了95%以上的中国网民,以及50%以上的中国网民日均搜索请求;同时,百度的网盟合作伙伴已经超过60万个,日均PV展示达到50亿次,具体到数据类别上可以分为最基本的四类,包括全网用户行为数据、广告类数据、基础统计数据和人口统计学数据其中,全网用户行为数据包括搜索行为浏览行为、点击观看行为以及用户之前的讨论、交流互动行为数据等;广告类数据包括百度从旗下各类广告产品中获得的展现量、点击量、点击率、独立访客、独立IP、每千次展现收入等数据;基础统计数据包括访客数量浏览量、在线人数、访问深度、停留时间、当前访客活跃程度、跳出率和转化率等人口统计学数据则可以清晰地描绘出百度用户的性别、年龄、收入等基本情况。

从硬件以及组织架构上来看,百度获取数据之后会先将数据存储到各类数据中心,包括阳泉云计算中心、百度云数据中心、南京计算数据中心等。之后进入数据处理环节,包括百度的Hadoop平台、百度基础架构部以及其他自主开发的数据处理平台。最后,百度数据研究中心会进行有关的数据研究与分析。2015年4月24日的百度技术开放日上,百度董事长兼首席执行官李彦宏现身并推出了百度大数据引擎。这反映了百度对该产品的极大重视。简单地讲,大数据引擎将百度的数据、能力和技术向行业开放,行业可以近身接触原本距离甚远的大数据盛宴,百度则寻到了一个新的增长点。这也是百度对大数据处理体系的一次系统性梳理。李彦宏介绍,百度大数据引擎一共分三个部分。

(1)开放云

最基层的架构是开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5K集群。百度开放云还拥有CPU利用率高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了节省能耗的目的。

(2)数据工厂

中间层是数据工厂:开放云是基础设施和硬件能力,我们可以把数据工厂理解为百度将海量数据组织起来的软件能力,就像数据库软件的位置一样,只不过数据工厂是被用来处理TB级甚至更大的数据。百度数据工厂支持单次百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对TB级别大表的并发查询和扫描工作,大查询、低并发时每秒可达百GB,在业界已经很领先了。

(3)百度大脑

顶层架构是百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者沃斯(N.Wirth)曾提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是“数据工厂+开放云”,而算法则对应百度大脑。百度大脑将百度此前在人工智能方面的能力开发出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,还被应用在不少App上,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL),在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。

业界有一种较为普遍的说法,认为谷歌是大数据时代的重要开拓者,至少在新媒体、互联网产业是这样。谷歌的大数据技术架构一直都是全球互联网企业争相学习和研究的重点,也为行业大数据技术的架构树立了标杆。作为全球最大的搜索引擎,谷歌拥有以太级别的数据,依靠的是遍布全球的36个数据中心:美国19个、欧洲12个、俄罗斯1个、南美1个和亚洲3个(中国2个、日本1个)。

从大范围来看,谷歌的数据来自三个方面,一是互联网中的开放信息;二是谷歌的用户,包括普通用户和机构用户;三是第三方机构的数据。

(1)互联网中的开放信息

这部分数据量非常庞大,类型广泛,谷歌可以通过对互联网中的开放信息进行检索、抓取、建立索引等处理以获得相应的数据并为己所用,进而开发出相应的数据产品。谷歌翻译就是一个非常典型的案例。这是谷歌公司提供的一项免费的翻译服务,可提供80种语言之间的即时翻译。它可以提供所支持的任意两种语言之间的字词、句子和网页的翻译。谷歌翻译生成译文时,会在数百万篇文档中查找各种模式,以便为使用者提供最佳翻译。这种在大量文本中查找各种范例的过程称为“统计机器翻译”。某种语言可分析的人工翻译文档越多,谷歌翻译的译文质量就会越高。

(2)来自用户的数据

谷歌的用户既包括普通的个人用户,也包括各类机构用户,这里主要指使用谷歌广告营销服务的企业、媒体和广告代理机构等。在个人用户方面,谷歌会积极地利用用户的注册信息和登录信息来完成基本信息的搜集。同时也会在用户使用谷歌开发的各类产品、服务或者工具时记录搜集他们的行为数据。例如,用户在谷歌中搜索关键词的行为会被谷歌记录下来形成搜索日志,搜索数据又可以为Adwords等广告产品提供支持。在机构用户方面,除了与个人用户一样会留下基本信息数据之外,广告主、媒体代理、机构用户使用谷歌的广告产品生成的使用行为数据也会被记录和搜集,例如Adwords、Adsense等。谷歌积累这些数据可为广告主提供分析报告等增值服务,并进一步优化产品功能。

例如,谷歌可以通过观察人们在网上的搜索记录来完成流感预测。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,这些数据帮助谷歌实现了更加精准的预测。谷歌把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,通过分析人们的搜索记录来判断这些人是否患上了流感。

(3)来自第三方机构的信息与数据

谷歌为了运行某些产品和服务,会通过第三方机构获得数据,这些数据可能是免费获得的,也可能是谷歌向这些机构购买的,例如谷歌地图。谷歌为了获得更准确的地图数据,会向专业的测绘商进行数据采购。美国的Digital Globe,Cybercity等都是谷歌的地图数据供应商,推特和谷歌在2009年10月达成了一份协议,由推特为谷歌提供实时消息,并显示在谷歌的实时搜索服务中。根据该协议,谷歌有权实时访问所有的推特消息,并将其展示在搜索结果一旁,谷歌甚至在其中展示了部分付费的推特广告。

正如上文所述,为了满足自己庞大的数据存储、计算、应用等需求,并为自身产品提供技术保障,谷歌在世界各地建设并运营数据中心,来完成对整个公司数据的处理。

(1)软硬件结合

谷歌对数据处理持“群组”的概念,并将计算机能力视为抽象的数据。即一大群机器一起工作,提供一种服务或运行一个应用。也就是说,谷歌将其每一个数据中心视为一台计算机,各类软硬件系统和资源都围绕着这台“计算机”运转,提供大规模的数据处理过程。在硬件方面,谷歌通过设置数量庞大的机器,再通过数以万计的计算集群,实现更快速的数据检索。在软件方面,谷歌强调快速的数据处理能力,需要做好单机运行和数据分析,并将报告汇总到集群数据中心以运行文件系统,并管理数据中心内部的所有文件。如果有些数据中心正在工作,就需要依赖谷歌在全球范围的存储管理能力将数据打包分发至其他数据中心,再进行查询和计算处理。

(2)开发多种辅助系统

为支持软件系统的正常运转,并统一管理自己的服务器,谷歌开发了多种辅助系统。2002年,谷歌开发了“谷歌文件系统”,拥有了在不同的机器上顺利地传送文件的功能。为开展云端服务,谷歌还开发了“MapReduce系统”,它的开源版本Hadoop更是成为业界标准。此外,谷歌还开发了自动化的决策系统“Borg”用于决定哪台机器最适合某项任务。

(3)不断投入的大数据中心建设

自2009年第三季度起,谷歌耗费在基础建设上的经费数量就呈稳步上升态势,到2013年时,谷歌在基础建设上的经费已经高达16亿美元,其中很大一部分投入到了数据中心的建设与运维方面。受迫于不断扩大的数据规模,谷歌每年都要拿出越来越多的钱投资到服务器、数据中心或其他相关设施上。谷歌亲自打造的数据中心已经拥有超过12年的历史,该公司旗下的所有数据中心几乎都有着这样的特点,那就是高效、使用可再生能源以及环保。在这些数据中心里,内置的路由器和交换机负责全球信息的交换,而它们的信息处理速度大约是家用互联网的20万倍。

亚马逊是网络上最早开始经营电子商务的公司之一,伴随着公司业务的不断拓展,目前亚马逊已成为全球商品品种最多的网上零售商和全球数一数二的互联网企业。与此同时,亚马逊也是大数据领域的佼佼者。在大数据方面,亚马逊最大的特点在于:拥有全球最大的消费者数据库;以收购、并购的方式持续获得各种类型的数据;利用数据服务成为全球最大的云服务商并获得盈利。

从数据来源上看,亚马逊的数据基本来自三个层面。第一是消费者及用户在使用其产品与服务时留下的数据信息;第二是亚马逊在运营过程中主动搜集到的各类数据;第三是通过合作机构、旗下公司获得的数据。

(1)来自消费者的数据

作为电子商务领域鼻祖级的机构,亚马逊已经建立起一套完善的消费者数据搜集体系,除了基本的人口统计信息之外,亚马逊还将消费者留下的包括搜索、购买、收藏支付设定、One-Click设定、Email通知设定、竞价、发帖讨论、参加活动、调查表、与客服的联络、许愿单、社交分享信息、个人提醒服务(比如来货提醒、特殊情况提醒等)、个人推荐等信息进行数据化处理,将其转变为后期可用的数据。

(2)运营中主动搜集到的数据

在亚马逊的运营过程中,主动地进行信息、数据的搜集是必不可少的行为。例如,利用Java Script等软件工具,亚马逊可以获得页面反应时间、下载错误、特定页面的访问时长、页面交互信息(滚动、点击、悬停)、离开页面的方式等信息数据;利用搜索引擎A9来获取用户进行搜索时留下的数据,包括可以整合的使用谷歌、雅虎等搜索引擎留下的数据;利用A/B Testing等调查方法来测试使用者的反应,将得到的信息进行整合,得出有效信息。

同时,亚马逊的相关媒体产品与服务在运行过程中也会自动搜集并记录用户的相关信息。例如,用户IP地址、登录信息、Emai地址、密码、计算机和连接信息(例如浏览器类型版本、时区设置、浏览器插件类型版本、操作系统、平台)、购买历史、URL点选流向(到亚马逊、经过亚马逊、离开亚马逊,包括时间、日期)、Cookie Number、浏览和搜索的产品、拨打亚马逊800电话所用的电话号码等。

(3)从合作伙伴、旗下机构处获得的数据

亚马逊的合作伙伴遍布全球,这些机构通常成为亚马逊获取数据即可用信息的重要来源。例如,亚马逊可以从品牌合作、技术合作、物流合作、广告合作等合作机构处得到账户信息、购买和退货信息。与此同时,亚马逊通过大量的收购与并购行为,获得了种类极为丰富的数据。

亚马逊将数据视为公司的运营与发展之根本,所以它在构建自身数据处理体系时所做的第一件事情就是在组织架构中明确数据处理的重要性。

(1)一级部门架构:数据使用贯穿前端与后端

从组织架构上来看,2013年前后,亚马逊的一级部门大致划分为前端与后端两类。前端部门主要指数字媒体、零售与营销、商业拓展,后端部门主要包括运营部门、卖方服务、电商平台。此外还有客户服务与云计算服务两大部分。其中,零售与营销部门主要负责面向最终用户的产品运营和市场推广活动,部门内部以产品线为主线组成不同的小组,每个小组大概10人,负责整个产品线的运营。数字媒体主要负责亚马逊的在线音乐和Kindle产品,考虑到其特殊性,与其他产品线分开运营。运营、电商以及卖方服务主要统辖仓储物流、支付、数据挖掘以及对卖家的管理和监控,其中的卖方绩效团队对卖家的业绩进行专门管理,太差的卖家会被清除出去。客户服务主要以客户为中心,对接所有部门。

(2)前店后厂的数据中心建设

随着数据中心规模的不断扩张,互联网厂商在建立数据中心时已经不再像以往那样简单地考虑网络资源最好的大城市,而是综合成本、数据调用、网络等因素设立“前店后厂”模式——将大型数据中心建立在经营成本较低的偏远地区,在网络服务核心区域或周边建立小型数据中心。在美国,亚马逊就将自己的大型数据中心放在了俄勒冈州,同时也在“科技中心”的旧金山设立了小型数据中心来保证硅谷互联网公司的需求,并处理对延迟敏感度极高的小部分用户的诉求;在俄勒冈州的大型数据中心的成本要低得多,它们提供一些对延迟不敏感的服务。

2013年亚马逊进军中国,也采用了同样的硬件集散方式。在亚马逊与北京市政府、宁夏回族自治区政府以及西部云基地签署了四方谅解备忘录之后,电力资源丰富、地广人稀的宁夏将成为“后厂”,亚马逊的数据中心会建造在那里。而北京就是“前店”,基于北京成熟的公有云市场和产业链,亚马逊的销售、市场营销、应用开发在北京进行。

(3)不断提升数据处理能力,进入云计算服务领域

亚马逊之所以能成为IBM、微软等巨头在大数据上的强劲对手,离不开其强大的数据处理和运作能力。庞大的数据存储、计算和分发以及应用是亚马逊引以为傲的大数据产品。亚马逊网络服务所提供的服务包括:亚马逊弹性计算网云(Amazon EC2)、亚马逊简单储存服务(Amazon S3)、亚马逊简单数据库(Amazon Simple DB)、亚马逊简单队列服务(Amazon Simple Queue Service)以及亚马逊云端服务(Amazon Cloud Front)等。这些都是在业界具有标杆性的云计算技术。

弹性计算网云(EC2)和弹性MapReduce(Elastic MapReduce)是亚马逊大数据云计算领域中成功而有效的技术,是其数据处理能力的体现。EC2几乎可以认为是迄今为止云计算领域中最为成功的技术。通俗地讲,EC2就是提供虚拟机,它的创新在于允许用户根据需求动态改变虚拟机实例的类型及数量,技术上支持容错并在收费模式上支持按使用量付费,而不是预付费。Amazon Simple Storage Service(Amazon S3)又叫亚马逊简单储存服务,是亚马逊使用最广泛的储存技术,它提供完全冗余的数据存储基础设施,以便随时从网络中存储和检索任何数据。到2013年,S3存储云已经包含超过2万亿个对象,而这距离其存储对象突破万亿大关仅仅过了一年,并且仍然保持着惊人的增长速率。

除了快速、高效的计算和储存技术外,亚马逊的大数据能力还体现在对数据的应用上,而这也成为未来亚马逊大数据战略中的重点发展部分,例如虚拟桌面服务WorkSpaces、云端GPU增强服务AppStream,以及实时的流数据存储平台Kinesis等。

截至2014年年底,淘宝网拥有注册会员近5亿,日活跃用户超过1.2亿,在线商品数量达到10亿;在C2C市场,淘宝网占据了95.1%的市场份额。淘宝网在手机端的发展势头迅猛,据易观2014年最新发布的手机购物报告,手机淘宝和天猫的市场份额达到85.1%。截止到目前,淘宝网创造的直接就业机会达467.7万个。随着淘宝网规模的扩大和用户数量的增加,淘宝网也从单一的C2C网络集市变成了包括C2C分销、拍卖、直供、众筹、定制等多种电子商务模式在内的综合性零售商圈。

事实上,以上这些数据中都隐藏着巨大的价值。从数据源头来讲,淘宝网拥有的海量数据主要来源于三个渠道,即站外数据、站内数据及访问数据。

(1)淘宝站外的引导性数据

主要是淘宝网外部的数据,包括相关的广告点击、搜索引擎上的搜索数据、SNS上的推荐与链接、关联软件的操作与推荐等。这些数据是通过间接的导流与推送链接到淘宝网的相关页面上的。

近年来,随着淘宝网开放化程度的日益加深,站外流量与日俱增,以站外广告及导流网站为主所产生的站外数据日益丰富。这些站外数据对淘宝平台来讲有着至关重要的作用,它们能够比较全面地反映用户的搜索行为、偏好、媒体接触及使用习惯,以及诸多潜在的购物需求。2009年,淘宝旗下购物分享平台“爱淘宝”全面上线,所有通过站外平台的点击行为都要汇集到“爱淘宝”平台上,这样就使得复杂而庞大的站外流量有了统一的汇总平台,数据的价值得到了极大的提升。

(2)淘宝站内数据

淘宝站内产生的数据是淘宝网最大的数据来源之一,这些数据的产生与买卖双方的交易密不可分,同时也围绕着交易产生了相关的信息与数据,包括内部搜索、站内SNS社区、页面浏览与点击、会员及用户相关页面、购买与交易数据、后台管理数据以及即时通信数据等信息。这些数据信息更能直观而细致地反映淘宝网站内用户的商品浏览行为及习惯,最直接地捕捉到用户的交易行为、商品偏好及相应的需求、爱好及口碑等信息。这里涵盖了淘宝网的消费者全面而详实的网购信息,能够比较准确地描绘出用户画像,具有极强的营销价值和沟通价值。

(3)直接访问数据

这部分数据主要来源于浏览器访问、软件访问等。这部分数据能够有效地洞察用户的网购入口偏好及行为。

(4)无线端数据

正如此前提及的那样,随着无线互联网的飞速发展,淘宝无线端的成长在近两年迎来了一个高峰。与此同时,随着淘宝在无线领域的布局越来越深入,无线端的产品日益丰富,加之其以“插件植入”等方式在其他客户端软件上的布局,淘宝网无线端的数据构成了海量的数据阵容,能够全面反映出无线用户的特征。

淘宝的海量数据从源头被收集汇总到数据库中,然后由数据处理部门进行数据的筛选、运算,最终形成不同的应用。淘宝拥有独立的数据运营部门和数据团队,拥有自己的数据存储仓库和计算平台,用大数据技术实现数据价值的最大化发挥。