首页 理论教育高校图书馆大数据应用模式实证分析

高校图书馆大数据应用模式实证分析

【摘要】:图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。

本研究以知识管理理论为图书馆大数据服务和应用的支撑理论,结合大数据特征,应用包含社会网络和语义网的大规模网络分析方法构建大数据分析模型,采用Hadoop分布式平台和Spark内存计算框架为主要开发工具,按照从大数据收集、大数据处理到大数据应用的思路开展研究。

(1)构建了高校图书馆大数据应用模式框架。

(2)在所提出的应用模式框架的范围内,即遵循“数据收集、整合和存储”“数据处理和分析”和“知识展现与服务”三层架构,同时密切结合当前图书馆各类服务的具体需求,有针对性地提出了6种高校图书馆大数据服务和应用的具体解决方案,并进行案例分析。

(3)以图书馆馆藏书目数据库、中文期刊和学位论文数据库为基础构建图书馆大数据的基础数据,结合大规模网络分析方法和高性能的Spark内存计算框架,开展了个性化推荐的实证研究。

本研究具有以下价值:

(1)学术价值

①图书馆科学。本书提出一种以元数据模型构建为数据应用基础,以大规模网络分析为核心方法,以知识展现与服务为目标的高校图书馆大数据应用模式体系,推动了图书馆数据服务在模式和应用方法上的研究。

②服务科学。大规模语义网分析方法应用于学科知识挖掘、智能导航与知识推理,以提升图书馆数据服务效率和水平;大规模社会网络分析方法应用于科研创新合作研究主题挖掘,隐性知识的共享和转移等领域,以高效准确地提供个性化信息推送服务,推进知识创新和提高决策效率。大规模网络分析方法的应用探索对于服务科学领域方法论研究有重要价值。

③数据科学。本书通过各类模型构建和分析,提供大数据环境下数据整合、数据分析到数据服务模型的方法和技术思路,对于研究大数据技术在目标领域应用具有重要理论价值。

(2)应用价值

为应对基础设施挑战,基于图书馆有限的计算设备,采用中低端硬件构建的大规模计算机集群,应用分布式、开源、高效的Hadoop+Spark+GraphX软件框架和内存计算技术开发应用系统,对于高校图书馆降低设备投入成本,进行资源集约化管理具有重要的应用和推广价值。

另外,在研究过程中还存在以下问题,值得进一步深入分析和讨论。

(1)“科学知识图谱”[1]和“Google知识图谱”[2]的比较和分析。

以社会网络分析和可视化方法为核心的“科学知识图谱”已成为图书情报领域研究不可或缺的手段,将网络分析方法与新兴的语义网和本体技术结合起来而产生的“Google知识图谱”是近年来为适应大数据环境下海量知识融合和创新的有力工具。这两类“知识图谱”虽名称相近,内涵却相去甚远,因此有必要深入讨论。

“科学知识图谱”是一种基于社会网络分析的方法。力图将科研活动的主体(如科学家)或具有共同特征的群体(如学科知识单元)作为研究对象,构建网络模型,并应用网络分析相关算法(如图聚类算法等)进行挖掘,以期发现领域知识,“科学知识图谱”是知识管理过程中的一种关键方法,主要应用于科学计量、引文分析等领域。[3]“Google知识图谱”是基于语义网和领域本体的大规模语义网知识库,由Google公司率先提出,主要致力于提供海量数据的智能检索服务。两者都是本研究涉及的重要方法或工具,由于在学术界缺乏研究,极易混淆,因此必须对其进行深入的比较和分析。

(2)图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。

本书先对两类知识图谱进行系统分析和比较,接着对各种应用模式及实证研究加以总结,最后对研究的前景进行展望。[4]