首页 理论教育科学数据管理与共享的研究设计及结果分析

科学数据管理与共享的研究设计及结果分析

【摘要】:数据来源本研究所使用的数据来自CNKI全文数据库,为了尽可能地保证查全率,检索主题为“科学数据”或“科研数据”的相关文献,时间设定为2003年至2013年,共获得2 221条记录。剔除与主题不符、重复刊载的论文和会议文献,有效记录为582条,并下载相应的题录数据。研究过程①统计高频词并构造共词矩阵。高频词不足以概括该领域的研究主题,需要两两统计这48个高频词在文献中出现的频次,利用Excel构造共词矩阵。③研究结果的分析和讨论。

(1)数据来源

本研究所使用的数据来自CNKI全文数据库,为了尽可能地保证查全率,检索主题为“科学数据”或“科研数据”的相关文献(精确匹配),时间设定为2003年至2013年(检索时间为2014年1月13日),共获得2 221条记录。剔除与主题不符、重复刊载的论文会议文献,有效记录为582条,并下载相应的题录数据。

(2)研究过程

①统计高频词并构造共词矩阵

第一,关键词的预处理。抽取题录数据中的关键词,在词频统计之前进行关键词的消歧处理,如将“data curation”中文译名统一为“数据监护”。第二,统计关键词频次并构建共词矩阵。利用Excel统计分析功能统计关键词的出现频次,并截取频次不小于5的48个关键词作为科学数据领域研究方向和热点的高频关键词。高频词不足以概括该领域的研究主题,需要两两统计这48个高频词在文献中出现的频次,利用Excel构造共词矩阵。(www.chuimin.cn)

②基于共词矩阵的因子分析

在共词矩阵的基础上,利用SPSS软件进行因子分析,进而展示该领域的研究主题和结构。因子分析的目标是用尽可能少的因子去描述众多的指标或要素之间的联系,根据相关性大小把研究对象的变量分组,使相关性比较密切的几个变量归在同一类中,每一类变量就成为一个因子[83]。因子分析中,为了消除共词频次差异的影响,首先根据相关性将48×48的共词矩阵转化成斯皮尔曼相关矩阵。在此基础上,利用主成分分析法(Principal Components)、协方差矩阵(Covariance Matrix)和平均正交旋转方法(Equamax)进行因子分析,得到主成分列表,并根据各主成分内因子载荷的分布情况,结合文献内容对主成分进行命名。

③研究结果的分析和讨论。

通过因子分析获得了国内科学数据领域研究论文关键词的聚类结果,结合相关主题的文献对研究结果进行进一步的阐释说明,确定我国科学数据领域的研究主题和结构,并深入分析相关主题的研究内容。