首页 理论教育中国古典文献学:光盘数据库及高使用率大型数据库

中国古典文献学:光盘数据库及高使用率大型数据库

【摘要】:目前使用率比较高的几种大型数据库有:1.《文渊阁四库全书》电子版《文渊阁四库全书》电子版,由香港迪志文化出版有限公司和上海人民出版社合作出版。《四库全书》和《四部丛刊》全文检索数据库中检索的结果,有两种文本显示,一是“原文图像”,二是“全文文本”。

目前使用率比较高的几种大型数据库有:

1.《文渊阁四库全书电子

《文渊阁四库全书》电子版,由香港迪志文化出版有限公司和上海人民出版社合作出版。它分为“原文及标题检索版”和“原文及全文检索版”两个版本。

标题版,共有167张光盘,含有470万页的原文图像,可从四种角度检索《四库全书》中自己所需要的书目和原文:

四库分类检索:在经、史、子、集四部和四部以下的类或类下的属检索,均可列出书目以供选择,点击确认以后则可阅读原文。

书目数据检索:通过输入部分或全部书名文字,可查到所需书目及原文。

著者资料检索:通过输入著者名称及朝代,可检索到所需书目及原文。

卷内标题检索:通过输入卷内标题、作者或段落间语句等内容检索所需文献

全文版,共有175张光盘。全文版除了具备标题版的检索功能外,最主要的是拥有全文检索功能,通过输入任意关键词,可以在几秒或数十秒的时间内,检索到《四库全书》3461种著作79309卷里所有与关键词匹配的资料,检索的结果还可以随意拷贝到文档中进行编辑,也可以打印,异常方便。

检索方法,简单易学。从桌面点击其图标进入检索系统后,在选择菜单中点击“内容检索”;进入后再点击左上角“选择”菜单,在“选择”菜单中点击“全文检索”后即会出现“请输入检索字串”框。在框内输入所要检索的字串后再点击“确定”,稍待数秒钟系统会自动列出全部检索结果,然后逐一点击检索结果的目录,即可查到所需资料。

标题版和全文版都附有电子版《四库全书简明目录》、《中华古汉语字典》、《四库大辞典》、“古今纪年换算”、“干支公元纪年换算”和“八卦六十四卦表”等六种辅助工具,我们可以利用这六种辅助工具了解著者的相关文献资料,查询古汉语字义,进行古今纪年换算和干支/公元纪年换算。

标题版只能通过检索书名或篇名而阅读原文,不能全文检索,使用起来不太方便,而全文版既具备标题版的检索功能,又有其所不具备的更高效快速的全文检索功能。因此,一般使用全文版就足够了。

2.《四部丛刊》电子版

《四部丛刊》收书504种,原分装3134册。虽然规模数量不及《四库全书》,但因都是据珍藏善本、稿本影印,故其版本价值远胜于《四库全书》,是20世纪以来使用率相当高的大型丛书之一,与《四部备要》同为学人所重。《四部丛刊》电子版(原文及全文检索版),由北京书同文数字化技术有限公司、万方数据电子出版社合作出版,共24张光盘。其检索功能与《四库全书》基本相同,可进行书名检索、著者检索、分类检索(书名)和全文检索。其全文检索的方法,是通过输入关键词,既可以在《四部丛刊》全部内容内进行检索,也可以限定书名、著者、分类条件进行检索;还可以实现不同关键词的布尔组配检索。其检索步骤,与《四库全书》电子版相同。

《四库全书》和《四部丛刊》全文检索数据库中检索的结果,有两种文本显示,一是“原文图像”,二是“全文文本”。“原文图像”是据原书摄影而成,而“全文文本”(《四部丛刊》称“文本页面”)则是经特殊处理识别后由原文转换而成的,可复制和重新编辑。一般查阅资料或复制资料,选择“全文文本”最方便。但如在学术论著中引用其资料,则须选择“原文图像”,与原文校核后才能正式使用“全文文本”的资料。因为“全文文本”在识别转换时,与原文会有一定的误差。这点使用时要注意。

3.《汉籍全文检索系统》第4版

《汉籍全文检索系统》由陕西师范大学历史文化学院袁林主持研制。第4版收入文史类古籍2159种,共3.9亿字。其资料数据库分经、史、子、集四类编排,有十三经、二十四史、《资治通鉴》、《续资治通鉴》和多种野史笔记、《楚辞》、《昭明文选》、《乐府诗集》、《先秦汉魏晋南北朝诗》、《全唐诗》、《全唐文》、《全宋词》、《全元散曲》、多种明清小说戏曲、历代诗话和《词话丛编》等。详目可见其“帮助文件”中的“文献目录”(“分期目录”和“分类目录”)。安装和检索都非常方便。

该系统具有多种全文检索功能,既可对其所收全部文献进行检索,也可选择部分文献或一种文献进行检索。除任意字、词、字词串外,还可按其他多种方式进行检索(运算符号可点击相应按钮,也可直接输入,但均为半角符号)。一共有七种检索方式。

“或”运算(十):同一篇中,两个字词串至少有一个。例如,“李白+杜甫”,则含有“李白”或“杜甫”的文献均被检索到。

“与”运算(&):同一篇中,两个字词串同时存在。例如,“李白&杜甫”,则一篇中同时含“李白”、“杜甫”的文献均被检索到。

“非”运算(—):同一篇中,包含第一个字词串而不包含第二个字词串。例如,“李白—杜甫”,则含有“李白”而不包含“杜甫”的文献均被检索到。

“同段”运算(& &):同一段中,两个字词串同时存在。例如,“李白& &杜甫”,则同段中含有“李白”或“杜甫”的文献均被检索到。

“同句”运算(& & &):同一句中,两个字词串同时存在。例如,“李白& & &杜甫”,则同句中含有“李白”或“杜甫”的文献均被检索到。

“靠近”运算(/n):在检索者要求的n个字符(汉字或标点符号)间隔内,两个字词串同时存在。缺省间隔为8个字符。例如,“李白/5杜甫”,则同时含有“李白”或“杜甫”且其间隔字符在5个以内的文献均被检索到。

“模糊检索”:前述组合检索亦可用为模糊检索,使用者可根据需要作出选择。例如,采用“靠近”运算,输入检索条件“司/2如”,即可将前后分别为“司”和“如”,而中间二字不确定者检出。又如,采用“同句”运算检索“司 & & & 如”,则可将前后为“司”和“如”,而中间内容不确定者检出。

具体检索步骤为:先点击进入检索系统,在菜单上选择要检索的文献范围,选定后点击“打开”进入检索界面,再点击“查询”即出现“检索条件”框,在框内输入所要检索的字词并点击“确定”,“查询结果”框内即会列出所查结果的目录,双击查询结果的文献标题,正文窗口即会显示文献原文。点击正文框下部“全文”、“段落”按钮,可按全文或段落显示,段落显示时段前数字为该段序号。检索结果既可复制粘贴进文档编辑,也可以打印出来。

4.《国学宝典》V8.0版

《国学宝典》数据库,由北京国学时代文化传播公司尹小林研制。该数据库不断扩充文献,其V8.0版收录中国古代典籍3800多种,8亿多字。所有典籍都能全文检索,检索结果可以生成文本文件,可以打印输出,并能自动摘录生成卡片,统计任意字词的出现次数和频率。国学网站(http://www.guoxue.com)里有《国学宝典》所收全部文献目录介绍和使用手册。

此外,还有“二十五史检索系统”、《全唐诗》、《全宋词》检索系统等,但这些相对单一的数据库基本上已包含在上述大型数据库中,故不另介绍。

值得一提的是广西金海湾音像出版社和广西师范大学出版社联合出版的《古今图书集成》电子版。《古今图书集成》原是一部百科全书性质的大类书,凡1万卷,1.6亿字。将明末清初以前的古籍文献资料,按经纬交织的原则分类编排。经目分6汇编32典6117部,各部又有10个纬目。该书电子版共28张光盘,虽然没有全文检索功能,但提供了“经纬目录”和“索引目录”两大检索方式,检索比较快捷便利,安装和操作也都简单易学。