首页 理论教育数字出版中的语言服务:词汇原型及释义

数字出版中的语言服务:词汇原型及释义

【摘要】:较好的方法是给出原型词汇,然后在解释中对其在文档中的形式加以说明。

1.词汇原型

通过词汇抽取软件的设计可直接从词典中抽出某一词汇,但对于不同的语言来说,文档中的词汇可能是原型,也可能是原型词的某种形式,如英语中的现在分词、动名词等。较好的方法是给出原型词汇,然后在解释中对其在文档中的形式加以说明。

2.释义的并置

对抽取出的词汇给出释义时,常会遇到释义的并置问题,即一个词汇有多个释义或称为多项并置释义。如《现代汉语词典》第5版中,一般并置的短语为两个或三个,最多的则有六个:

派【动】:分配;派遣;委派;安排。(www.chuimin.cn)

伟大【形】:品格崇高;才识卓越;气象雄伟;规模宏大;超出寻常,令人景仰钦佩的。

在进行词汇提取时,只通过简单的词汇抽取技术,不经过词性标注、语义标注等复杂的文本预处理过程,没有办法根据上下语境自动给出最相近的唯一释义,所以会给出多个释义。在词典编辑时,释词的词频是决定并置的同义词排序的重要因素之一,由于为了便于学习而将多个同义词系连在一起构成释义时,其中排在最前面的释词往往是最容易或者说更经常地能与被释词相替换的同义词,而这类词也可能频率较高[19]。因此,一般来说给出的第一个释义的意义是最常用的。

今后随着自然语言处理技术的发展,当文本完全自动标注变成现实时,数字出版词汇提取会根据上下文语境给出最相关的唯一的解释,但实现这个目标需要多长时间还是个未知数。

此外,数字出版语言服务中所提取的都是从读者角度看的“生词”,是偏于低频的词;而语言实践中,似乎词汇难度越大、词频越低,其对应的释义数量相对较少,但对该问题还需要更严谨的验证。