普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
1.词汇原型
通过词汇抽取软件的设计可直接从词典中抽出某一词汇,但对于不同的语言来说,文档中的词汇可能是原型,也可能是原型词的某种形式,如英语中的现在分词、动名词等。较好的方法是给出原型词汇,然后在解释中对其在文档中的形式加以说明。
2.释义的并置
对抽取出的词汇给出释义时,常会遇到释义的并置问题,即一个词汇有多个释义或称为多项并置释义。如《现代汉语词典》第5版中,一般并置的短语为两个或三个,最多的则有六个:
派【动】:分配;派遣;委派;安排。(www.chuimin.cn)
伟大【形】:品格崇高;才识卓越;气象雄伟;规模宏大;超出寻常,令人景仰钦佩的。
在进行词汇提取时,只通过简单的词汇抽取技术,不经过词性标注、语义标注等复杂的文本预处理过程,没有办法根据上下语境自动给出最相近的唯一释义,所以会给出多个释义。在词典编辑时,释词的词频是决定并置的同义词排序的重要因素之一,由于为了便于学习而将多个同义词系连在一起构成释义时,其中排在最前面的释词往往是最容易或者说更经常地能与被释词相替换的同义词,而这类词也可能频率较高[19]。因此,一般来说给出的第一个释义的意义是最常用的。
今后随着自然语言处理技术的发展,当文本完全自动标注变成现实时,数字出版词汇提取会根据上下文语境给出最相关的唯一的解释,但实现这个目标需要多长时间还是个未知数。
此外,数字出版语言服务中所提取的都是从读者角度看的“生词”,是偏于低频的词;而语言实践中,似乎词汇难度越大、词频越低,其对应的释义数量相对较少,但对该问题还需要更严谨的验证。
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。是否应该考虑开发适合中文的分析体系?......
2023-11-23
鉴于现代技术不断发展,特别是云计算的出现以及人工智能领域的研究成果将来在数字出版中的应用,数字出版中可能会出现更多的语言层面的服务形式。同时结合目前已经存在的一些自然语言处理在数字出版中的应用形式,如文版编辑与校对、词典编辑和文本难度等,才提出数字出版语言服务这一理念。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
“中国语言文学”和“外国语言文学”均为一级学科,“语言学及应用语言学”为下设的二级学科。但中国语言学还在作为二级学科设置,难以与国际上语言学研究发展的趋势和时代发展需要相适应[7]。中国境内的少数民族语言也是整个中华民族和祖国大家庭的宝贵财富。所以,将中国语言学设置为一级学科问题,是促进中文信息处理的发展所必需。......
2023-11-23
但是DVD电影的这一特性却使学生很有可能太放松,他们感觉不到来自电影对他们的要求,电影不会要求他们回答问题。DVD电影提供丰富地道的语言输入,包括一些书面上甚少出现的口语语素,是非常好的语言学习资料。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
相关推荐