首页 理论教育搜索引擎的优化检索功能

搜索引擎的优化检索功能

【摘要】:搜索引擎的一个核心功能是其检索功能。从现有的搜索引擎来看,它们都已具备了诸如布尔检索、词组检索、截词检索、字段检索、限制检索和位置检索等基本检索功能。网络信息检索工具一般以符号来代替布尔关系,形象地表达布尔检索的功能。假如检索工具支持模糊检索,上述提问能够达到预期检索效果。在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。

搜索引擎的一个核心功能是其检索功能。从现有的搜索引擎来看,它们都已具备了诸如布尔检索、词组检索、截词检索、字段检索、限制检索和位置检索等基本检索功能。

1)基本检索功能

(1)布尔检索(Boolean)

所谓“布尔检索”是指通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系的检索方法。主要的布尔逻辑关系词:AND关系、OR关系、NOT关系。网络信息检索工具一般以符号来代替布尔关系,形象地表达布尔检索的功能。如加号“+”表示布尔关系AND,减号“-”表示布尔关系NOT,默认值为布尔关系OR。如果我们要查找关于日本核辐射的信息,检索结果中不能有“中国”这个词,则我们可以这样表示“日本+核辐射-中国”,注意,减号前应空一格,否则得不到理想的搜索结果。

(2)截词检索(Truncation)

所谓“截词检索”是指在检索式中用专门符号表示检索词的某一部分,允许有一定的词形变化,因此检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。例如检索式comput*将检索出包含computer,computing,computerized等词汇的结果。

(3)邻近检索与短语检索(Near运算)

邻近检索又称“位置检索”,是通过检索式中的专门符号来限定检索词在结果中的相对位置。目前应用广泛的主要是“(nw)”和“(nN)”这两个关系。(nw)中“w”含义为“nWord”,表示此算符两侧的检索词必须按此前后邻接顺序排列,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。nw检索式:second(w)world war,结果只会包含second world war,而不会出现the second war in the world.(nN)表示两词间插入最多为n个其他词,包括实词和系统禁用词。检索式:environment(2n)protection,对应结果会有environment protection;protection of the environment;protection of water environment等。

2)高级检索功能

(1)自然语言检索

自然语言检索指用户在检索时可输入自然语言表达的检索要求,检索工具在接收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质主题意义的词汇,例如各种副词介词、代词、常用请求词、检索提问词,然后将余下的词汇作为关键词进行检索。这种方法是目前通常使用的方法,随着信息处理技术的发展,关键词的提取将会根据句子的整体意思以及词汇的重要性来选择。

(2)相关信息反馈检索

在检索过程中人们会发现某个结果非常符合自己的要求,因此希望能进一步检索到与该结果类似的结果,我们称之为“相关信息反馈检索”。相关信息反馈检索的基本原理是将用户指定的网页中包含的关键词找出,通过它们在网页中出现的频率和位置来计算相对于用户指定的网页的相关度,将相关度高的一些网页推荐给用户。例如Lycos的“More Like This”检索。利用相关信息反馈检索,人们获得的检索结果像滚雪球一样,越来越多。

(3)模糊检索

简单地说,模糊检索允许被检索信息和检索提问之间存在一定的差异,这种差异就是“模糊”在检索中的含义。例如,用户想查询有关“中医应用”的信息,但不肯定这一提问在数据库中究竟以什么标引词表示,究竟是“中医的应用”、“应用中医”还是其他?如果用户以“中医应用”作为检索词,而数据库中的信息是以“中医的应用”作为标引词,这时,检索提问和被检索信息之间就存在差异。假如检索工具支持模糊检索,上述提问能够达到预期检索效果。另一类差异来自于用户在输入检索提问时的输入错误,如少键入一个字,打错一个字母等,我们希望检索工具在这时能估计到这些词汇的正确形式,而不是简单地告诉“输入错误”或“没有结果”。例如,用于检索地图信息的MapBlast可在用户输入错误的街道名的情况下,仍然检索出正确的地图信息。

(4)概念检索

所谓“概念检索”是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果。例如,检索“automobile”时能找出包含“automobile”,“car”,“bus”等任一词汇的结果。又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。至今为止,Excite在概念检索方面取得了比较明显的成就。