全文检索
1.什么是全文检索[1]
全文检索是指以全部文本信息作为检索对象的一种信息检索技术。
2.全文检索的特点[2]
1.全文检索的研究内容
全文检索主要指研究对整个文档信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。
全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。
按检索对象来区分,全文检索可分为基于文本和基于Web两种类型。
全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。在中文文档中,基本元素可以是单个汉字,也可以是词或词组。根据索引库中索引的元素不同,可以将全文检索分为基于字表的全文检索和基于词表盼全文检索两种类型。
2.全文检索的优势
与其他的检索系统相比,全文检索系统具有以下的优势:
(1)查全率高于一般的计算机检索系统
如关键字索引检索系统,它们只对一条信息中具有检索意义的语词进行标引,它的标引深度总是有限的,无法满足人们对信息查全率的高要求;而全文检索系统可以对文本中的每个字、词进行标引,其标引的深度达到了极限。
(2)全文检索系统能实现计算机自动标引
主题词索引法和关键词索引法是采用人工赋词标引的方法,这些方法需要标引人员手工对各种信息进行加工处理,给出检索标识,所以效率低;而且标引质量由于手工的参与,带有很大的局限性。而全文检索系统可采用计算机自动抽取文本中的字、词进行标引,从而大大加快了标引的速度。
(3)检索界面友好
基于www的全文检索系统,一方面,通过采用成熟的数据库技术,提供了灵活的信息处理机制;另一方面,通过使用Web技术,可以向用户提供美观、大方、通俗、易用的用户检索界面,整个检索过程对用户是透明化的,用户所要关注的是自己所输入的检索词,并在检索过程中,还能够给用户相对应的一系列支持,如相近检索词等,使用户不需要拥有很多检索的知识,就可以进行信息的检索。
(4)全文检索系统提供多种检索功能
全文检索系统除提供一般的“AND”、“OR”、“NOT”逻辑检索功能外,还能具备位置逻辑检索、字符串检索、截词检索等多种检索功能。
(5)全文检索系统更加灵活
全文检索技术将在原始文献的标题和正文中的每一个有意义的词都作为检索入口,允许对原始文献中的任何章节、段落、句子、词或字进行检索,提供了极高的标引深度。它允许用户利用自然语言进行检索,增大了用户的自由度。
3.全文检索存在的问题
虽然全文检索技术在Web搜索引擎中取得了辉煌的成绩,但仍存在不足,主要有:
(1)对同一页面的重复检索即同一检索词检索出的多条检索结果可能是同一个地址。而这种重复的现象,基本有以下两种情况:
①标题、页面内容及URL地址完全相同,这种重复现象在全文检索系统发展初期比较突出,但目前已经较少。
②虽然在URL上略有区别,但实际上指向的地址却是同一站点的同一页面内容,这种重复现象在各种搜索引擎中比较常见。如在google搜索引擎中输入关键词“科研”,就出现以下内容:“中国教育和科研计算机网”2006年3月10日,URL地址为http://www.edu.cn/;“Home Page科研发展”2006年3月10日,URL地址为http://www.edu.cn/index.shtml。两个URL地址虽然不同,但是指向的却是同一个站点中的同一个页面内容。随着全文检索技术的发展,各个检索系统已普遍具有较好的去重功能,但这种重复的情况仍然存在。
(2)查准率还有待提高
由于全文检索技术的全词匹配和语词本身的特点,会导致查准率不高。例如,某个用户想检索我国长江流域的一些资料,如以“长江”作为检索词,则“长江日报”或是“长江大学”也会被搜索引擎认为是检索结果,从而降低了查准率。对于这种现象,需要对搜索引擎构造一个词典,将可能出现的误检词总结起来作为一个词典存放,将检索结果中的词和词典中的词一一对照,将“长江日报”和“长江大学”等误检词带出的结果自动屏蔽,从而提高检索的查准率。造成查准率低的另一原因则是由网页的制作者造成的,由于有的检索引擎允许web页面制作者自定义关键词及摘要,这样就导致关键词和摘要缺乏一定的规范性,从而直接导致查准率不高。另外,由于各搜索引擎的索引工作由程序自动根据web页面中的关键词的词频及关键词的位置等因素确定索引关键词,因此,一些Web页面制作者为了提高自己的Web页面的命中率以及和大量热门关键词的相关度,通过复制网站或网页的内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引,从而进一步导致查准率降低。
(3)数据更新已成为检索不容忽视的问题
在庞大的Web空问,每天都有大量的网站和网页的变动,一个好的检索工具必须能及时对这些网站和网页的变动进行新陈代谢,剔除过时的网页和网站,否则就会导致大量的无效地址和错误链接,直接影响到搜索的结果和质量。对于错误的链接,一方面要提高数据库更新速度,另一方面应该由广大的网络用户进行测试和信息反馈。事实上,国内大多数Web搜索引擎并没有一种真正行之有效的检索用户反馈机制,由于web资源的更新速度太快,仅仅依靠检索站点本身的精力和时间根本无法有效地跟上Web的数据更新,所以应该依靠用户的反馈意见进行有效的“垃圾清扫”,并且给予这些用户一定的奖励,这样使广大检索用户也投身到提高检索质量的工作中。
(4)检索结果过多
大部分检索引擎都在强调将更多的站点呈现给用户,然而站点质量良莠不齐的现象也会对用户使用网上信息资源产生潜在影响。随着web资源的不断增多,一个检索词可以带出几百个网站和成千上万的网页。而用户在使用这种全文检索系统时,通常只会点击检索结果中的前面几页,而很少注意后面的链接,长久下去,就会造成很多排在检索结果后面的站点或页面得不到有效的利用。显然,质量良好的站点应该优先呈现给用户,这就对检索结果的排序提出了要求。一方面应该存在一个权威的网站评估机构,对网上的各类站点进行评论和评分,将质量好的站点优先推荐给用户,网络用户也可以对各类站点进行投票和评分,分数高的网站将获得优先显示的特权。另一方面,建立先进的数学分析模型,除了对网页的链接数进行分析以外,还要判断这些链接的质量,同时分析网站的结构和客户的点击行为,以及准确识别大量的针对搜索引擎的“作弊”行为,建立合理的算法,对这些网站和网页进行智能化排序。
3.全文检索的发展趋势[2]
从检索技术本身来看,如何更好地解决语词的切分问题以及语义理解、句法理解问题,提高全文检索系统的检索性能,乃至实现具有学习、分析、理解、推理机制的智能化和基于知识库推理机制的信息检索系统,才是未来全文信息检索系统发展的主要趋势。
(1)智能检索
智能检索能根据用户提出的任意字、词,直接对文献资料的内容进行多角度、多侧面的检索,它的检索目标是自动根据用户的提示(如最初的检索项)而搜索出相关的文档。“相关”的确定方式有概念关联和非概念关联两种。概念关联指两个词之间在语义上有确定的联系,这种联系既可以通过同义词表来实现,也可以通过某种算法在语料库中自动抽取;非概念关联指两个词之间的联系可能是暂时的,如中国与亚运会在2000~2006年的文献中是关联的,而其他时间则不是。智能检索还可以进一步采用人工智能技术、自然语言处理技术等,有广阔的发展空间,它的使用将使全文检索的查询效率进一步提高。目前基于文本的关键词智能检索系统主要是基于智能Agent,它以用户需求为先导,根据用户特定的需求以及在一段时间内的偏好为衡量标准来筛选信息,并提供友好的自然语言查询。当用户查询请求不明确时,智能代理Agent会利用知识库中的推理机制推断用户的潜在需求,并进行搜索。
(2)知识检索
知识检索能够在对蕴含在信息中的知识和知识关联进行分析的基础上,在知识处理技术和知识组织技术的支持下,实现基于语义理解的智能化查询。它综合应用信息科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,是一种能充分表达和优化用户需求,高效存取所有媒体类型的知识源(文本、图像、视频、声音等),并能准确精选用户需要结果的高级信息检索方法。
(3)基于XML的信息检索
Web搜索引擎的全文检索技术发展至今,多是基于词语匹配层次上,网络信息的检索效果一直没有显著提高,传统的HTML置标(tag)关注的只是信息在输出设备上的呈现形式,而对信息内容本身的结构化关注不够,这直接导致了以搜索引擎为代表的网络信息检索工具(系统)采用全文检索技术对网页中的每一个字或词建立索引时,难以考虑语词的上下文关系及其具体含义,增大了在无关信息中查询到检索用词的可能性。因此,要从根本上改善网络信息检索工具的检索效果,应该考虑从网页项目和结构的标准化,以及从索引机制的完善做起。而可扩展标记语言XML在这方面有着独到的优势和特点,正逐步成为网络信息发布的页面语言。
XML已经作为一种标准在出版和数据交换中得到应用,为更好的信息检索创造了很好的机会。XML能够用结构化、机器可读的格式来显示数据的语义。一些机构已经开始定义标准模式来获得许多域的语义,而一些内容提供商开始用XML和标准模式来发布信息。于是,有关专业人士指出,“XML将引发其对web查询技术、web数据库技术及Web数据交换技术的全面革新”。
4.全文检索算法[2]
全文检索效率、质量的高低与检索算法的设计密切相关,科学的算法设计可以大大提高检索的速度、查全率和查准率,并且在查全率和查准率之间找到一个很好的平衡点。