检索效果
1.什么是检索效果
检索效果是指检索系统检索的有效程度,它反映了检索系统的能力,主要包括技术效果和经济效果两个方面。评价检索效果的目的是为了准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,更好地满足用户信息检索的需求。
2.检索效果的评价指标[1]
(1)查全率(Recall ratio),用R表示。查全率就是系统在进行某一检索时,被检出的相关文献量与系统文档中实有的相关文献量的比率。
(2)查准率(Precision ratio),用P表示。查准率是指检出的相关文献量与检出文献的总量的比率,是衡量信息检索系统精确度的尺度。
(3)漏检率(Omission ratio),用O表示。漏检率是漏检的相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度。
(4)误检率(Fall-out ratio),用F表示。误检率就是指误检(检出不相关)文献总量的比率,是衡量信息检索系统误检文献和程度的尺度。
3.提高检索效果的方法[1]
- 1.提高用户使用信息检索系统的能力
用户要充分掌握检索语言、检索技巧和方法,在使用检索工具和系统之前,要了解其性能与特点。这样就能灵活、准确地使用这些工具和系统来完成任务。
- 2.选用质量高的检索系统和工具
检索工具和系统的收录范围、索引语言、标引深度和准确性以及提供的检索途径、检索方法等都是影响检索结果的重要方面,所以需要不断地提高检索工具和系统的质量。
- 3.提高查全率和查准率
- 1)提高查全率
当前,常用的提高查全率的方法有以下6种。
(1)检索词的转换。常见的转换是同义词、近义词、相关词、单复数及缩写形式,如果是动词,还可能有不同的时态。
(2)使用截词符。我们要学会使用截词符“?”、“*”。
(3)使用上位词。使用上位词即指代范围更广的词。
(4)改变布尔运算符。即将连接两个或多个检索词的AND改为OR,可提高检出的数嚣。
(5)改变检索项。若要求检索词位于标题中,或为关键词或主题,检出记录数太少,则可改为要求位于摘要或全文中,检出记录数即可增加。
(6)减少限制条件,增加副主题词。如果前面的检索中有条件,可放宽或去掉限制条件。
- 2)提高查准率
尽管查准率和查全率之间存在互逆的关系,但用户还是可以通过采用分类和主题的方式使两者的比率达到最优。
(1)同时使用分类途径和主题途径,提高查全率和查准率。
(2)从主题途径入手,结合分类途径对检索策略进行修正,提高查全率和查准率。
4.影响检索效果的因素[2]
查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说影响查全率与查准率的各种因素主要来自用户与检索人员的配合、检索策略、标引和检索语言等方面。
- 1.标引的影响
标引人员标引文献的正确性对查全率与查准率有直接影响。如果提取出来的不是有用信息,则以后查找时查准率会降低;如果有用信息没有被提取出来,则以后查找时查全率会降低。有用信息提取出来之后,如果将能够响应的某个查找要求遗漏掉,则用户从这个查找中就查不到会有该有用信息的文献,因而查全率会降低。
文献所能响应的查找要求确定出来之后,在将其转换成标引词的过程中,标引人员遗漏了原文的重要概念,从而使查全率降低。选用了不合适的标引词,使得检索人员利用这个词查出的文献是无关的,因而引起查准率降低;或者检索人员利用正确的标引词查找时,有关文献因标引了不合适的标引词而查不出来,则导致查全率降低。
- 2.检索语言的影响
由检索语言引起的查找失败有两种类型:一是因标引词专指性不足引起的查找失败,一是因标引词之间的含糊关系或虚假关系引起的查找失败。
标引词汇缺乏控制和专指性不足,是影响查准率的不利因素,但高专指性的标引词在提高查准率的同时有降低查全率的趋向。这是因为标引词的数目越多,能够表达的意义差别也就越细致,标引就越难于取得一致。
组配规则不严密,选词及词间关系不规范,或允许使用过多的标引词,则可能引起虚假组配现象,将使查准率降低。
词表结构不完整,词间关系模糊或不正确,标引前后不一致,对查找有很大影响。如果词表不以某种方式把所有关联的标引词集中在一起,那些检索人员就不能将与查找要求有关的全部标引词找出来,查全率就会降低。词表对标引也有很大影响,较好的词表参照系统和等级结构关系能够提高查全率。
- 3.检索策略的影响
所谓检索策略就是为实现检索没目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导,如明确检索要求、选择检索系统(工具)、检索方法、检索途径等程序。为了更好地获得满意的检索效果,在信息检索过程中需要调整检索策略。检索策略主要取决于检索人员的知识水平与业务能力,因此检索策略的优劣是影响检索效率的主观原因。
此外,文献库收录文献不全,检索人员业务不熟练和缺乏耐心,检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等,就会影响查全率。索引词不能准确描述文献主题和检索要求,检索式中允许容纳的词数量有限,截词部位不当,检索式中使用逻辑“或”不当等,就会影响查准率。