主题检索语言
1.什么是主题法检索语言
主题法检索语言是另一种从内容角度标引和检索信息资源的方法。它不像分类法以学科体系为中心,而是利用词语来表达信息资源中论述的主题概念。用来表达信息内容的词语称为主题词。主题词不同于自然语言,它是将自然语言中经过人工规范后的词汇,即经过词汇控制的词语。所谓主题法,就是以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识、编排、组织和查找文献的排检方法。主题指文献所具体论述的对象和研究的问题。它以语词作为检索标识,按字顺排列,直观性强,也是二种普遍使用的信息组织方法。该方法提供了一种直接面向具体对象、事实或概念的信息组织方法和信息检索途径。
2.主题法检索语言的类型[1]
1)标题法:也称标题词法,是主题法系统中最早出现的一种,它是以标题词(规范的事物名称、名词术语)作为文献主题内容的标识和检索标识。标题法的主要特征是事先编表,标题词以固定的组合方式组织在主题表中,形成标题,检索按既定组配执行。标题表通常由一个主表和若干个辅助表组成。《美国国会图书馆标题表》(LCSH)是当今最著名的标题表。标题法比较直观、容易掌握;查找速度快,但查全一门学科或具某一詹l生事物的文献却较为困难。
2)叙词法:又称为主题词法,是将自然语言的语词概念,经过规范化和优选处理,通过组配来标识文献主题的方法。叙词具有概念性、描述性、组配性的特点。叙词法综合了多种信息检索语言的原理和方法,采用灵活的概念组配,并在词与词之间建立参照系统。叙词法适用于计算机和手工检索系统,是目前应用较广的一种主题检索语言。CA、EI等著名检索工具都采用了叙词法进行编排。我国目前使用最广的《中国分类主题词表》(前身是《汉语主题词表》)就是属于叙词法,有电子版和印刷版两种形式。《中国分类主题词表》是分类主题一体化的词表,与《中图法》相互对应,这对文献信息的组织和检索十分方便。而且各个主题词及其之间的关系是严格控制的,从而构成一个严密的语义网络,为建立高效的文献信息检索系统提供了保证。
3)关键词法:关键词是指出现在文献标题、文摘、正文中,对表达文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。使用关键词对文献信息进行描述、建立主题检索系统的方法称关键词法。由于关键词能深入、直观地揭示信息中所包含的知识,而且符合人们的思维习惯,因此关键词法在信息组织中得到了广泛应用。网上各种各样的搜索引擎和数据库大多采用了关键词法组织信息资源,如网易、搜狐等搜索引擎,中国科技期刊数据库等也使用了关键词法来组织信息。由于关键词法的词语不规范,影响了文献信息的查全率和查准率。
4)自然语言法:自然语言法是不进行标引,直接利用计算机的功能,通过自然语言中的词汇或词组组配对文本形式的信息资源进行匹配检索的方法。这种方法又称文本检索或全文检索。全文检索可以是整个文本,包括文章、专利或整本书,也可以是标题、文摘等。近年来,随着电子文本的普及,全文检索逐渐成为检索的重要方法。
3.主题法检索语言的特点
1.灵活性。主题法检索语言打破了类目或者职能体系的限制,主要采用一些在档案检索中使用频率较高的语义相关、概念等级相关和族系相关的名词术语,或者概念明确、形式固定、专指性强的术语、专称和词组对档案文献的内容进行高度概括,从而达到标引和检索的目的。也就是说,主题法检索语言是以语言为基础的,语言表达的多样性和灵活性,决定了主题法检索语言在表达档案文献内容方面的灵活性。
2.通俗性。由于主题法检索语言是用自然语言来标识的,不必象分类检索语言那样转换成代码,而且所选用的名词术语、专称、词组等大多数都通俗易懂,对于部分从字面上不易理解的主题词,在主题表中对其含义进行了简要注释,因此即使是对于毫无档案专业知识的人来说,也能十分顺利地应用主题法检索语言来检索出自己所需的档案文献信息。这对于实现档案文献信息综合数据库的资源共享,改进档案检索系统与用户的见面效果,更好地为用户提供档案信息服务具有十分重要的意义。
3.多元性。在应用主题法检索语言过程中,可以选用主题表中两个或两个以上的正式主题词进行组合搭配,在词与词之间建立起语义关系或逻辑关系,从而产生一个复合式的具有特定含义的新概念,用以表达档案内容中用单个主题词难以表达的特殊主题。它不仅可以用数量有限的正式主题词,在一定范围内扩大检索空间,提供变化多端、精细、准确的检索途径,而且经过词素轮排后,所有独立词都可作为查词入口,大大增加了检索途径,从而为多元检索创造了条件。