网络信息检索工具
1.什么是网络信息检索工具
网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
2.网络检索工具的特点[1]
- 1.信息检索服务的开放性
在因特网这个大型系统中包含信息资源、信息设备、信息通道、信息检索软件及信息终端等子系统,各个子系统都是开放的,而其信息资源面向所有用户
- 2.超文本的多链接性
以超文本技术为基础链结构将小同地方的相关信息有机联系起来,使用户可以通过点击文本或图表中的超文本链接点访问另一个相关的文档,不仅能够指向同一文档中的不同段落,同一服务器的不同目录和文档,还可以指向世界上任何地方任何服务器及其任何目录的文件。通过这些链接,信息检索能够以交互和跳跃式的方式进行,从而达到浏览检索的目的。
- 3.操作的简易性
网络信息检索工具一般采用Client/Server结构,通过交互式的图形界面,为用户提供友好的信息查询要求,系统就会自动向适当的服务器提出请求,使因特网检索资源能够广泛地深入到学校、家庭、办公室乃至每一个人。
3.网络检索工具的工作原理[2]
网络信息检索工具的工作原理可以概括为:通过自动索引程序robot(或人工)来广泛搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以Web页面的形式向用户提供有关的资源导航、目录索引及检索界面。用户可根据自己的信息查找要求,按照该检索工具的句法要求等来通过检索界面输入想要查找的检索项、提问式。系统检索软件接受用户提交的检索提问后,按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等进行识别后,代理用户在数据库中检索,并对检索结果进行评估比较,按与检索结果的相关程度排序后提供给用户。
4.网络信息检索工具的分类[1]
网络信息检索工具按其检索方式与所对应的检索资源大体分为以下几种类型:
- 1.FTP(文件传输协议)类的检索工具
这是一种实时的联机检索工具,用户首先要登录到对方的计算机,登录后即可以进行文献搜索及文献传输有关的操作。使用FTP几乎可以传输任何类型的正文文件、二进制文件、图像文件、声音文件、数据压缩文件等。在这类检索工具中,Archie是最常用的。Archie是自动标题检索软件,它借助于FTP来访问。用户只需告诉其要检索文件名的有关信息便可获得文件所在的主机名、路径。有了这些信息后,用户可以利用FTP获得自己想要的文件。与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。
- 2.基于菜单式的检索工具
这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP或Telnet命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。在这类检索工具中最常见的是Veronica和Jughead。如Veronica用于检索可由Go—pher菜单访问的信息资源,是与Gopher配套的检索工具。它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。
- 3.基于关键词的检索工具
WAIS(wide area information serve)信息服务软件是基于关键词的检索工具。使用WAIS用户不必操心检索信息在网络中的哪台计算机上,也不用关心如何去获取这些文件。WAIS检索步骤如下:先从WAIS给出的数据库中用光标选择自己希望检索的数据源名称;在选定的数据源范围内进行关键词检索,系统会自动进行远程检索;查询完成后,WAIS在显示检索结果时,将结果与检索词按相关度权数大小排列,供用户选择;WAIS不仅可以显示文件的出处,而且可以将文件中的信息显示出来,供用户联机浏览。
- 4.基于超文本式的检索工具
著名的www是一种基于超文本方式的信息查询工具,通过将位于全世界因特网上的各站点的相关数据库信息有机地编织在一起,从而提供了一种界面友好的信息查询接口,用户只需要提出查询要求,至于到什么地方查询以及如何查询均由Www自动完成。www上的检索工具按其搜索的数据库类型可划分为指南类和检索类。指南类的数据库包括了Web文档标题索引树、URL和描述信息的数据库,而且包含部分文档的关键词、摘要,甚至全文信息,这类程序库是由程序来创建和维护的,用户可以依靠这些程序定期访问LycoS、Web2Crawler、Alta、Vista、Excite、InfoSeek等。www上的检索工具不仅可以搜索www上的信息,也可以搜索因特网上的其他信息资源,如FTP、Gopher、新闻组等,www大有成为因特网上标准检索工具的趋势。
- 5.多元搜索引擎
多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,且速度慢。