知识检索
1.什么是知识检索[1]
关于知识检索的概念迄今为止还没有形成一个统一的定义,常见的关于知识检索概念的表述有以下几种:
① 知识检索,就是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知洪源(文本、图像、视频、声音等),并能准确精选用户需要的结果。
② 知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。
③ 知识检索是针对信息检索中存在的语义性较差、智能性低、知识性较弱等现状提出的一种基于语义和知识关联 运用知识处理技术和知识组织技术,实现信息查询语义化、智能化的一种高级信息检索方式。
2.知识检索的特征[1]
知识检索的基本特征是在对包含在信息记录中的知识和知识关联进行分析,运用知识处理技术和知识组织技术,实现基于语义理解的智能化查洵。而知识组织就是在信息组织的基础上,依靠专门的技术,按照知识的本质属性组织知识、建立知识系统的方法和手段。知识检索是通过对文档原文信息进行语义上的自然语言处理,析出各种概念信息,形成知识库,从概念层次上处理用户的检索提问式。利用知识检索不仅能检索出包含有提问式中的关键词的结果。还能检索出那些与该词同属一类概念的词汇的结果。知识检索有以下几个特点:
(1)利用特定领域可控的概念语义体系,建立层次结构的概念语义体系,具有分析和理解自然语言的能力。知识检索模型对文档内容和用户检索提问式运用自然语言处理技术进行语义层次上的分析和理解,从中吸取出概念信息和范畴信息。
(2)拥有知识库。在知识检索中,文档内容和提问式都以概念和范畴等知识形式存储在知识库中,用来匹配用户的提问式和推理出满足用户需求的新信息。
(3)具有记忆能力。知汉检索通过记忆机制,将析出的概念信息和范畴信息存储到知识库中.并能自动补充与更新,还能进行必要的逻辑推理。
(4)人机接口。知识检索能根据文档内容和用户提问式构造检索要点并输入系统,其输出的是按用户要求进行加工的结果,并可以自然语言的形式提供给用户:
3.知识检索的知识类型[2]
知识检索所涉及的知识类型很广,其中三类知识特别重要。
(1)领域知识。它是描述应用领域中客观事物的重要知识,例如学科分类知识、元数据和专业概念知识。学科分类知识可以表达事物的本质属性和事物之间的本质关联。元数据是各分布式信息源的核心内容的抽象描述。专业概念知识,例如主题词及其相互关联知识,是最基本的知识元素,用来表达与修改文献内容和用户提问,代替单纯的统计方法,可以减少统计评价关键词所产生的副作用。
(2)用户知识。它包含:用户的需求、偏好、背景知识,用户的交互、检索行为知识,以及用户对检索机制和检索结果的反馈知识。利用用户知识改进和创新检索方法,是实现面向用户的个性化检索、主动性检索的根本措施。
(3)专家的专门知识。它是关于知识组织和知识检索的显性知识与隐性知识,尤其重要的是隐性的经验知识,即启发式知识。经验知识是专家将领域知识与具体实践相结合的产物。这类知识的获取与共享,将对检索领域发挥不可估量的作用。
4.知识检索的优势[2]
知识检索具有明显的优势:
① 实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析、预测后的超前性领域成果或知识;
② 提供主动服务方式,如:主动给用户以智能辅助,主动学习用户知识并自动优化用户需求,以及主动提供个性化检索;
③ 面向用户,检索机制的模式和界面服务方式均体现面向用户的思想,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,而不是让用户机械地适应固定不变的系统逻辑,并且将繁重的知识信息存取工作从用户移向了计算机;
④ 集成和综合应用各类知识和各种高效的智能与非智能技术,全面提高检索效率。
5.知识检索的理论基础[3]
知识检索的提出和发展借助于人工智能、语言学、信息科学和认知科学等多学科的先进理论与方法,它们为知识检索的实现,包括知识发现、获取、组织、呈现以及向用户个人知识的转变等各个方面提供了理论指导。国外对此进行了大量研究,并取得了相应的研究成果。
1.人工智能
人工智能(Artificial Intelligence)是有关智能代理的设计与执行的科学,关注人脑智能任务如定理证明、外貌识别、疾病诊断等的自动化。“人工智能依据人类的感知、推理、学习、语言和其他创造性思维活动,为科学、工业、文化领域有效的新研究工具的设计、构造提供有益的帮助。”“人工智能为自动信息搜索、知识表示、自适应、自主学习以解决问题、设计规划、自主分析、知识检索及发现等提供了理论指导。”JVasant Honavar明确提出人工智能是知识检索智能化、自动化及其他相关知识活动的理论基础。
2.语言学
知识与语言之间存在着同构关系,知识是语言所表达的思想内容,语言是知识的表达工具。知识的表现有其特定的语言逻辑,相应的知识检索也必须遵循这些语言逻辑,语言学(Linguistics)为知识检索的过程和方法提供了必需的理论依据。InventionMachine Corporation(IMC) 根据语言学规律开发的语言数据库包括大量的基本词典与基于算法的复杂规则,对数据库中所有信息进行预格式处理(Pre— format)、词汇分析(Lexical Analysis)、语法分析(Syntactical Analysis)、语义分析(Semantic Analysis)和语用分析(Pragmatic Analysis),实现了机器自动阅读并理解文档内容,抽取检索提问的相关知识返回给用户,有助于提高知识检索的速度及准确度。
3.信息科学
信息科学(Information Science)研究人如何生产、搜索、检索和使用信息,特别是人与信息系统的相互作用。信息科学着重于许多不同性质的过程,包括人所面临的信息难题,如解决问题的水平、认识水平和知识水平,应用信息检索系统的查找行为,以及诸如反馈、相关性等互动性问题。Brookes提出的信息科学的基本方程—— △I+(s)=(S+△S)在信息处理和信息改变代理两个概念之间架起了一座桥梁,提出了信息与知识关系的框架,对研究信息的利用及信息向个体知识的转化指明了方向。
4.认知科学
认知科学(Cognitive Science)以认知过程及其规律为研究对象,研究领域包括:语言习得、阅读、话语、心理模型、概念和归纳、认知技艺获得、视觉注意、记忆、行为、计算机及其科学理论等。Belkin的“知识非常态”理论、Dervin的意义建构理论等都注重知识获取过程中人的认知能力在构建概念体系方面的作用,特别关注在此过程中以用户知识需求为导向以及双方的交互作用。因而在构建知识检索系统时应考虑支持检索的认知过程和检索本身的认知过程的最优化方法。
6.知识检索的工具[3]
a.语义网(Semantic Web)是对当前互联网的一种扩展,其通过使用概念本体和标记语言(如XML、RDF、DAML等),使互联网资源的内容能被机器理解,为用户提供智能索引、基于语义的知识检索和知识管理等职能服务。
b.智能代理(Intelligent Agent)是可以在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂工作的代理软件,如信息查询、筛选、管理,并能推测用户的意图,自主制定、调整和执行工作计划,是实现知识检索自动化、智能化的基础技术。
c.语境检索(Context Retrieva1)集成检索技术、查询提问和用户信息,为用户需求提供最佳答案。语境检索涉及三大语境维度:时间维度、社会维度和工作背景维度,提高了检索的语义、语用匹配程度,一定程度上弥补了传统检索技术返回结果相关度差的缺陷。
d.自然语言处理(Natural Language Processing)通过对自然语言文字与话语的语法、语义、语用进行分析,有助于实现基于语义而非关键词的检索。在知识检索中的作用表现在结合语境实现词义消歧,进行文档信息抽取,从文献语料库中抽取明确的自然语言提问答案。此外,自然语言处理已大量应用于自然语言接口,人一机交互模拟人一人交互的认知功能,实现用户与系统之间更充分的交流、理解、学习与协作。
e.知识可视化(Knowledge Visualization)以科学计算可视化、数据可视化、信息可视化为基础,是所有可以用来建构和传达复杂知识的图解手段。知识可视化的目标在于传输见解、经验、价值观、期望、观点、预测等,并以这种方式帮助人们正确地重构、记忆和应用这些知识。知识可视化技术包括6种类型:启发式草图(Heuristic Sketches)、概念图表(Conceptual Diagrams)、视觉隐喻(Visual Meta—phors)、知识动画(Knowledge Animations)、知识地图(Knowledge Maps)、科学图表(Scientific Charts)。