书目数据库
1.什么是书目数据库[1]
书目数据库是存储某个领域的二次文献(如目录、题录,文摘等书目数据)的一类数据库,有时又称为二次文献数据库,或简称文献数据库。主要提供文献的题名、作者、出处等基本书目信息,有的提供文献,常见的书目型数据库有:《生物文摘》、《全国报刊索引》、《中国学术期刊文摘》、《科学文摘》等。
2.书目数据库的发展背景[2]
在各种数据库之中,书目数据库是出现较早的一类数据库。从1964年第一个书目数据库——MEDLARS开发成功并投入检索服务以来,世界各国已建立了数目众多、种类多样的书目数据库。在可提供联机检索的数据库中,书目数据库也占据着主体地位,几乎覆盖了全部专业领域的各类文献。书目数据库之所以增长如此迅速,影响如此之大,是有其特定的历史背景的。
第一,书目数据库的出现和发展有其情报政策背景。在当代,信息被公认为是财富和实力的象征,控制和处理信息的能力被认为是一个国家科技发展水平、社会进步程度和国际地位的标志。世界各国特别是发达国家都把信息作为一种战略武器,控制信息成为国家的基本政策,也成为民间产业的关心重点。这是书目数据库发展的情报政策背景。
第二,书目数据库的发展也有其一定的社会原因。在资本主义国家,通货膨胀使图书馆经费日感短缺,书刊的涨价十分惊人,而科技图书的出版数量却在不断增加,许多图书馆感到无力采购读者所需要的书刊,不得不加强馆际互借、照相复制等工作,此外,还致力于建立合作网络,实现资源共享。这方面采取的一个措施,就是建立和利用机读数据库。如美国国会从1969年起发行机读目录(MARC)磁带,俄亥俄学院图书馆中心OCLC在国会图书馆MARC磁带的基础上进行共享编目,建立反映该网络各成员馆藏书的机读数据库,并且由此导致了像洛克希德、系统发展公司及书目检索服务公司等这些情报检索服务商的发展,从而为机读数据库的大幅度增长铺平了道路。
第三,书目数据库的发展更有其技术背景。书目数据库同计算机化的照相排版技术相结合,使得那些传统的印刷型文摘索引的出版者同时也生产同印刷型检索工具相对应的机读型检索工;艮,即书目数据库,并以磁带形式发行。另外,计算机性能的提高和价格的不断下降,也有力地推动了书目数据库的发展并提高了它的利用率。
3.书目数据库的种类[3]
书目数据库按其存储信息的性质可以划分为文摘索引数据库和图书馆目录数据库两种类型。
①文摘索引数据库
文摘索引数据库的内容与书本式文摘索引相同,主要是简单记载有关领域某一时期发表的文章,供人们检索和查询。它提供文献确定的来源信息,即文摘对应的原始文献,但一般不提供原始文献的馆藏信息。
②图书馆目录数据库
图书馆目录数据库,通常又称为机读目录(Machine ReadableCatalogue,MARC)。它是指以特定代码形式和特定结构预三录在计算机存储载体上的、用计算机识别和处理的目录。简单地说,就是一种经过人们编辑、组织,以机读形式出现的书目记录的集合。它将传统卡片目录的内容以标准数据形式记录在计算机的存储载体上,通过计算机进行识别,以供用户查阅。机读目录主要记载特定图书馆实际收藏的各文献资料的书目信息和存储地址,它是一般用户利用计算机查找图书馆资料的工具,更是作为图书馆业务部门的业务管理工具。它的数据内容详细,除文献外表特征的描述信息外,还有许多管理信息、馆藏信息等附加信息,而且具有比较统一的记录格式。
4.书目数据库的特点[3]
书目数据库相比其他类型的书目产品和其他类型的数据库,主要有以下特点:
①便于对书目数据的管理和维护。与传统的书目相比,书目数据库是将文献的各种特征信息用特定的代码形式和结构存储在有关媒体上,并能通过计算机的硬件识别的一种形式。它可以应用计算机软件对那些从媒体上输入计算机的代码按不同的要求进行加工、编辑和输出,随时供用户使用,从而使资料数据得到更大程度的有序化和可操纵化,从而便于书目数据的管理和维护。
②检索快捷,具有较高的查全与查准率。同手工检索比较,利用计算机从书目数据库进行检索不仅可以大大节省时间,而且由于书目数据库在存储密度、便于处理等方面的优越性,使它可以达到更大的标引深度和更及时的更新,从而保证了较高的查准率与查全率,使检索者在避免遗漏重要资料方面增强了信心。
③数据结构简单,记录格式固定,生产费用低廉。相对其他类型的数据库,书目数据库结构比较简单,记录格式也比较固定,生产费用相对较低,这也是书目数据库的另一优势所在。
④便于产生其他类型的书目产品。书目数据库除可供情报检索之外,还可输出卡片或书本式目录以及缩微胶片目录(COM目录)。各种机读目录可以自动地合并,并便于复制和运输传递。另外,还可以利用书目数据库方便地形成各种辅助索引。
除此之外,数据量大、连续性、累积性强、交换方便也是书目数据库的重要特性。
5.书目数据库的用途[3]
首先,书目数据库最重要的用途是进行情报检索服务。联机检索是其提供的检索服务中最重要的一种,它通过提供多种检索人口,满足读者多方位、多角度的文献检索需求,用户可以通过系统终端访问有关联机书目数据库,获得自己感兴趣的文摘、题录等。联机检索服务机构可以通过提供上述服务来获取一定的利益,而数据库生产者则通过收取数据使用费的方式来回收自己的投资。除联机检索外,书目数据库还可用于批式检索服务,如定题服务(SDl)和回溯检索服务。
其次,书目数据库可以用来生产其他形式的检索工具,如出版书本式的检索工具或卡片式目录、缩微胶片目录和光盘数据库。
最后,还可以通过对书目数据库的半成品或成品进行二次开发,使数据产生新的组合,确立新的结构,从而获得特定1需要的多种专题数据库或专门类型的数据库。这种通过二次开发方式建成的数据库一般规模较小,国外有人将其称之为微数据库(miicrodata·base)。当然对于微数据库而言,其建设的主要问题不是技术问题,而是数据库的版权问题,在建设中应当充分加以考虑。
6.书目数据库的存在形式[3]
目前供发行的书目数据库主要以三种形式存在:
①作为联机系统的数据库。即这种数据库被装入联机检索系统,可进行联机访问。这种数据库的规模可能是最大的,有的可包含数百万篇文献记录。
②作为光盘检索系统中的数据库。这种数据库的载体是CD—ROM光盘,因而发行具有相对独立性。数据库的规模属中等,因为每片光盘的容量为500多兆字节,所包含的文献记录可达数十万篇。
③作为单独发行或提供服务的专业或专门文献类型的数据库。这种数据库的规模较小,适用于在微机上运行,往往配有相应的检索软件,自成系统。
7.书目数据库的建设过程[3]
书目数据库的建设是一个较为复杂的过程,更是一种集知识、技术和劳动密集于一身的产业。它主要包括数据库的总体:设计、数据的获取与加工整理、数据库的建立、数据库的维护与更新以及数据库的评价五部分内容。
(1)数据库的总体设计
①数据库的逻辑设计
逻辑设计主要用来确定所建立的书目数据库的用户类型、内容范围和功能要求。首先要确定用户类型,他们各有何特点和特定需要。他们的需求决定了数据库的内容范围和功能。内容范1司是指数据库应覆盖哪些领域和哪些情报源,数据库内应收录什么类型的数据,记录的数量等。功能要求包括书目数据库的更新、校验、检索、输出、存取控制和数据保护等措施。
②数据库的技术设计
技术设计主要用来确定数据库的总体结构,库内各种:文档的结构,文档之间的关系,存取路径的选择和文档的物理组织;杆式及存储空间的分配等。
数据库总体结构是指库内包括的文档数量、文档类型、各文档之间的逻辑关系,以及数据流程。
文档结构设计是指确定文档的记录内容和格式,包括字段组成、字段定义、长度、划分可检字段与不可检字段、设立字段标识等。一般地,一条书目记录应含有文献号、题名、著者、出版、语种、文摘、主题词、分类号等各种必要的字段,且一般包括文献出处。不同的图书情报机构在书目加工时对原始数据的取舍有很大差异。为了统一起见,可参阅新修订的国家标准GB2901推荐的标准格式以及通用国际目录信息交换标准IS02709。
文档的物理组织方式设计是指根据计算机数据处理方式、操作系统提供的文件组织方式、存取方式、服务程序以及对存取时间、处理时间的要求,确定各种文档物理存储方式,以加快数据库对数据的存取速度。
存取路径的选择是指确定检索途径或检索点以及相应的工作文档,根据检索点来设定索引文档,定义其中的记录。一般说来,每一类检索点都需要一种索引文档来支持。
(2)数据的获取与加工整理
数据的获取与加工整理,也可称为数据准备阶段,是:幅目数据库建设的一个重要环节。它的成功与否决定了书目数据库的最终价值。数据准备通常包括数据采集、鉴选、著录、标引、文摘加工和审核六大步骤,如下图所示:
数据准备流程图
首先是数据的采集,即根据设计方案规定的数据库内容范围和数据类型,采集所需要的数据。收集的对象根据需要而定,可能是普通书刊、特种文献、内部出版物、机读磁带、软盘或光盘。采集手段有订购、交换或利用行政手段收集下属机构的数据,或利用现有的传统数据(如书本式文摘、题录、目录、指南等)。收集工作应主要面向图书馆和收藏丰富的资料单位,做到快速、全面、准确,确保数据来源的可靠性、准确性和完整性。
鉴选是决定书目数据库具体内容范围的基本方式之一。鉴别真伪、分清良莠是必要的,不能“有书必录”。对于低水平或明显有错误的文献应当摒弃。在选择时,可以文献类型为准则,也可以学科为准则,或以问题或任务为准则。以文献类型为准则,可以专收一种类型文献,如研究报告数据库、专利文献数据库等,也可以收录多种类型的文献;以学科为准,就是所谓“面向学科的数据库”,如(化学文摘}数据库,《核物理文摘》数据库等;以问题为准的数据库,如环境数据库,《污染文摘)数据库等;以任务为准的,有所谓面向任务的数据库,如{航空航天文摘)数据库等。
其次是书目数据的著录。著录是对文献内容和形式特征进行分析、选择和记录的过程。为了提高书目数据库的质量和资源共享的便利性,书目数据的著录应按统一的著录原则和标准进行,例如我国有国家标准GB3792.1—83《文献著录总则》,GB37921—83(检索期刊条目著录规则》等,只有遵循了统一的标准进行书目数据的著录,才能保证书目数据库中的全部记录符合标准化和规范化的要求。
标引是给数据库中的各个记录赋予内容特征标识的过程。主要是要给出分类号、主题词和自由词等。标引可以是人工标引,即标引员针对文献内容,根据一定的分类表或主题词表给出标引词;也可以是完全或部分由计算机参与的自动标引或半自动标引。自动标i引的原理是,将分类表或词表及有关规则存储在计算机中,通过编制的程序自动完成标引工作,对于在计算机标引过程中进行适当人:工干预的标引就是所谓的半自动标引了。对于中文文献来说,进行自动标引,首先要解决词的自动切分问题。此外,标引还有另一种方式,称为“无标引”或“全标引”,如单汉字检索方式中每个汉字都由计算机做倒排档,因此不需人工参与,故被称为“无标引”。而从计算机的角度来说,对每个汉字均作了标引词的处理,所以也可理解为“全标引”。相对于中文文献,西文文献的自动标引和全标引实现起来就要简单多了。
之后是文摘的编写。文摘的编写加工也十分重要。编写文摘应当一针见血,简明扼要。文摘可以由文献著者自行撰写,附于文献之前,也可以由文摘员进行撰写。文摘的编写也应当标准化,我国有国家标准CB6447—86《文摘编写规则》作为编写依据。文摘有报道性文摘、指示性文摘以及报道—指示性文摘等多种类型,不同类型的文摘对编写和长度有不同的要求。编写时应根据具体的需要进行相应的编写。
数据准备阶段的最后一关是审核修正。审核修正是指记录正式数据库之前的把关工作。这须由较高水平的人来进行。审核的内容包括数据项是否完备、准确,有关的著录是否符合标准,标引深度是否适当,等等。
经过了这六大步骤,数据的准备工作就已基本完成,下一步就应进行数据库的正式建立工作了。
(3)数据库的建立
①硬件配置与软件选择
进行书目数据库的开发,必须配有相应的计算机系统,应根据需要购买性能良好的计算机硬件设备。当然,通常情况下,计算机主机系统是已经存在的,建库者要做的是完成必要的终端和外设与主机系统的连接,例如,安装光盘驱动设备,扫描和打印设备等。如果建库工作是在联机网络的节点上进行,那么还要完成设备与网络的连接工作,解决网络数据通讯问题。
解决了硬件问题后,建库者需要选择适当的建库和检索软件。建库软件的获取一般有两种途径,一种是购买现成的数据库管理系统软件,另一种是自行编制。当然目前大多采取的都是前一种途径,即直接购买现成的数据库管理软件。我国图书情报部门比较流行的是采用联合国教科文组织推出的CDS/ISIS软件。
②数据录入
数据录人就是将前面所说的文献处理结果转化成机读数据的过程。数据录入通常有两种方式:自动录入和平工录入。
手工录入的方式是对非机读书目信息的录入。计算机系统显示出一个类似于工作单的表格,上面有用户定义的字段名称,用户只需在这些字段名称之后用键盘录入相应数据即可。为了加速录人工作,用户也可以用其他文字处理软件(如MICROSOFTWORD)对书目数据进行录入,之后再做成批转换;另外还可以利用光学字符识别技术(OCR),让计算机根据一定的印刷或打印字体将文本转化为机读形式。
自动录入的方式用于对光盘数据库、磁带数据库或其他类型的机读数据库的数据进行转录或套录。所谓套录,就是从一个或几个计算机中获得数据库的数据,传送到另一计算机中,并将其存储在后者的磁盘或磁带等存储介质上的一种过程或手段。具体地说,就是从联机检索系统或光盘中的数据库中套录下一些书目信息,然后,再将这些书目信息进行编辑、归并、格式转换等再处理,使数据产生新的组合,确立新的结构,从而获得适合特定需要的书目数据库。这种套录建库方式,也称为书目数据库的二次开发。信息技术和数据库业的发展,促进了套录的诞生和推广。目前供发行和服务的书目数据库,不管以何种形式出现,大多可以用适当的方法被套录。这种套录建库优势在于,建库周期短、投资少、易上规模、重复劳动少,使信息资源得到极大程度的共享。但它可能涉及到的产权问题也应引起重视,切勿顾此失彼,带来未曾预计的损失。
当手工或自动录入数据后,在建库软件的支持下,计算机自动生成书目数据库的各种顺序文档。这种数据库内的书目信息有其复杂的计算机能识别、处理的机内记录格式,内容主要包括:一条记录的总长度,书目数据的实际起始地址,每个字段的名称、长度,字段间的分隔符、结束符、记录状态的标识符等。另外,数据库所需的各种索引倒排文档也无需人工干预,而由建库程序自行完成。
③程序检查
程序检查是指计算机自动对录入的文本进行形式上的审查,例:如,括号是否配对,定义了数字形式的字段是否出现文字;定长字段长度是否符合要求,字段的数据形式,如ⅡSBN号,是否正确,各种标识符号是否有错,是否出现了系统禁止使用的专用字符或非法字符等。计算机对数据的校验可分别在不同阶段进行。
经过了这三道工序,书目数据库就已经基本建成了。但在正式投入使用之前,还需要进行试运行。根据规划设计要求,选取一定的检索实例进行检验,通过设计者、使用者和有关专家的鉴定之后,才算完成数据库的建立工作。
(4)书目数据库的维护与更新
书目数据库投入运行后,由于不断地对文档进行插人、删除、修改等操作,可能会使文档的时空性能变坏,或者是由于原来的文档组织方式已不能适应新的要求,或者新书目的激增使得原来的数据量已不能满足用户的需求,故而必须定期地对书目数据库进行维护与更新,以适应用户要求和文献生产情况的变化。维护主要是指对数据库系统硬件设备的维修、保养和对系统软件功能的修改和扩充。更新主要是指对数据库的数据进行添加和重新组织,它对书目数据库的存在和使用,保证书目数据的质量有着尤为重要的意义。
数据库的数据往往不是个别进行插入、删除和修改,而是定期、批量地进行。这种数据库的更新,不仅要对顺序文档进行更新,而且还必须对所有相关的倒排档及索引文件进行重组,这就要求要对新追加的大量数据进行一系列加工处理后重装文献库。重装虽然要开销一定的维护时间,但可以保证检索的快速性,因而是值得的。另外。数据库的更新工作还要随文档的存储方式而:导。顺序文档一般采用尾接扩充法,就是将新的书目记录依次尾接;庄文档后面;索引或倒排文档通常采用重装方法,即将新加记录抽词排序后的文档与原来的排序文档归并,然后重新总体排序,建立索引。
另外,在数据库的维护中一定要重视数据库及其文档的备份工作。一般地,顺序文档和倒排文档都应该保存2—3份副本,即不仅保留本次更新的副本,而且要保留前1—2次更新时的副本。这样,如果由于硬件故障等原因使得数据库文档不能正常使用时,就可用副本重装一次,从而保证数据库的正常运行。
(5)书目数据库的性能指标和评价准则
一个书目数据库建成后,其构造是否合理,建设是否成功,要依据一定的性能指标和评价准则进行评估。这里我们将简要介绍一些目前得到普遍认可的数据库性能指标与评价准则。
①数据收录的完备性
它是指根据数据库的主题范围,看其收录的文献数据是否完整或基本完整。其中最重要的是数据收录的覆盖面。例如,一个特定的书目数据库,其收录是否包括所有类型的出版物,还是某一特定类型的出版物;它所收录的文献包括哪些文种,其时间跨度又有多长;它对核心出版物、一般出版物、边缘相关出版物的收录和覆盖面各有多大。
收录完备性是数据库质量的首要指标。因为用户使用书目数据库的目的,是要获得与自己特定情报需求相关的全面资料,如果数据库本身收录的数据就不够全面,那么即便用户非常专业,进行了细致的检索,所获得的检索结果也是不符合要求的。
②数据的准确性
书目数据库中所收录的数据必须非常准确,这体现在它与原始材料的一致性、著录的标准性等多个方面。数据库不同于利用手工检索的书目文献,在手工检索的文献中,用户对著录格式的差异、同一词拼写上的不同、字符设备的出入等在一定程度上可以容忍和理解,但在利用计算机进行机检时,这些因素,甚至一个括号使用的不同,都会对用户的利用产生很大影响,无论对建库还是检索都会造成一定的混乱。如果说数据库收录材料覆盖面的高低是取得用户信赖的量方面的因素,那么,数据库中数据的准确性,则是取得用户信赖的质方面的因素。它的混乱将导致用户对整个数据库价值的否认。
③数据库的时效性
在这里主要是指数据库的时差,即从一篇文献出版发表到纳人数据库之间的时间差距。数据库的时差就是全库文献的平均时间差距。不同学科领域对时差的要求和敏感性有所不同,对于迅速发展中的学科,如计算机、网络科学,及对现实性要求比较高的信息,如报纸信息,数据库时差的缩短尤其重要。对于情报用户来说,如果他们首先看到了原始文献,然后才从数据库中检索到该文献的信息,用户就会感到该数据库中的信息缺乏新颖性。因此,对一般用户来说的新颖率(即用户最先从库中了解到的信息占库中所有信息的百分比)是数据库时效性的另一种衡量指标。很显然,数据库的时效性与数据库的更新周期有密切的关系。更新周期短,自然能缩短数据库的时差,提高新颖率。
④数据信息含量的充分性
信息含量的充分性,主要是指书目数据库中款目苦录:的完备与充分性。例如,为每篇文献记录设置了多少个项目(字段),是否设有摘要,摘要的详略如何。显然,款目中的信息含量越充分,则越有助于用户了解该文献的外表特征与内容特征,从而有助于用户确认一篇文献,判断该文献对自己检索目的的切题程度和价值,判断有无阅读原文的需要。数据信息含量的高低,是数据库内在质量的标志之一。
⑤词表和标引的适当性
词表和标引的适当性主要是指书目数据库采用的控制同表的质量和标引深度的适度性。一般书目数据库均会采用一定的控制词表(包括分类表)作为标引的依据,因此词表本身的质量是制约数据库质量的根本性因素之一。标引是根据文献内容给出词表中有关词(分类号)的过程。标引的深度就是为一篇文献记录赋予检索词的数目。从用户角度来说,标引深度也就是能检索到该文献内容特征的检索点数。检索点的充分与否,关系到检索的查全性能与查准性能。无论是词表还是标引,适度是很重要的。如果词表与标引太简单粗浅,自然无法对数据进行充分完全的描述,因而不能满足查准性能的要求;但如若词表与标引太细太繁,则不仅会增加词表编制及标引工作的成本,增加数据库占用空间,而且也可能导致误检率的提高。
除了上述五点之外,数据库的经济成本、著录格式的标准与交换性、数据库设计的合理性等也都可以作为书目数据库的性能指标和评价准则。