首 页 | 成果查询 | 科技奖励 | 网上成果展 | 成果管理 | 推广计划 | 技术供求 | 中介机构 | 科技进展 | 科技查新 | 专家答疑 | 政策法规
   您的位置 >> 首页 -> 科技查新
无标题文档
科技查新概述
查新程序
查新机构与人员管理
文献概述
文献检索知识
计算机检索基础

计算机检索基础

计算机检索概述

    通过计算机进行的文献信息检索称为计算机检索。计算机检索包括光盘数据库、网络数据库检索和互联网信息检索。由于计算机检索具有速度快、效率高,数据内容新、范围广、数量大,操作简便,检索时不受国家和地理位置的限制等特点,已成为人们获取信息的主要手段之一。

    计算机检索是在计算机技术和通信技术发展的基础上建立起来的。它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。回顾计算机文献检索的发展历程大致可以概括为批量处理、联机检索与网络系统三个阶段。

    1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统。50年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”(SDI,Selective Dissemination of information)系统,为用户定期检索和提供一定主题的新到文献(脱机检索,批量处理),并很快得到了推广应用。

    进入60年代,计算机检索进入了实用和全面发展阶段。60年代末,数据通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。70-80年代,联机检索得到迅速发展,一些联机检索系统开始向公众提供商业性服务,如DIALOG、ESA、ORBIT、BRS等许多世界著名的联机检索系统相继投入商业性运营。

    90年代联机检索的发展进入了一个重要的转折时期,随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户/服务器联机检索模式开始取代以往的终端/主机结构,成为联机检索的发展趋势,使联机检索进入了又一个崭新的时期。

    计算机技术的不断进步和信息量成倍地增加,使人们对信息检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不断地发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;二是信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。在信息检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术的研究最为活跃,并已取得了突破性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用信息提供更方便快捷的手段。

 

计算机检索系统的构成

计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。

一、计算机硬件

计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。

二、软件

软件由系统维护软件与检索软件构成。系统维护软件,如数据库管理程序、词表管理程序等,其作用是保障检索系统的高效运转。检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。检索软件可以分为指令式、菜单式和智能接口等。

三、数据库

根据ISO/DIS 5127标准,数据定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。

按国际上通用的分类方法,数据库可以划分为以下类型:

1. 参考数据库

参考数据库(Reference databases)是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库(Bibliographic databases)和指南数据库(Referral database或Directory database)两种。

书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,有时又称为二次文献数据库,或简称为文献数据库。如中国机械工程文摘数据库,属于此类型数据库。

指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。

2. 源数据库

源数据库(Source databases)是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:

(1)数值数据库这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。

(2)文本-数值数据库这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。

(3)全文数据库这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。

(4)术语数据库这是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。

(5)图像数据库这是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。

除上述几种类型的数据库外,还有能同时存储多种不同类型数据的数据库,即混合型数据库。另外,按其载体不同又可分成磁媒体数据库、光盘数据库和多媒体数据库等。

四、通讯网络

由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。随着空间技术的发展,信息检索已进入了信息传递-卫星通讯-计算机技术三位一体的新阶段。

 

基本检索方法

一、布尔检索

利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。

(1)“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。

(2)“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。

(3)“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。

检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。

二、截词检索

截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

(1)后截断,前方一致。如:comput?表示computer,computers,computing等。

(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。

(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

三、原文检索

“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。原文检索可以说是一种不依赖叙词表而直接使用自由词的检索方法。

原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位置运算符。从RECON、ORBIT和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:

(1)记录级检索,要求检索词出现在同一记录中;

(2)字段级检索,要求检索词出现在同一字段中;

(3)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;

(4)词位置检索,要求检索词之间的相互位置满足某些条件。

原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。

四、加权检索和聚类检索

1.加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

2.聚类检索

聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。

聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。

五、扩检与缩检

1.扩检

扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。扩检的方法主要可以有以下几种: = 1 \* GB3 ①概念的扩大; = 2 \* GB3 ②范围的扩大; = 3 \* GB3 ③增加同义词; = 4 \* GB3 ④年代的扩大。

2.缩检

缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定: = 1 \* GB3 ①核心概念的限定; = 2 \* GB3 ②语种的限定; = 3 \* GB3 ③特定期刊的限定。

扩检与缩检是检索过程中经常面临的问题。在联机检索时,由于机时的限制,用户应该在上机前就拟定好扩检与缩检的策略,也就是说,在拟定检索策略时,应该同时考虑如命中文献太少或太多时如何处理的办法。否则,会大大增加机时,而且不易得到满意的结果。

 

检索效果的评价

检索效果是指利用检索系统(或工具)开展检索服务时所产生的有效结果。计算机检索效果如何,直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。

一、评价的目的、范围

评价系统的检索效果,目的是为了准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。

检索效果包括技术效果和社会经济效果两个方面。技术效果主要是指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济效果是指系统如何经济有效地满足用户需要,使用户或系统本身获得一定的社会和经济效益。因此,技术效果评价又称为性能评价。社会经济效果评价则属于效益评价,而且要与费用成本联系起来,比较复杂。

二、评价标准

根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

查全率=[检出相关文献量/文献库内相关文献总量]×100%

例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。

查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

查准率=[检出相关文献量/检出文献总量]×100%

如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。查准率和查全率结合起来,描述了系统的检索成功率。

三、影响检索效果的因素

查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。

1.影响查全率的因素

影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

2.影响查准率的因素

影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。

实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。

 

   
四川省科学技术厅成果处(主办)      Copyright @2004.All Rights Reservd
地址:四川省成都市学道街39号  联系电话:028-86730263、86718520
四川省科技促进发展研究中心(承办) 联系电话:028--85221835
四川省成都市人民南路四段11号5楼
四川省科技信息研究所制作
联系我们