您好,欢迎来到华佗养生网。
搜索
您的当前位置:首页基于论文主题词和关键词关系网的检索词扩展研究

基于论文主题词和关键词关系网的检索词扩展研究

来源:华佗养生网


基于论文主题词和关键词关系网的检索词

扩展研究

ResearchofRetrievalWordExtendin9BaseontheRelation-NetsofKeywordsandSubjectWords 黄媛 HuangYuan'

(江西省人民医院,江西南昌)

(JiangxiProvincialPeople'SHospital,JiangxiNanchang330006)

摘要:检索词扩展是提高信息检索效率的重要方法,扩展的方式分为相似词扩展与相关词扩展.关键词和主题词是文献

主要内容的概括,它们间存在相关系与共现关系,利用这些关系构建关键词相似表,关键词相关表,关.主转换表与主题词

共现表,这四个构成词间关系网,由这个关系网实现检索词的各种扩展方式.本文通过理论与实例的方式对关系网的建立与应 用进行描述.

关键词:检索词扩展;关键词;主题词;关系网

中图分类号:TP311文献标识码:A文章编号:1671-4792.(201I)i.0024.04

Abstract:Retrievalwordextending,amajorapproachtoimprovetheefficiencyofretrieveinformation,canbedividedtotwo

modes:similarextendingandinterrelatedextending.Similarandinterrelatedrelationsexistinkeywordsandsubjectwordswhichsum— marizesthemainideasintheliterature.Therelation

nets,withwhichretrievalwordextendingcanberealization,includesthesimilar

keywordstable,theinterrelatedkeywordstable,thekeywordandsubjectwordtableandthesubjectwordtable.Thepaperdiscusses

thebuildingandapplicationofrelation-netswithmeansofthethem2~andexamples. Keywords:RetrievalWordExtending;Keywords:SubjectWords;Relation-nets 0引言

在信息爆炸的时代,用户追求高效的检索方式,在较短 时间内找到准确而全面的信息.系统检索能力与用户检索词 构造能力是检索过程的两个关键因素,前者包括对信息的科 学组织以及对检索词的理解能力,在传统的信息系统中,系 统高查全率和查准率只能达到查询词所能表达的程度【l】.用 户特别是普通用户要提炼准确的检索词不容易,除了汉语多 变的形式外,用户有时也不清楚具体的检索目标,所提炼的 检索词容易出现\"词不尽意\"或\"词不达意\"的现象.构建具有 逻辑关系的检索词库,对检索词进行扩展,是提高信息检索 效率的有效措施.检索词扩展可分为两种:一是词形扩展,主 要是对当前检索词提供字形相似的关键词,目的是帮助用户 正确拼写检索词,或是供\"同义异形\"的参考关键词;二是相 关词扩展,相关词是指与当检索词概念密切相关的关键词, 它们在同一篇文献中同时出现的机率相对高,引导用户进行 下一步检索的方向前者有助于提高检索的查全率,后者有 助于缩小检索范围,提高检索效率. 1检索词扩展研究现状 1.1基于索引词语表的扩展

其原理是通过索引词语表找出与检索词相关联的其它 关键词,达到扩展检索词的目的.索引词语表需建立词语之 间的关联信息,如上下位类关系,同义关系,相近关系等.索 引词语表的构建可直接利用((睨代汉语词典》,对司义词林, 《既代汉语同义词词典》,(q丢学主题词表,《中医药学主题词 表》等.这是一种借助外部词典的方法,虽然在保证语义上的 相关准确性上具有一定的优势,要很好地完善索引词表的语 义关联不容易.因此,这种方法的局限性多,更多的应用于判

断一个语词或者概念能否用来扩展的最初提问式上来阁.用 户检索用词与词典中的标准词汇间存在很大差异,扩展的效 果不理想.

1.2基于本体库的扩展

从哲学上而言,本体论是对世界上客观事物所进行的系 统描述;从计算机领域而言是对元数据的定义及其相关关系 的\"规范\".基于本体的检索词扩展是以概念语义为核心来实 现,能改善传统搜索引擎在语义理解方面的不足.文献【3】通 过本体库的检索扩展与检索历史间的对比,提高信息检索的 效率;文献[4】提出一种基于本体,以面向任务情景的结构化 描述作为信息体内容的语义索引的双向扩展检索方法,通过

实验结果表明这种方法提高了检索的效率和准确率.尽管将此,需要多个关键词进行搭配进行限定或修饰.当以一个学

本体论引入基于知识的检索中得到了很好的应用,但由于本科的文献来衡量这种搭配的词对时,有些词对共现的频率很

体库的建立还处在初级阶段,只有极少数据的领域建有相应高,说明它们间相关性很强,或者表达一个具体的研究点,或基

的本体库,并且缺乏有关本体库建立的标准[5-61.由于构造本者表达一个更专指的概念.这种相关性对于用户是很好的参于 论

体库的艰巨性,这方面研究实际上还是处于\"说\"多\"做\"少的考.如,用户在查找\"第二代互联网\"时,会返回很多信息,这文 主

阶段.并不是检索者的期待,如果系统能提供与当前检索词相关的题

1.3基于共现关系的扩展扩展:\"IPv6\网络安全\"等,为用户二次检索提供参考.共词 和

共现是指在同一篇文献中同时出现多个的关键词(主题现关系分为三种:关键词

共现,主题词共现与关键词.主题关 键

词),通过词对的共现关系描述词与词间的相关性,词对共现词共现.词

频率越大,它们的相关性越强.基于共现关系的检索扩展又(2)相似关系.对同一概念的关键词概括,不同作者可能关 系

可分为两种模式:全局共现扩展与局部共现扩展.全局共现选取不同的表达形式,或词语长短不同,或字顺序不同,或译网的

扩展是指将全部文献中的词组进行相关分析,计算每组词对音不同等等.这种表面形相似的关键词对用户检索也有很好检

的共现频率,将与用户查询关联程度较高的词或者词组加入的参考价值.词语相似关系也可以分为两种:一是关键词相索 词

原查询词的扩展中;局部共现扩展将检索后的文献进行相似,许多词形相似的关键词表达同一个概念;二是关键词主扩 展关性排序

,从排在前面的文献中提取共现语词为扩展词.这题词的相似,通常关键词与对应的主题词间存在一定的相似研

种扩展模式的最大特点是扩展词源于文献,并用于检索,将性.究

文献用词与检索用词实现最大程度的统一.该方法已引起广共现关系与相似关系是词间相互联系的纽带,是建立关

大学者的关注,并在一些检索系统与搜索引擎中得到应用.键词,主题词关系网的基础.要将词间关系网用于检索词扩

但这种方法也存在计算复杂,反速度慢以及和对文献格式要展,需建立4个词语信息表:

求的不足.(1)关键词相似表.将学科论文中所有的关键词形成任

1.4基于专家客户检索历史的词语扩展意组合的词对,并对每个词对进行相似度计算,当相似度达

不同的用户使用同一检索工具,可能会得到不同的检索到一定的阈值时,把该词对

保存于该表中.相似度的计算可

结果.专家用户往往凭借自己丰富的搜索经验以及领域知以利用互信息\"或包容系数…l来测定,包容系数是指相同字

识,能快速提炼出合适的检索词,而普通用户所提炼的检索符数的平方除以两词字符数的平方和.

词往往不能恰当的表达检索目的,严重影响到检索效率.如(2)关键词共现表.计算学科内所关键词对在同一篇文

果将专家用户的这种能力赋予普通用户,无疑将进一步增强献中同时出现频率,通常共现频率越高,两者的相关性越大,

普通用户获取信息的能力[8】.我国已有学者提出基于专家用该表保存所有具有一定共现频率的词对.

户搜索历史的信息推荐系统,提高普通用户获取信息的能(3)主题共现表.类似于关键词共现表,记录相关性较高

力,获得良好的推荐效果.专家学者所提炼的检索词(关键的主题词词对.

词)具有更好的概括性和表达能力,是理想的检索用词.(4)关键词主题词转换表(简称:关一主转换表).首先测

从以上四种检索词的扩展方法来看,词典过于严格的词定关键词主题词词对的相似度,然后测定词对的共现频率.

组不是理想的扩展参照体;本体仅是理想中的扩展库,离现如果这种词对不仅具有较高的相似度,并且共现频率也高,

实还有很大的差距;共现关系是符合文献生产规律,也符合那么这两者就具有对应关系,已有学者通过这种方式实现关

检索词扩展的规律;专家客户检索历史扩展模式把专家学者键词与主题词的自动转换口21.

所提炼的关键词应用到普通用户的检索过程中.这4个表从四个方描述了关键词与主题词之间的内部

2论文主题词和关键词关系网的构建与相互间的共现关系,相似关系,并实现关键词与主题词之

科技论文是研究成果的主要表现形式之一,具有一定的间的转换关系,如图一所示.

这四个表构成词间关系网的核

新颖性,是重要的学术参考资源.每篇论文都标引出3-6个心,不仅单个表具有扩展功能,由于它们之间存在对应关系,

关键词(主题词),关键词是着者对文献主要内容的概括,属多个表组合在起可以实现深度扩展.具体表现为以下5种形

于自然语言;主题词由标引专家根据文献内容进行标识,属式:

规范化语言.关键词与主题词无疑是信息检索的最佳检索用(1)简单的相似词扩展.将检索词与关键词表相似表中

词.关键词(主题词)组合在一起共同描述文献的内容,因此的数据进行相似度匹配,找出相似度高的关键词,实现并返

它们间也存在一定的关系.它们之间主要存在两种关系:回所扩展的关键词.通过相似度阈值的限定,有效控制相似

(1)共现关系.一个关键词不足以反映文献的内容,因词返回的个数. 5 ~

图一关键字与主题词转换图

(2)简单的相关词扩展.词语的共现频率越高,两者问的 相关性越强,相关性越强说明有关这方面的文献越多.检索 词在关键词共现表中进行搜索,根据共现频率的大小返回相 关性不等的相关词.

(3)相似词的相关词扩展.由于关键词的不规范性,一个 关键词所对应的相关词不足以完整反映出其概念的相关词 现状.因此,用户使用当前检索词没有合适的相关词时,可以 通过相似词寻找相关词,实现多途径的扩展. (4)关键词主题词相互转换扩展.主题词与关键词的相 互转换,在信息的组织与检索中有很大作用.关.主转换表 通过相似与共现的原理,描述了关键词与主题词的相互转换 关系.该表与其它3个表都存在对应关系,通过这个表,实现

由关键词到主题词,或由主题词到关键词的转换. (5)基于概念的相关词扩展.主题词是表达一个概念的 规范化词汇,主题词间的共现关系更能表达两个概念的相关 性.该表通过关一主共现表与其它两个表发生关联,从而达 到从主题词到关键词的相似词扩展和共现扩展. 3实例研究

为进一步形象阐述关键词主题词关系网的建立与应用, 以实例化数据来表示.从网络版中国生物医学文献数据库 (CBM)中,选定肿瘤学领导域的文献,由于数据收集与处理 能力的不足,把文献的范围限定在2004版7种肿瘤学 的核心期刊,年限了2000.2006年.提取每条题录中的关键 词与主题词(不包括副主题词),为方便数据统计,把题录导 人MicrosoftSQLServer2000中,并利用SQL语句以及相互 包容公式对相似度进行统计,分别建立如图一所示的4个 表.由于篇幅所限只显了与\"化疗栓塞\"有关的关键词,主题 词.

表一关键词相似表 关键词1关键词2相似度 化疗栓塞栓塞0.5000

化疗栓塞肝动脉化疗栓塞0.5了14 化疗柱塞肝动脉柱塞化疗05丁14 化疗栓塞化疗栓塞治疗性0.44,44 化疗检塞柱塞化疗1.0000 化疗栓塞治疗性栓塞0.4500 化疗柱塞化学栓塞05625

化疗桂塞超选择插管化疗栓塞0444,4 化疗栓塞肝动脉插管化疗栓塞0.4444 化疗栓塞栓塞治疗0.562S 化疗检塞化学拴塞术O4500

化疗栓塞热化疗拴塞0.8000 化疗栓塞动脉栓塞化疗0.6667 化疗栓塞介入栓塞化疗综合征0.4444 化疗栓塞经皮肝动脉栓塞化疗0.4444 化疗桂塞导管动脉化疗柱塞0.5000 化疗桂塞肝动脉化疗栓搴术0.5000 化疗柱塞化学塞栓治疗0.5T14 表二主题词共现表

关键词1关链词2共现频率 化疗栓塞肝癌4 化疗栓塞肝脏肿瘤2 化疗栓塞肝肿瘤2

化疗栓塞药盒导管植入系统2 化疗栓塞a}}柔比星2 化疗栓塞羟基喜树碱2 化疗栓塞栓塞剂l 化疗栓塞胃癌l 化疗栓塞血管紧张索IIl 化疗检塞门静脉1 化疗栓塞肝动脉1 表三关一主转换表

关键词主最词共琨频率相似度 化疗栓塞肝肿瘤80

化疗栓塞化学检塞治疗性80.4444 化疗栓塞多柔比星40 化疗栓塞喜树碱30 化疗检塞肝动脉20 化疗拴塞随访研究20 化疗栓塞导管留置20

化疗栓塞动脉闭塞性疾病l0.0357 化疗栓塞病例报告[文献娄型]10 化疗栓塞穿刺术10 化疗柱塞存活宰l0 化疗栓塞肝肿瘤实验性10 化疗柱塞股动脉lO 化疗柱塞濯注.局部10

表四关键词共现表源于文献服务于文献,不仅容易构建,更新也方便,并且随着 主要词1主最词2共琨频率来源文献的增多,检索词扩展的效果将更加全面与准确.需

化学栓塞.治疗性肝肿瘤l38要进一步说明的是, 相似词扩展并不能完全解决\"一义多词\"基 化学栓塞治疗性肝动脉52于

化学栓塞.治疗性癌.肝细胞20的检索矛盾,对词形完全不同的同义词,这种扩展方式是无论

化学栓塞.治疗性存活辜20能为力的;关键词与主题词自动识别也只适用于词形基本相文 主

化学栓塞.治疗性综合疗法1B似的情况,对词形不相同的识别,是后续研究的方向.题

化学栓塞治疗性碘化油g词 化学柱塞治疗}生多柔比星8和

化学栓塞.治疗性灌注.局部8参考文献关 键

化学栓塞治疗性随访研究8[1】刘婧婧,张向民.文献推荐系统:提高信息检索效率之词

化字栓塞治疗性乙醇T途[J]. 图书情报工作,2007,51(12):11-18,32.关

系化学栓塞

,治疗性回顾性研究T[2】张贝妮 ,

王军.数字图书馆中的检索式扩展方法研究网 化学栓塞.治疗性甲胎蛋白类6的

化学栓塞治疗性抗肿瘤药6[J].计算机应用研究,2006,(4):7l一73,74.检

化学栓塞.治疗性门静脉6【3】张伟,黄奇.基于本体的信息检索系统提高检索结果索 词

化学栓塞.治疗性手术后期间6相关性的研究[J]. 现代图书情报技术,2007,(8):22.25.扩 化学栓塞.治疗性随机分配5展

化学栓塞.治疗性预后5【4】刘柏篙,高济,李飞.知识管理中基于本体的扩展检索研

化学栓塞治疗性喜树碱5方法[J】.计算机辅助设计与图形学,2006,18(4):556—562.究

表一是关键词\"化疗栓塞\"的相似关键词,表中的关键词【5】吴丹.本体在信息检索中的作用及实例研究[J].情报

与\"化疗栓塞一的相似度都大于0.4.从字面意义判断,相似关杂志,2006,25(6):72-75.

键词所表达的概念比较接近,有的甚至是一个词的几个不同[6】房巍,李万龙.基于本体的图书智能检索系统的建模与

表达方式,通常情况下,词对相似度越大,NN~,gt,3L应用研究数字图书馆中的检索式扩展方法研究[J】.长春理工

越接近.检索词\"化疗栓塞\"对应的相似如表一中所显示的关大学,2006,26(2):72—75.

键词.表二是与\"化疗栓塞\"有共现关系的关键词(尚有部分[7]VoorheesEM-Theeffectivenesssandefficiencyofag一

共现频率为l的关键词未显示出来),由于关键词表达的不glomemtivehierarchicclusteringindocumentretrieva1.[disserta?

规范性,词对共现频率总体不高.不过,从表中依然可以判断tion]Ithaca:ComellUniversity,1986?

出与该词具有较大相关性的关键词是\"肝肿瘤\"与化疗药物[8]stnqJing-yu,YUXue-li,LIXian?hua,eta1.CAEP:a

\"吡柔比星\"和\"羟基喜树碱\".表三是关键词与主题词间共现methodbaseonexpe~profilesforrecommendsystem[J]//Ad?

表,为实现关键词与主题词的对应关系,同时计算了每个词vancesinIntelligentWebMastering.Berlin:Springer.2007:

对的相似度.该表中词对\"化疗栓塞\"与\"化学栓塞,治疗337-342?

性''不仅共现频率高,相似度也是最大的,由此,可以设定它[9】孙静字,余雪丽,李鲜花.面向语义搜索的推荐模型研

们是具对应关系.表四是主题词\"化学栓塞,治疗性\"的共现究[J】.广西师范大学:自然科学版,2008,26(3):202—205.

词表,与表二相比,由于概念的统一性,该表的共现频率大了【10]孙健,王伟,钟义信.基于统计的常用词搭配(co11oca一

很多,也说明表四更能反映词与词的相关关系.tion)的发现方法[J].情报,2002,21(1):12—16.

这四个表是实现检索扩展的核心数据库,从扩展形式上【1l】CallonM,lawJ,RipA.MappingtheDynamicsof

说实现相关词与相似词的扩展;从扩展的深度,可以实现从ScienceandTechnology:SociologyofScienceintheReal

关键词到关键词,关键词到主题词,关键词到主题词到关键,World[J].Macmillan,1986.

主题词到主题词,主题词关键词的扩展,并且能以相似度和[12】朱伟丽,等.医学关键词与叙词对照表自动构建研究

共现频率为排序依,实现有层次的扩展模式.[J1.现代图书情报技术,2006,(8):51—54. 4结束语

通过词对的相似性与共现性,把科学文献中的关键词主作者简介

题词组成一个复杂的关系网,利用这个网络所揭示的信息为黄媛(1968一),女,汉族,江西省南昌市人,本科,主要研

信息的组织与检索服,实现检索词有序扩展.这个关系网来究方向:图书馆学,情报学. 7

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo7.cn 版权所有 湘ICP备2022005869号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务