发表学术论文网

面向科技文献检索的关键词层次结构构建

  摘 要:[目的/意义]关键词是描述科技文献内容特征的最小知识单元,在文献检索工作中发挥着重要作用。针对关键词语义关系缺乏限制检索效果的问题,挖掘了关键词层次关系,以优化检索结果。[方法/过程]通过分析层次结构整体特征、关键词涉及的研究主题与关键词间的概念重合关系,归纳了概念范围、概念距离与概念距离指数等概念以规范、指导层次结构建立工作,并借助层次结构实现了科技文献检索。[结果/结论]以实证数据为例,演示了关键词层次结构构建步骤,探讨了层次结构在科技文献检索中的作用,从结果来看层次结构具有明确检索目标、扩大检索范围、拓展检索知识的作用。

  关键词:科技文献检索;层次结构;共词分析;文本语义挖掘

科技文献检索

  引言

  科技文献检索是科研工作的重要一环,具有启迪思路、开拓视野的作用。然而,学科大数据时代的来临,在丰富科研资源的同时,也为科技文献检索工作带来一定困难。近年来,期刊论文、会议论文、学位论文、专利文本等类型的科技文献数量不断激增。据中信所统计,仅就卓越科技论文而言,2020 年中国卓越科技论文数量为 46.38 万篇相较于 2019 年的 38.73万篇增长近 20%[1-2]。

  科研工作者正面临科技文献数量持续增长,知识检索难度日益增加的困境,如何对科技文献检索工作进行优化以满足广大科研工作者的需求已成为亟待解决的问题。目前,学者在探索科技文献检索问题时,常用的思路是从文献内部挖掘细粒度知识并对其进行组织以实现标引[3-4]。

  科技文献中的知识,其表现形式通常又以标题、作者、摘要、关键词等文献元数据与大量的文本内容为主,在其中关键词是表征文献内容的最小知识单元,因其便利性已被广泛应用于文献组织与检索工作[5-6]。在基于关键词挖掘文献间知识关联并提供检索服务时,关键词之间的共现关系常被用于实现知识挖掘,但存在同类词间关系难挖掘[7]、词间逻辑关联较缺乏[8]、整体语义挖掘不全面等问题[9]。

  为解决上述问题,更好地发挥关键词在科技文献检索中的作用,本文在共词分析的基础上,进一步挖掘了关键词所关联的研究范围以及不同关键词间研究范围的重合度,以确定关键词在研究范围中的上下位关系,厘清关键词间的逻辑关联与语义脉络,从而建立关键词层次结构,并将关键词层次结构应用于科技文献检索中,提高检索工作的效率与质量。

  1 研究现状及述评

  1.1 基于关键词的科技文献检索

  目前在基于关键词的科技文献检索工作中,基于检索目的有两种常见研究思路,一是通过挖掘关键词之间的关系,对查询关键词进行扩展以扩大检索范围,例如,H.Rakhshani 等基于 BabelNet 对关键词进行消歧与同义扩展,并将处理后的关键词用于训练机器学习模型实现相关文献检索[10];Yang 在建立语言模型的基础上。

  计算了法律领域内关键词间概念相似度,并进一步通过词共现关系挖掘相似词实现了检索扩展[11];赵蓉英等通过共词分析方法得到关键词共现矩阵,并利用层次聚类方法来进行关键词聚类,通过词聚类结果来检索文献[12];张孝飞等基于 WordNet 计算查询词与其他词的相似度进行查询词概念扩展,扩展出同义词、上下位词来实现查询扩展[13]。另外一种是通过计算查询关键词与文献的相似度,对检索结果进行筛选。

  例如,Liao 等在用 TF-IDF 方法分配关键词权重的基础上,构建了文献-关键词网络,并通过随机游走算法对网络权重进行调整以揭示关键词与文献的关系从而实现最相关文献检索[14];Li 等从用户日志中提取关键词数据用于训练具有文献标题分类与检索功能的 DNN 与 CNN 模型,从结果来看将关键词用于模型训练能找到与用户需求关联较强的文献[15];阮光册等通过主题模型与关联规则方法来对用于共词分析的关键词进行筛选以提高文献检索效果[16];吴汉卿等在对关键词进行共词分析的基础上通过度中心性确定重要关键词来进行文献检索[17]。

  1.2 关键词层次关系

  挖掘关键词层次关系挖掘其目的旨在使得词间关系实现从扁平化向层次化的转变,即对关键词之间的同义、上下义等关系进行抽取并建立等级结构。目前,在挖掘关键词间层次关系时,常见的思路是从共现关系着手,先寻找相关词再进一步挖掘词间上下位关系。

  例如,G.Tibély等以复杂网络理论为基础,依靠加权网络与共现关系从网络中提取关键词的层次关系,并在后续研究中将其应用于在线新闻门户的关键词层次关系挖掘,证明其在关键词语义挖掘上的价值[18-19];Li 等依据关键词的共现关系、词对关系及 TF-IDF 方法建立了关键词层次结构并验证了其在查询扩展上的有效性[20];N.Akhtar 等将形式概念分析与关键词共现关系相结合,探索了从文献集合中抽取关键词层级的可行性[21];熊回香等依据关键词的抽象化程度及共现关系对关键词层次关系进行挖掘[22-23];房小可等进一步将熊回香所提方法应用到个性化推荐中,验证了关键词层次关系挖掘的必要性[24]。

  1.3 现状述评

  通过对相关文献的回顾,可以发现在基于关键词进行文献检索时,要挖掘关键词之间及关键词与文献间关系主要有词典挖掘、深度学习模型挖掘、词共现挖掘三种方法。其中,词典挖掘因为词典建立需要消耗大量人力成本而难以满足当前需求,深度学习模型挖掘在检索关联较高文献时具有不错效果但难以实现较好扩展,词共现挖掘可以检索出相关文献但相较于基于词典的方法其在语义理解及可扩展性上存在一定不足。

  在共词分析的基础上进一步挖掘词间层次关系是解决现存问题的有效思路,层次关系基于共词分析又兼具部分词典功能,将其应用于文献检索具有不错前景。但是,现有研究在挖掘关键词间层次关系时,主要聚焦于如何从两个词之间的共现关系出发延展得到上下位关系,而忽略了词与层次结构中其他词的联系,也尚未探讨整个层次结构应该具有哪些特征,构建关键词层次结构应依照何种标准等问题。总体而言,关键词层次结构的建立体系还有待完善,需要结合相应理论并从应用角度出发对其进行系统性的探讨与改进,才能更好的构建关键词层次结构,并将其应用于科技文献检索等工作。

  2 研究思路与框架

  2.1 层次结构相关概念

  为清晰地论述本文思路,首先对文中所用有关层次结构概念进行界定。

  1)关键词概念范围。在本文中,概念范围是指与关键词相关的研究的范围大小,若与关键词相关的研究主题越多,则关键词概念范围越大,一般的概念范围可用关键词涉及的文档数表示,即关键词出现在越多的科技文献中则其概念范围越大。

  2)关键词词频。因本文所选择的关键词仅为科技文献作者直接标注的词,不包括从题目、摘要或全文中通过文本内容挖掘方法提取出的词,故关键词在一篇科技文献中出现的次数只有 0 或 1 两种可能,进而可用关键词在文献集中的词频来表示关键词涉及的文档数,即用关键词词频来表示关键词概念范围。3)关键词概念距离。若两个关键词的概念范围存在重合,且概念范围不完全一致,则可以说两个关键词之间存在概念距离。对于关键词 j 来说,关键词 i 相对于关键词 j 的概念距离可通过公式(1)计算。

  2.2 层次结构构建基础

  如前文所述,在为关键词建立层次结构时应从系统、整体、全面的角度出发,既应考虑到关键词间的上下层级相关性,又应对层次结构的整体特性进行考量。

  1)关键词间相关性。关键词间相关性在本文中主要指关键词间的父子关系,该关系的确立大致可以分为三个步骤:首先,比较两个关键词概念范围,概念范围较大的关键词属于上一层级,概念范围较小的关键词属于下一层级;随后,计算关键词之间的概念距离,并依据概念距离设定一阈值判断关键词之间是否具有足够强的相关性;最后,综合关键词的概念范围及关键词之间的概念距离确立父子关系,形成父子关系的关键词之间应具有较强的相关性,父节点概念范围大于子节点概念范围,且父子节点之间的概念范围差值应大于一定阈值。

  2)层次结构整体特性。层次结构的整体特征主要是指在建立层次结构时应考虑到层次结构整体的概念范围、层次结构的稳定性以及不同层级之间的概念范围差。

  其中,层次结构的概念范围大小主要由组成结构的各节点概念范围决定,首先,所选的根节点概念范围越大,则层次结构整体可达到的概念范围上限越大,其次,加入层次结构的子节点概念范围越大,则能使得层次结构整体概念范围越接近其上限;层次结构的稳定性即是前文所提的层级稳定性,用以判断关键词是否能继续分化;不同层级之间的概念范围差则是前文所提的层级概念差,用以判断层级的概念范围是否随着层级的递进而浓缩。

  2.3 层次结构构建框架

  在前文论述的基础上,本文从层级间相关性出发对关键词之间的父子关系进行挖掘,从层次结构整体特性出发对关键词之间的层次结构进行规范与完善,建立了相对系统、完整的关键词层次结构构建框架。

  1)数据收集与处理层。从文献数据库中采集科技文献数据,进行数据的筛选与统计工作,对关键词出现的文档数及关键词共现情况进行统计分别得到关键词词频与关键词共现关系。

  2)关键词父子关系挖掘层。依据关键词词频得到关键词概念范围,结合关键词概念范围以及关键词共现关系计算关键词概念距离,综合关键词概念范围与关键词概念距离挖掘关键词父子关系,并计算关键词概念范围指数,为关键词层次结构构建奠定基础。

  3)层次结构构建层。以关键词概念范围判断其自身关联的研究范围大小,以关键词概念范围指数判断其依据父子关系可延伸扩展的概念范围大小,结合自身及可扩展的概念大小确定根节点,并依次为其加入具有较大概念范围及概念范围指数的子节点,子节点全部加入层级后再将子节点作为新的父节点并重复上述过程完成关键词层次结构的初步构建。

  4)层次结构优化层。在初步建立关键词层次结构后,统计每一层及的节点数,并进行上下层级节点数的比较从而分析层级稳定性;计算层级的平均概念范围,并得到上下层级之间的层级概念差从而分析层级在概念范围上的递进关系;综合层级稳定性与层级概念差对关键词层级进行优化与修改,完成关键词层次结构的构建。

  2.4 文献检索及评价方法在完成层次结构构建后,下一步是将层次结构应用于科技文献检索中,以科研工作者为服务对象,探究检索效果。本文从两方面探讨基于关键词层次结构的文献检索效率,其一是考察通过层次结构是否能检索到更多相关文献,其二是探究通过层次结构是否能找到一些具有拓展性的文献。对于第一点。

  本文分别选取位于不同层级的关键词来进行文献检索,以期发现通过哪一层级的关键词进行检索能找到更多文献,其效果通过文献查全率判断;对于第二点,本文在通过不同层级关键词进行文献检索的基础上,对相邻层级检索结果进行对比,分析通过不同关键词找到的文献是否具有一定的区别,其效果通过文献重合率判断。下面分别对文献查全率与文献重合率的计算方法进行说明。

  3 层次结构构建实证

  本文选择情报学领域为研究对象,通过从中国知网上采集情报学期刊论文数据进行研究实证,情报学是一门具有交叉学科特点的应用型学科,该学科中的论文具有较强的学科交叉性,会应用到多学科的理论与方法,以其作为研究对象具有较强的普适性,相关成果能较为容易地迁移到其他学科。在本章中首先基于 2.3 节所提框架进行层次结构构建实证。

  3.1 数据收集与处理

  我们对《中国图书馆学报》《情报学报》《情报科学》《情报理论与实践》《情报杂志》《情报资料工作》《数据分析与知识发现》《图书情报工作》《图书情报知识》《图书与情报》《现代情报》与《信息资源管理学报》共 12 种情报学核心期刊 2020 年度发表的科技文献进行采集,随后对文献进行筛选,去除“本刊讯”、“人物访谈”等类型的文献,仅保留解决实际问题的文献,最后共收集到相关文献 4667 篇。

  3.2 层次结构

  初步构建完成数据处理后,层次结构的初步构建可分为预选根节点、确立根节点、加入子节点以及层级递进 4 个步骤。

  1)预选根节点。在选择根节点时,首先按词频排序选择靠前的 10 个具有较大概念范围的关键词作为预选根节点。

  2)确立根节点。对于预选根节点,计算其与其他词间概念距离,并计算概念距离阈值从而确定子节点,而后计算子节点概念范围与概念范围指数 μ。通过比较词间概念距离本文将概念距离阈值设为 0.25。

  “大数据”“影响因素”与“网络舆情”具有较高的概念范围指数与子节点数,分别计算三个词概念范围达到指数 μ 的子节点与其的平均距离,以衡量词间紧密程度。其中,“大数据”的平均概念距离为 0.271,“影响因素”的平均概念距离为 0.331,“网络舆情”的平均概念距离为 0.290。进行综合考虑后,选择关键词“影响因素”作为根节点。

  3)加入子节点。首先,选择与“影响因素”概念距离 λ 达到 0.25 且概念范围达到 7 的 9个关键词作为候选子节点。随后,为控制节点数,设置父节点最多具有 5 个子节点,计算候选子节点的概念范围与概念范围指数 μ。最后,若候选子节点数大于 5,则依次比较其概念范围指数 μ,概念范围达到 μ 的子节点数以及概念范围(词频),按大小先后加入层次结构。子节点数据如表 5 所示。

  4)层级递进。按照先后顺序加入子节点后,将子节点作为新的父节点,重复步骤 3)逐步向层次结构中加入新的节点。初步构造了以“影响因素”为第一层级的,具有 5 层结构的关键词层次结构。

  3.3 层次结构优化

  在初步建立层次结构之后,需按照层级稳定性与层级概念差对其优化。1)层级稳定性。如表 6 中的数据,从第一层级至第四层级,每层节点数呈现稳定增长趋势,而从第四层级至第五层级,节点数仅增加 8 个,第四层中关键词难以继续分化概念,即层次结构在第四层时达到稳定。2)层级概念差。依据表 6 中的数据比较每一层级的概念范围均值,可以发现从第一层级至第四层级,层级之间均存在一定差值,而从第四层级至第五层级,差值接近于 0,即第四层级与第五层级间概念递进性较差。综合层级稳定性及层级概念差,对层次结构进行优化调整,仅保留前四层级。

  4 科技文献检索实证

  在构建层次结构后,本章将进行科技文献检索实证,以探讨基于层次结构的文献检索效果。

  4.1 测试数据的选择

  因本文是对不同层级中关键词的检索效果进行对比,故以构建的“影响因素”层次结构为参照,设置第一层-第二层、第二层-第三层、第三层-第四层共三组比对组,对于每组从采集的 4667 篇科技文献中筛选出十篇同时含有相邻层级关键词的文献,最后共筛选出测试文献30 篇。

  4.2 检索结果探析

  依据文献查全率结果,对于一篇科技文献中的关键词,其所处层级越深,则通过该关键词可检索到的参考文献越多,且随着层级的增长,处于较深层级的关键词相较于处于较浅层级的关键词在查全率上的优势也会逐渐递增。

  基于文献重合率结果,通过不同层级关键词检索到的文献具有一定的重合,但重合率会随着层级的递进而逐渐缩小,即可说明具有上下级关系的关键词查找的文献范围具有较大差异,且差异程度随着层级的递进而增强,通过层次结构可以发现一些拓展性较强的知识。此外,通过层次结构也可以对科研工作者的检索意图进行明确,例如,若同时以关键词“科研人员”与“科学数据素养”作为检索词,借助层次结构,可以推测其有较大可能要进行与“影响因素”有关的研究。

  5 结束语

  关键词是科技文献特征的直观体现,已被广泛应用于科技文献检索工作中。为了提高基于关键词的科技文献检索效果,本文在共词分析的基础上,通过梳理相关文献,提出了一个系统、完整的关键词层次结构构建框架,并验证了层次结构在科技文献检索工作中的具体效果。从结果来看,层次结构具有明确科研工作者检索目标,扩展检索结果,引申相关知识的作用。在今后的研究中可以进一步探讨层次结构构建思路,尝试将其与实体识别、关系抽取等工作相结合,或是对其应用进行拓展与深化从而达到更好的科研辅助效果。

  参考文献:

  [1] 中 国 科 学 技 术 信 息 研 究 所 .2020 中 国 卓 越 科 技 论 文 报 告 [EB/OL].[2022-03-19].

  [2] 中 国 科 学 技 术 信 息 研 究 所 .2021 中 国 卓 越 科 技 论 文 报 告 [EB/OL].[2022-03-19].

  [3]XU Mingying, DU Junping, XUE Zhe, et al. A semi-supervised semantic-enhanced frameworkfor scientific literature retrieval[J]. Neurocomputing, 2021, 461(2): 450-461.

  [4]张敏,丁良萍,刘欢.面向科技文献的多维语义索引构建思路及实现[J].情报理论与实践,2021,44(8):139-145

  .[5]柴庆凤,史霖炎,梅珊,等.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143.

  [6]赵京胜,朱巧明,周国栋,等.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449.

  [7]胡昌平,陈果.科技论文关键词特征及其对共词分析的影响[J].情报学报,2014,33(1):23-32.

  [8]胡昌平,林鑫. 科技文献检索中基于主题词表分面化改造的分面构建 [J].情报学报,2015,34(8):875-884.

  作者:熊回香,叶佳鑫(华中师范大学信息管理学院,湖北 武汉 430079)

查阅更多的文史论文文章

扫码关注公众号

您身边的学术科研指导顾问,帮您解决论文、出书、专利难题。

热门推荐

申请发明专利注意的细节和技巧

教师出版专著有什么优势?

著作的版权页是指什么?包含哪些信息?

海牙体系外观专利申请相关疑问解答汇总

专利转让注意的问题有哪些

职称出书独著好还是合著好

学术专著怎么认定?

论文退修如何判断是小修还是大修

A&HCI索引期刊怎么确认期刊

论文质量提高方法

专利主要完成人的意思

国内率先实现导游评职称!山东未来将探索更多人才政策促进文旅融合

职称与论文专题
论文发表指导