您选择的条件: 宋培彦
  • 基于用户自然标注的TF-IDF辅助标引算法及实证研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。

  • 基于多特征融合的科技文献自动标引方法研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2022-09-02

    摘要: 目的/意义 当前用户迫切需要在极度复杂的信息当中高效获取具有价值的信息,在这种背景下,本文提出一种多特征融合的自动标引方法以提高文本标引的准确性。 方法/过程 首先将文本正文和摘要同时作为标引源,接着分别采用Keybert方法和TF-IDF方法处理摘要和正文,同时结合统计学习法的词频特征和机器学习法的语义特征获取两组文本候选标引词;最后通过语义相似度计算做融合处理结合两种方法的优势以体现对标引结果的准确性和全面性的整体把握。 结果/结论 实验表明,基于多特征融合的文本自动标引是可行的,具有较好的标引结果。

  • 融合选择性注意衰减模型的信息简报自动生成方法研究:以Unesco科技报告为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2022-09-01

    摘要: 目的/意义 简报是重要的情报产品。联合国教科文组织Unesco发布了大量高价值的专业文献,为了满足用户对国际专业知识的需求,需要快速形成信息简报、提高情报服务能力。[方法/过程 本文以认知科学中的选择性注意衰减理论为基础,将信息简报的生成作为人类认知信息加工的模拟过程,对实现跨语言自动生成摘要方法进行了探究。首先以选择性注意中的衰减器模型为基础,依据认知负载能力从主题、主题句、简报三个层级进行一体化设计。然后,采用KeyBERT和Transformer算法,对联合国教科文组织Unesco发布的科技报告进行主题词抽取和摘要生成,实现信息简报的快速生成,并采用信息熵和ROUGE值进行测评。[结果/结论 实验表明,在信息熵和ROUGE-2、ROUGE-L值上有一定优势,表明选择性注意衰减模型能够提高摘要效果,覆盖文本的核心信息。研究进一步发现,将认知科学与计算模型紧密结合对于提高信息简报的可解释性和科学性有显著作用,有助于形成可计算、可解释的信息简报生成与知识服务模式。