您当前的位置: > 详细浏览

专利文本主题建模中领域停用词自动选取研究

请选择邀稿期刊:

Automatic Selection of Domain-Specific Stopwords in Topic Model of Patent Text

摘要: [目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。

版本历史

[V1] 2023-08-26 23:57:18 ChinaXiv:202308.00273V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量331
  •  下载量114
评论
分享