ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2024
1

按主题分类

情报学
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202402.00235
下载全文

基于大模型知识蒸馏的专利技术功效词自动抽取方法研究：以车联网V2X领域为例

分类：图书馆学、情报学 >> 情报学提交时间： 2024-03-01

王奎芳吕璐成孙文君王翼虎赵亚娟

摘要：目的本文旨在提高专利技术功效自动化提取的准确度。方法使用ChatGPT作为教师模型（Teacher-model），ChatGLM3作为学生模型(Student-model)，通过知识蒸馏，将ChatGPT生成的训练数据微调ChatGLM3，得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词，并采用功效词抽取模型从技术功效语段中抽取功效词。结果微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT，在抽取技术词和功效词时呈现准确率高、召回率低的特点，第一权利要求的ChatGLM3微调模型的准确率和F1值最高，分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649，大于商业工具标注功效词的准确率0.53。局限本研究的技术领域和专利语言单一，验证数据量偏小，数据清洗规则还有待于继续优化。结论本研究方案通过知识蒸馏操作，提升了大语言模型自动化抽取技术功效的准确性。同时，本研究能够支持从专利文本中挖掘前沿创新技术、热点技术，支撑更高质量的智能化专利分析。

通过

点击量 622 下载量 219 评论

基于大模型知识蒸馏的专利技术功效词自动抽取方法研究：以车联网V2X领域为例