• 基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2024-03-01

    摘要: 目的 本文旨在提高专利技术功效自动化提取的准确度。 方法 使用ChatGPT作为教师模型(Teacher-model),ChatGLM3作为学生模型(Student-model),通过知识蒸馏,将ChatGPT生成的训练数据微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,并采用功效词抽取模型从技术功效语段中抽取功效词。 结果 微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT,在抽取技术词和功效词时呈现准确率高、召回率低的特点,第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649,大于商业工具标注功效词的准确率0.53。 局限 本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则还有待于继续优化。 结论 本研究方案通过知识蒸馏操作,提升了大语言模型自动化抽取技术功效的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。