分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2022-01-02
摘要: [目的]当标注数据较少时,现有模型受训练数据量少的限制,参数没有拟合到预期效果,导致在低资源命名实体识别任务中模型识别性能不佳。[方法]本文提出一种融入伯努利分布(Bernoulli distribution)的新型损失函数,让模型较好拟合数据。此外,本文在BiLSTM-CRF模型基础上融合多层字符特征信息,结合基于伯努利分布的新型损失函数,构建了BiLSTM-BCRF模型。[结果]本文提出的BiLSTM-BCRF模型在20%的CoNLL2003和20%的BC5CDR的数据集上,F1值在BiLSTM-CRF模型基础上分别提升了6.16%、3.35%。[结论]该模型能较好地适应低资源命名实体识别任务。[局限]该模型识别专有名词的性能还有待提升。