序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例

Research on Feature Extraction Scheme of Chinese-character Granularity in Sequence Labeling Model——A Case Study About Clinical Named Entity Recognition of CCKS2017: Task2

作者： 孙安 ^1,2 于英香 ¹ 罗永刚 ^1,3 王祺 ⁴
作者单位：

1. 上海大学图书情报档案系上海 200444

2. 河南科技大学图书馆洛阳 471023

3. 上海健康医学院医疗器械学院上海 201318

4. 华东理工大学计算机科学与技术系上海 200237
提交时间：2023-08-26 23:57:18

摘要: [目的/意义]针对中文语言表达特点，提出一种含分词标签的字粒度词语特征提取方法，有效提升了中文临床病历命名实体识别任务的F₁值，同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征，构筑字粒度序列标注模型的临床病历训练文本，语料来源CCKS2017：Task2。在不同特征组合方式下，采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下，Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升，四折交叉测试中F₁值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下，Method2相对Method1能够获得更好的词语特征表示，对中文字粒度序列标注模型的处理性能具有提升作用。

命名实体识别字粒度特征提取序列标注模型条件随机场临床病历

期刊： 图书情报工作
分类： 图书馆学、情报学 >> 图书馆学
引用： ChinaXiv:202308.00275 (或此版本 ChinaXiv:202308.00275V1)
DOI:10.12074/202308.00275V1
CSTR:32003.36.ChinaXiv.202308.00275.V1
推荐引用方式： 孙安,于英香,罗永刚,王祺.(2023).序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例.图书情报工作.[ChinaXiv:202308.00275] (点此复制)

版本历史

[V1]

2023-08-26 23:57:18

ChinaXiv:202308.00275V1

下载全文

相关论文推荐

1. 农村公共文化服务助推我国乡村振兴的模式探索与价值创新	2024-06-02
2. AIGC 赋能智慧图书馆建设:基础、特征、场景及策略	2024-06-02
3. 前景·质素·路径:ChatGPT 赋能智慧图书馆建设研究	2024-06-02
4. 《学术出版透明与最佳行为准则》更新及其对中国学术期刊的启示	2024-05-28
5. 强化故事力打造优质短视频显著提升阅读推广效果	2024-05-22
6. 英国大型阅读推广项目多元协作模式解析	2024-05-20
7. 多元协同视角下高校图书馆融合发展模式及思路	2024-05-15
8. 考虑节点间强弱关系的突发事件信息传播网络分析	2024-05-15
9. 高校图书馆服务乡村振兴的知识信息转移模型探讨	2024-05-15
10. 科技赋能非遗转化与发展路径研究	2024-05-15


公开评论匿名评论仅发给作者