分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2023-07-11
摘要: 临床术语标准化对于处理电子病历中临床术语不规范问题具有重要的研究意义。目前主流的解决方法是采用召回-排序的策略。该文基于中国健康信息处理大会(CHIP2021)评测3中提供的数据集,提出了一个基于多策略的临床术语标准化方法,在召回阶段,采用全匹配策略、相似原词的标准词推荐以及基于TF-IDF与改进的Jaccard系数的相似度计算去召回候选的标准词集合。同时,该文构建了基于BERT模型的标准词数量预测模型,利用对抗训练、Focal Loss与标签平滑策略有效地提高了模型的预测性能和泛化性能。在排序阶段,该文利用基于对抗训练与诊断信息融合的BERT蕴含分数排序模型对候选词集合排序,再根据数量预测模型输出的结果生成最终预测的标准词。在最终的评测中,该文方法准确率达到0.6356,在参赛队伍中位列第二名。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】为有效解决微博客户特性的表示问题, 以更好地实施企业微博客户细分。【方法】借助微博平台上客户的个人和社会关系特性, 利用客户及其好友的自定义标签表示客户的特性, 采用基于非负矩阵分解的文本聚类方法, 提出一种面向企业微博的客户细分框架。【结果】实验结果表明, 基于非负矩阵分解的方法取得约86.130%的asw 指标平均值, 远远超出基于K-means 和层次聚类的方法。【局限】只通过融合微博客户个人及其关注好友的标签表示微博客户特性的方法不能够全面刻画客户特征。【结论】能够为企业微博客户细分中的客户特性的表示、细分、评价及结果可视化等问题提供参考和借鉴。