您当前的位置: > 详细浏览

一种基于双向LSTM的联合学习的中文分词方法

请选择邀稿期刊:
摘要: 中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS)。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

版本历史

[V1] 2018-07-09 15:14:02 ChinaXiv:201807.00065V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量2314
  •  下载量1315
评论
分享