一种基于双向LSTM的联合学习的中文分词方法

作者： 章登义 ¹ 胡思 ¹ 徐爱萍 ¹
作者单位：

1. 武汉大学计算机学院
提交时间：2018-07-09 15:14:02

摘要: 中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习，提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集（PKU、MSRA、CTB6）和繁体中文数据集（CITYU、AS）。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM（双向长短时记忆模型）和CRF（条件随机场模型）对数据集进行单独训练和多语料库共同训练的实验，结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

中文分词大规模语料库联合学习双向长短时记忆模型

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201807.00065 (或此版本 ChinaXiv:201807.00065V1)
DOI:10.12074/201807.00065V1
CSTR:32003.36.ChinaXiv.201807.00065.V1
推荐引用方式： 章登义,胡思,徐爱萍.(2018).一种基于双向LSTM的联合学习的中文分词方法.计算机应用研究.[ChinaXiv:201807.00065] (点此复制)

版本历史

[V1]

2018-07-09 15:14:02

ChinaXiv:201807.00065V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. Brief Discussion on Scenes and Strategies in Capital Markets Manipulation Detection: From Influence Diffusion Perspectives	2024-04-24
4. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
5. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
6. 引导大语言模型生成计算机可解析内容	2024-04-21
7. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
8. 大模型与标准文献知识库的融合应用探索	2024-04-10
9. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
10. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07


公开评论匿名评论仅发给作者