注册
登录
EN
|
中文
首页
论文提交
论文浏览
论文检索
个人中心
帮助
搜索
显示全部
确认邀请
取消邀请
添加新专家
发送邮件中...
确认回复
取消回复
*
专家姓名:
*
>专家邮箱:
*
专家机构:
*
研究领域:
请选择
物理学
天文学
生物学
数学
图书馆学、情报学
计算机科学
地球科学
其他
材料科学
能源科学
信息科学与系统科学
力学
化学
心理学
农、林、牧、渔
医学、药学
工程与技术科学
测绘科学技术
矿山工程技术
冶金工程技术
机械工程
动力与电气工程
核科学技术
电子与通信技术
化学工程
纺织科学技术
食品科学技术
土木建筑工程
水利工程
交通运输工程
航空、航天科学技术
环境科学技术及资源科学技术
安全科学技术
管理学
统计学
语言学及应用语言学
光学
护理学
法学
数字出版
药物科学
地球物理和空间物理
冰冻圈科学领域研究
*
专家学术主页:
联系方式:
确认添加
取消添加
开始评论:
公开评论
匿名评论
仅发给作者
评论提交
关闭评论
检索
您当前的位置: >
详细浏览
一种基于双向LSTM的联合学习的中文分词方法
请选择邀稿期刊:
邀请
关闭
作者:
章登义
1
胡思
1
徐爱萍
1
作者单位:
1.
武汉大学 计算机学院
提交时间:
2018-07-09 15:14:02
摘要:
中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS)。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。
中文分词
大规模语料库
联合学习
双向长短时记忆模型
期刊:
计算机应用研究
分类:
计算机科学
>>
计算机科学的集成理论
引用:
ChinaXiv:201807.00065
(或此版本
ChinaXiv:201807.00065V1
)
DOI:10.12074/201807.00065V1
CSTR:32003.36.ChinaXiv.201807.00065.V1
推荐引用方式:
章登义,胡思,徐爱萍.(2018).一种基于双向LSTM的联合学习的中文分词方法.计算机应用研究.[ChinaXiv:201807.00065]
(点此复制)
版本历史
[V1]
2018-07-09 15:14:02
ChinaXiv:201807.00065V1
下载全文
相关论文推荐
1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states
2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制
2024-05-09
3. Brief Discussion on Scenes and Strategies in Capital Markets Manipulation Detection: From Influence Diffusion Perspectives
2024-04-24
4. Guiding Large Language Models to Generate Computer-Parsable Content
2024-04-23
5. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model
2024-04-23
6. 引导大语言模型生成计算机可解析内容
2024-04-21
7. 基于大语言模型的中英文整合复杂性建模研究
2024-04-10
8. 大模型与标准文献知识库的融合应用探索
2024-04-10
9. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证
2024-04-09
10. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios
2024-04-07
相关信息
点击下载全文
PDF
BIB
ZIP
预览
PDF
许可声明
ChinaXiv许可声明
metrics指标
点击量
2314
下载量
1315
评论
我要评论
分享
分享至: