基于大规模古文语料库的词典构建及分词技术研究

作者： 邢付贵 ^1,2 朱廷劭 ^1,2
作者单位：

1. 中国科学院大学北京 10049

2. 中国科学院心理研究所，北京 100101
通讯作者： 朱廷劭 Email:tszhu@psych.ac.cn
提交时间：2020-01-07 17:39:54

摘要: 古文献的研究有助于传统文化的继承与发扬，而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节，但由于缺少规范的数据资料而没有像现代汉语分词取得突破性进展。当前互联网拥有大量古汉语文本和词典方面的数据资料，但是这些数据分散，没有得到有效地整合。本文提出采集互联网非结构化古汉语数据，经过数据清洗和预处理抽取出一个古汉语基础词典，然后再利用互信息、信息熵、位置成词概率相结合的新词发现方法从大规模古籍文本中抽取古汉语候补词典，最终将基础词典与候补词典融合，利用正向最大匹配实现对古文的分词。与开源的分词器甲言在基于词典的分词方面比较后F值提高了14%，取得了良好的效果，结果证明本文构建的分词器可以应用在古汉语文本分词上。

古汉语分词大数据语料库 Apache Spark

来自： 朱廷劭
分类： 心理学 >> 应用心理学计算机科学 >> 计算机应用技术
引用： ChinaXiv:202001.00075 (或此版本 ChinaXiv:202001.00075V1)
DOI:10.12074/202001.00075V1
CSTR:32003.36.ChinaXiv.202001.00075.V1
推荐引用方式： 邢付贵,朱廷劭.(2020).基于大规模古文语料库的词典构建及分词技术研究.中国科学院科技论文预发布平台.[ChinaXiv:202001.00075] (点此复制)

版本历史

[V1]

2020-01-07 17:39:54

ChinaXiv:202001.00075V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
4. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
5. 引导大语言模型生成计算机可解析内容	2024-04-21
6. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
7. 大模型与标准文献知识库的融合应用探索	2024-04-10
8. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
9. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07
10. 引导大语言模型生成计算机可解析内容	2024-04-07


公开评论匿名评论仅发给作者