注册
登录
EN
|
CN
首页
论文提交
论文浏览
论文检索
个人中心
帮助
搜索
显示全部
确认邀请
取消邀请
添加新专家
发送邮件中...
确认回复
取消回复
*
专家姓名:
*
专家邮箱:
*
专家机构:
*
研究领域:
请选择
物理学
天文学
生物学
数学
图书馆学、情报学
计算机科学
地球科学
其他
材料科学
能源科学
信息科学与系统科学
力学
化学
心理学
农、林、牧、渔
医学、药学
工程与技术科学
测绘科学技术
矿山工程技术
冶金工程技术
机械工程
动力与电气工程
核科学技术
电子与通信技术
化学工程
纺织科学技术
食品科学技术
土木建筑工程
水利工程
交通运输工程
航空、航天科学技术
环境科学技术及资源科学技术
安全科学技术
管理学
统计学
语言学及应用语言学
光学
护理学
法学
数字出版
药物科学
地球物理和空间物理
冰冻圈科学领域研究
*
专家学术主页:
联系方式:
确认添加
取消添加
开始评论:
公开评论
匿名评论
仅发给作者
评论提交
关闭评论
检索
您当前的位置: >
详细浏览
基于维基百科的多种类型文献自动分类 研究*
后印本
请选择邀稿期刊:
邀请
关闭
作者:
李湘东
1
阮 涛
1
刘 康
1
作者单位:
1.
武汉大学信息管理学院 武汉 430072
2.
武汉大学电子商务研究与发展中心 武汉 430072
提交时间:
2017-12-05 13:51:27
摘要:
【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。
多种类型文献
文本分类
特征选择
特征扩展
维基百科
分类:
图书馆学、情报学
>>
情报学
期刊:
数据分析与知识发现
投稿状态:
已在期刊出版
引用:
ChinaXiv:201712.01360
(或此版本
ChinaXiv:201712.01360V1
)
DOI:10.12074/201712.01360V1
CSTR:32003.36.ChinaXiv.201712.01360.V1
科创链TXID:
8c6f6f3b-756c-4139-80d9-3a3624664adb
推荐引用方式:
李湘东,阮 涛,刘 康.基于维基百科的多种类型文献自动分类 研究*.数据分析与知识发现:https://chinaxiv.org/abs/201712.01360.[ChinaXiv:201712.01360V1]
(点此复制)
版本历史
[V1]
2017-12-05 13:51:27
ChinaXiv:201712.01360V1
下载全文
相关论文推荐
1. 基于可拓小生境量子粒子群算法的特征 选择*
2017-12-05
2. 混合蛙跳算法在文本分类特征选择优化中的应用
2017-11-08
3. 面向食品安全突发事件汉语分词的特征选择及模型优化研究
2017-11-08
4. 基于维基百科的中文文本层次路径生成研究
2017-10-11
5. 基于《知网》的多种类型文献混合自动分类研究
2017-10-11
相关信息
点击下载全文
PDF
BIB
ZIP
预览
PDF
许可声明
ChinaXiv许可声明
metrics指标
点击量
19447
下载量
4112
评论
我要评论
分享
分享至: