Current Location:home > Detailed Browse

Article Detail

基于类别信息和特征熵的文本特征权重计算

Abstracts

文本向量化是文本分类的基础,特征权重是直接影响文本向量表示质量的重要因素之一。基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。
Download Comment From cooperative journals:《计算机应用研究》 Hits:4686 Downloads:646
Journal:计算机应用研究
Recommended references: 阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.(2018).基于类别信息和特征熵的文本特征权重计算.计算机应用研究.[ChinaXiv:201808.00093] (Click&Copy)
Version History
[V1] 2018-08-13 09:26:13 chinaXiv:201808.00093V1 Download
Related Paper

Download

Current Browse

Cross Subject Browse

  • - NO