• 《点石斋画报》主题演化分析

    分类: 图书馆学、情报学 >> 读者工作 提交时间: 2023-11-07 合作期刊: 《文献与数据学报》

    摘要: [目的 / 意义]《点石斋画报》作为中国最早的新闻类画报之一,具有重要史料价值。本文基于社会网络分析方法,挖掘《点石斋画报》中词项之间关联性,以揭示清末新闻类画报的重点关切。[方法 / 过程]首先,以《点石斋画报通检》为语料来源构建语料库;其次,以《点石斋画报》题跋为语义单元建立共词网络;接着,通过社区分割确立《点石斋画报》话语主题;最后,以主题中的核心关键词构建时序自我中心网,考察关键词的语义共生演化。[结果 / 结论]从研究结果看,《点石斋画报》呈现“海外新闻”“上海”“志怪奇闻”“中国妇女”“中国名人”“苏州”“疾病伤残”七个核心话语主题。以“中国妇女”一词为例,时序自我中心网显示“罪行”“命案”等司法类词项频次较高,并呈均匀分布状态,“婚姻”和“纳妾”作为新旧观念的指示词,其频次呈现强弱态势对比,体现出在中西文化对冲下新旧观念的共存与转换。研究结果也表明,社会网络分析方法可以有效弥补传统研究方法的某些缺憾。

  • 基于LDA 模型的移动投诉文本热点话题识别

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】运用中文信息处理和话题识别与追踪的方法, 从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手, 使用k-means 先对文本聚类。利用LDA 对每个类进行建模, 提取话题, 并从词频、词跨度和词长三方面计算每个话题中词的权值, 把权重最大的词作为该话题的标签, 并计算每个话题的文档分布概率均值。对具有相同标签的话题, 先按照均值最大的原则去掉重复标签话题, 再对所有话题计算文档支持率, 并将文档支持率作为话题的热度, 通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模, 通过对比一般话题和热点话题, 得出热点话题的支持文档率至少是一般话题的3 倍, 支持文档率变化趋势也比一般话题高, 说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA 模型对移动投诉话题检测初探的方法是比较合理和有效的, 对今后此领域的研究具有一定的借鉴意义。