ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
5
2017
4

按主题分类

按作者

按机构

当前资源共 9条

隐藏摘要

点击量

时间

下载量

您选择的条件: 余传明

1. ChinaXiv:202308.00644
下载全文

基于行为-内容融合模型的用户画像研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-27 合作期刊: 《图书情报工作》

余传明田鑫郭亚静安璐

摘要： [目的/意义]为识别并去除非理性投资者的网络评论，提升评论的专业程度与质量，促进理性投资，本文以识别股吧中的用户是否属于噪声投资者为研究任务，进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习（deep user representation learning），结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征，提出一种行为-内容融合模型（behaviour and content combined model，BCCM），并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示，该模型对噪声投资者识别的F1值为79.47%，优于决策树方法（69.90%）、SVM方法（75.61%）、KNN方法（73.21%）和ANN方法（74.83%）。在噪声投资者识别这一特定用户画像研究任务中，通过利用深度用户表示学习引入文本内容特征，能够显著提升用户画像的各种评价指标。

点击量 336 下载量 99 评论
2. ChinaXiv:202308.00284
下载全文

基于深度循环神经网络的跨领域文本情感分析

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-26 合作期刊: 《图书情报工作》

余传明

摘要： [目的/意义]通过在标注资源丰富的源领域（Source Domain）中学习，并将目标领域（Target Domain）的文档投影到与源领域相同的特征空间（Feature Space）中去，从而解决目标领域因标注数据量较小而难以获得好的分类模型的问题。[方法/过程]选择亚马逊在书籍、DVD和音乐类目下的中文评论作为实验数据，以跨领域情感分析作为研究任务，提出一种跨领域深度循环神经网络（Cross Domain Deep Recurrent Neural Network，CD-DRNN）模型，实现不同领域环境下的知识迁移。CD-DRNN模型在跨领域环境下的平均分类准确度达到了81.70%，优于传统的栈式长短时记忆网络（Stacked Long Short Term Memory，Stacked-LSTM）模型（79.90%）、双向长短时记忆网络模型（Bidirectional Long Short Term Memory，Bi-LSTM）模型（80.50%）、卷积神经网络长短时记忆网络串联（Convolution Neural Network with Long Short Term Memory，CNN-LSTM）（74.70%）模型以及卷积神经网络长短时记忆网络并联（Merged Convolution Neural Network with Long Short Term Memory，Merged-CNN-LSTM）模型（80.90%）。[结果/结论]源领域和目标领域的知识迁移能够有效解决监督学习在小数据集上难以获得好的分类效果的问题，通过CD-DRNN模型能够从无标注数据中有效地筛选特征，从而大大降低目标领域数据标注相关的工作量。

点击量 378 下载量 124 评论
3. ChinaXiv:202307.00492
下载全文

基于序列到序列模型的抽象式中文文本摘要研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

余传明朱星宇龚雨田安璐

摘要： [目的/意义]为更好地处理文本摘要任务中的未登录词（out of vocabulary，OOV），同时避免摘要重复，提高文本摘要的质量，本文以解决OOV问题和摘要自我重复问题为研究任务，进行抽象式中文文本摘要研究。[方法/过程]在序列到序列（sequence to sequence，seq2seq）模型的基础上增加指向生成机制和覆盖处理机制，通过指向生成将未登录词拷贝到摘要中以解决未登录词问题，通过覆盖处理避免注意力机制（attention mechanism）反复关注同一位置，以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验，检验模型效果。[结果/结论]实验结果显示，该模型生成摘要的ROUGE （recall-oriented understudy for gisting evaluation）分数高于传统的seq2seq模型以及抽取式文本摘要模型，表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题，从而显著提升文本摘要质量。

点击量 226 下载量 97 评论
4. ChinaXiv:202307.00585
下载全文

大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

余传明原赛王峰安璐

摘要： [目的/意义]以大数据环境下的文本情感分析这一特定任务为目的，对规模适配问题进行研究，为情报学领域研究人员进行大数据环境下数据分析时，实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集，在对传统情感分析算法分析的基础上，提出了5种面向大数据的文本情感分析算法，检验各种算法在不同环境和数据规模下的适配效果，从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示，本文所搭建的集群具有良好的运行效率、正确性以及可扩展性，Spark集群在处理海量文本情感分析数据时更具有效率优势，且在数据规模越大的情况下，效率优势越明显；在资源利用方面，随着节点数和核数的增加，集群的整体运行效率变化显著，配置5个4核4G内存的从节点，能够实现在高效完成分类任务的同时达到节约资源成本的效果。

点击量 220 下载量 122 评论
5. ChinaXiv:202304.00109
下载全文

跨语言情境下基于对抗的实体关系抽取模型研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

余传明王曼怡安璐

摘要： [目的/意义] 从实体关系抽取视角出发，将单一语言情境下的知识获取任务扩展到跨语言情境，提升低资源语言的关系抽取效果。[方法/过程] 提出一种跨语言对抗关系抽取（Cross-Lingual Adversarial Relation Extraction，CLARE）框架，将跨语言关系抽取分解为平行语料获取和对抗适应关系抽取两个子模块。通过词典扩展或自学习方法将源语言关系抽取数据集转换为目标语言数据集，在此基础上利用对抗特征适应将源语言的特征表示迁移给目标语言，再利用训练得到的目标语言关系抽取网络对目标语言进行关系分类。[结果/结论] 将本文方法应用到以ACE2005多语言数据集为基础的英语-中文、中文-英文两种跨语言关系抽取任务上，最优模型的Macro-F1值分别为0.880 1和0.842 2。实验结果表明本文提出的跨语言对抗关系抽取CLARE框架能显著提升低资源语言实体关系抽取的效果。研究结果对于改进跨语言情境下的关系抽取模型以及促进实体关系抽取研究在情报学领域的应用具有重要意义。

点击量 106 下载量 56 评论
6. ChinaXiv:201712.01382
下载全文

基于多特征融合的金融领域科研合作推荐研究*

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

余传明龚雨田赵晓莉安璐

摘要：【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

点击量 2599 下载量 1437 评论
7. ChinaXiv:201712.01391
下载全文

基于深度表示学习的跨领域情感分析

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

余传明冯博琳安璐

摘要：【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

点击量 2328 下载量 1280 评论
8. ChinaXiv:201712.01600
下载全文

基于多特征融合的金融领域科研合作推荐研究*

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

余传明龚雨田赵晓莉安璐

摘要：【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

点击量 2597 下载量 1491 评论
9. ChinaXiv:201712.01606
下载全文

基于深度表示学习的跨领域情感分析

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

余传明冯博琳安璐

摘要：【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

点击量 1803 下载量 1005 评论