按提交时间
按主题分类
按作者
按机构
  • BERT模型的数学形式

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2021-10-20

    摘要: 最近流行的自然语言处理技术之一是BERT模型,本文给出该模型的数学形式。

  • 融合语义联想和BERT的图情领域SAO短文本分类研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。

  • Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts

    分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 图书馆学、情报学 >> 情报过程自动化的方法和设备 提交时间: 2019-10-29

    摘要: Purpose: Move recognition in scientific abstracts is an NLP task of classifying sentences of the abstracts into different types of language unit. To improve the performance of move recognition in scientific abstracts, a novel model of move recognition is proposed that outperforms BERT-Base method. Design: Prevalent models based on BERT for sentence classification often classify sentences without considering the context of the sentences. In this paper, inspired by the BERT's Masked Language Model (MLM), we propose a novel model called Masked Sentence Model that integrates the content and contextual information of the sentences in move recognition. Experiments are conducted on the benchmark dataset PubMed 20K RCT in three steps. And then compare our model with HSLN-RNN, BERT-Base and SciBERT using the same dataset. Findings: Compared with BERT-Base and SciBERT model, the F1 score of our model outperforms them by 4.96% and 4.34% respectively, which shows the feasibility and effectiveness of the novel model and the result of our model comes closest to the state-of-the-art results of HSLN-RNN at present. Research Limitations: The sequential features of move labels are not considered, which might be one of the reasons why HSLN-RNN has better performance. And our model is restricted to dealing with bio-medical English literature because we use dataset from PubMed which is a typical bio-medical database to fine-tune our model. Practical implications: The proposed model is better and simpler in identifying move structure in scientific abstracts, and is worthy for text classification experiments to capture contextual features of sentences. Originality: The study proposes a Masked Sentence Model based on BERT which takes account of the contextual features of the sentences in abstracts in a new way. And the performance of this classification model is significantly improved by rebuilding the input layer without changing the structure of neural networks.

  • 后疫情时代下短租民宿用户购买行为研究——基于BERT衡量的网络口碑

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [目的 /意义]挖掘疫情后网络口碑和用户购买行为影响因素,从而在后疫情时代更好地吸引用户,促进在线短租行业经济回暖甚至实现超越。[方法 /过程]获取Airbnb上北京地区的公开数据,利用BERT算法构建在线短租网络口碑的衡量指标,基于ELM模型选取4个房源属性和6个房东属性构建在线短租用户购买行为影响因素模型并进行实证研究。[结果 /结论 ]利用BERT模型计算的评论情感得分均值来衡量在线短租网络口碑,为确认其替代变量提供思路。同时负二项回归结果表明,除房源周边环境描述所在影响路径外,网络口碑在其他房源和房东属性作用于用户购买行为过程中具有中介作用。然而,与研究假设相反,房东持有房源数量将负向显著影响房源口碑与销量,这可能是因为单套房源房东参与度更低;而房源与市中心距离越远,网络口碑越好,与疫情后周边游特征相关联。最后基于本研究结果为房东和平台提出相关运营建议,后疫情时代房源描述应当更加着墨于房源防疫措施、退订政策、室内活动等,但应与周边环境描述区别开来,同时可以抓住周边游热潮将疫情挑战转变为发展机遇,提升在线短租房源的竞争实力和业务量。

  • 文本增强与预训练语言模型在网络问政留言分类中的集成对比研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程] 设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论] 实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。

  • 古籍同事异文的自动发掘研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 异文是古籍中的常见现象,也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等,不仅耗时、费力、工作量大,而且找到的数据未必精准全面。通过计算机实现异文的自动发掘,可以从更大规模的语料中获取有效信息。并且,结合异文自动发掘的校勘方式可以实现穷尽式检索,对于古籍他校法具有重要意义,为新时期古籍校勘研究提供了新思路和新方法。[方法/过程] 本研究以《春秋》及"春秋三传"作为实验语料,引入常用于文本翻译领域的平行语料库思想,结合深度学习算法,对LSTM、BERT模型与较为经典的SVM模型进行比较实验,并对两部古籍中用不同表述描述同一事件的同事异文相关内容展开进一步探索和讨论。[结果/结论] 实验得到适用于"春秋三传"的同事异文自动发掘深度学习模型,证明深度学习等新兴技术融合到古籍知识库构建等研究中的可行性,同时,深度学习技术和平行语料库思想的结合在异文研究中能够发挥较大作用,对数字人文在汉语言文学研究中的应用提供实践支撑。

  • 基于深度学习文本情绪挖掘股市相关性研究

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-05-13

    摘要: 探讨如何对股吧等金融论坛数据进行爬取并结合深度学习模型进行情感分析。本文将使用BERT模型针对金融语料进行训练,并对深证成指进行对比分析。通过最大互信息系数对比验证,发现将BERT模型应用到金融语料中所得到的情感特征能够证明情绪变量在一定程度上与股票价格存在一定相关性。同时本文是深度学习在金融环境下的运用。在通过深度学习的方法进一步探究投资者情绪对股票市场的影响机制,将有利于国家监管部门和政策部门对维持股票市场稳定性制定更加合理的政策方针。

  • 一种基于BERT和文本相似度的先进的ICD9术语标准化方法

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2020-10-27

    摘要: ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。

  • 基于改进GPT模型的文本生成研究

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2023-07-01

    摘要: [目的] 本研究旨在提出一种基于词和词性的联合文本生成模型,以提高生成文本的质量。 [方法] 该模型由两个预训练的文本生成模型组成,一个是基于词的模型,另一个是基于词性的模型。此外,本文还提出并使用了BERT模型对进行二分类任务,以判断文本生成效果。 [结果] 在三个数据集上的实验结果表明,与传统的GPT模型相比,GPT-WP模型生成文本的质量有明显提升。 [局限] BERT模型在二分类任务中参数较大,大规模数据训练下评价效果差,本文提出的模型在数据量较小的场景下表现较好,大规模数据表现差异缩小。 [结论] GPT-WP模型在本文提出的评价方法下表明其能够有效地提高生成文本的质量,对于自然语言生成任务的改进和评估提供了参考。

  • 基于深度学习的网络科技信息情报价值计算方法研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义]针对当前科研人员无法从海量的网络科技信息中及时甄别有情报价值的情报内容的问题,建立一套综合性情报价值计算方法,从而对网络科技信息的情报价值进行计算判断,最终帮助科研人员快速而准确地发现有情报价值的网络科技信息。[方法/过程]综合考虑情报外部特征与文本语义内容特征,利用深度学习(预训练语言模型) BERT方法构建基于文本语义内容特征的情报价值计算模型,利用深度学习模型的预测输出完成打分,并结合基于情报外部特征的原始计算方法得到最终的综合评价得分。[结果/结论]实验结果显示,基于文本语义内容特征的情报价值计算模型可以对情报按照情报价值得分进行有效的星级区分,弥补了基于情报外部特征的原始计算模型中星级区分度差的问题,最终的综合评价结果表明本文提出的情报价值计算模型在实际应用中也能够很好地满足科研人员的需求。

  • 多特征融合的关键词语义功能识别研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 关键词作为一种能够揭示学术文本主题及核心内容的词汇或术语,对其进行功能识别可为知识和文献的快速、精确获取提供底层索引支持。[方法/过程] 针对现有研究在关键词上下文建模中多局限于文本层面的符号语义表征,在深入挖掘文献行书规律的基础上,提出一种基于多特征融合的词汇功能识别模型。模型在采用BERT模型捕获关键词上下文依赖特征的同时,融合关键词在关键词列表和全文中的位置信息以及词汇功能先验知识信息,继而采用注意力机制和前馈神经网络对关键词进行问题方法的语义功能判别。[结果/结论] 实验结果显示,关键词的位置信息和先验知识均能有效提升关键词语义功能识别性能,其中先验知识对识别效果的提升有较大贡献。

  • 基于BERT 和深度主动学习的农业新闻文本分类方法

    分类: 其他 >> 综合 提交时间: 2023-03-31 合作期刊: 《农业图书情报学报》

    摘要: [目的/ 意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过 高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选 择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/ 过程]将文本分类 常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT 模型结合3 种采样策略进行深度主动学习训练,在共 19 847 条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30 个样本标注的迭代实验进行测试。[结果/ 结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT 模型配合判别性主动学习采样函 数,具有最优的新闻文本分类效果和最低的标注数据需求。

  • 基于LDA-BERT融合模型的弱信号识别研究【涉嫌严重学术不端撤稿】

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。

  • 基于SCDV及各向异性调整BERT的文本语义消歧方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-18 合作期刊: 《计算机应用研究》

    摘要: 文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。主要创新点有:基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法, SCDVAB模型可有效提高文本语义消歧的综合性能。

  • 基于BERT-LDA的关键技术识别方法及其实证研究——以农业机器人为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 好的关键技术识别方法能够更好地为各层各级的关键技术识别、预测和研发提供支撑。[方法/过程] 提出基于BERT-LDA模型的关键技术识别方法,通过将BERT与LDA相结合,以弥补单一使用LDA主题模型缺乏上下文语义信息的缺陷,并以农业机器人为例进行实证研究。具体包括以下过程:①基于python构建BERT语义特征向量和LDA主题特征向量,将其在高维空间进行向量拼接,利用自编码器学习连接向量的低维潜在空间表示;②在潜在空间表示上使用K-means算法实现语义关联聚类,得到二维聚类效果图及关键技术主题词云图;③进行关键技术判定;④在农业机器人技术领域,与基于德温特TI专利软件的专利分析结果和《中国制造2025》重点领域技术路线图中农业装备关键共性技术清单对比,实证本方法的有效性。[结果/结论] 研究表明:BERT-LDA模型提高了主题聚类的连贯性及细粒度划分的精准度;具有很好的关键技术识别精准率和召回率;对识别的不同数据库和出版类型的文献数据集具有较好的包容性与兼容性,适应性强;可广泛应用于各类关键技术的识别。

  • Few-shot Learning for Named Entity Recognition Based on BERT and Two-level Model Fusion

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-11-18 合作期刊: 《数据智能(英文)》

    摘要: Currently, as a basic task of military document information extraction, Named Entity Recognition (NER) for military documents has received great attention. In 2020, China Conference on Knowledge Graph and Semantic Computing (CCKS) and System Engineering Research Institute of Academy of Military Sciences (AMS) issued the NER task for test evaluation, which requires the recognition of four types of entities including Test Elements (TE), Performance Indicators (PI), System Components (SC) and Task Scenarios (TS). Due to the particularity and confidentiality of the military field, only 400 items of annotated data are provided by the organizer. In this paper, the task is regarded as a few-shot learning problem for NER, and a method based on BERT and two-level model fusion is proposed. Firstly, the proposed method is based on several basic models fine tuned by BERT on the training data. Then, a two-level fusion strategy applied to the prediction results of multiple basic models is proposed to alleviate the over-fitting problem. Finally, the labeling errors are eliminated by post-processing. This method achieves F1 score of 0.7203 on the test set of the evaluation task.

  • 基于注意力网络的情感分析中的对比句处理

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》

    摘要: 方面级情感分析旨在确定评论中对特定方面的情绪极性,但目前较少研究复杂句对情感分类的影响。基于此,提出了一种基于BERT和带相对位置自注意力网络的方面级情感分析模型。首先,通过动态加权采样方法平衡对比句稀缺的问题,使模型学习到更多的对比句特征信息;其次,利用双头自注意力网络提取带相对位置的特征表示,与预训练模型得到的带绝对位置的特征表示联合训练;最后,通过标签平衡技术对模型正则化处理,稳定模型对中性样本的辨识。该模型在SemEval 2014 Task 4 Sub Task 2上进行实验,在两个数据集上的Accuracy和Macro-f1指标都有所提高。实验结果表明,该模型在对比句分类上是有效的,同时在整个测试集上分类也优于其他基准模型。

  • 多层信任视角下的共享服务平台用户预定行为研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [目的 /意义]旨在探索共享服务平台上基于多层信任视角所生成的信息对资源需求方预定行为的影响,以助力后疫情时代共享经济的复苏和持续发展。[方法 /过程]结合供需双方对平台、供需双方之间和需方对共享产品的信任信息,基于多层信任视角的“3P+3I”理论,构建共享服务平台消费者购买行为研究模型。以共享短租平台为例,获取Airbnb上北京地区的公开数据,利用Bert算法构建房源产品口碑指标,基于因果推断中的因果发现算法初步推测用户预定行为的内在机制并利用泊松回归进行实证分析。[结果/结论 ]供需双方对平台、供需双方之间和需方对共享产品的信任变量对房源销量均有显著的正向促进作用。其中房东产生的信任特征对租客预定行为的正向影响效应最大,建议房东花极大精力建立房东声誉并适当披露更多的信息,为获得“超级房东”徽章,可优先选择不提供“直接预定”服务以便筛选掉可能会恶意差评的用户。建议平台严格把关用户的个人资质,注重对用户身份信息认证机制和评论激励制度的完善,以降低用户决策中的不确定性。

  • 投资者情绪、股市流动性与波动性的时变研究——基于深度学习BERT模型和TVP-VAR模型

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-05-10

    摘要: 基于2018年1月1日至2019年12月31日东方财富网深证成指股吧的评论数据,本文通过使用深度学习BERT模型提取了其中蕴含的投资者情绪,并应用TVP-VAR模型对投资情绪、股市流动性以及波动性三者之间的时变联动关系进行了研究。实验结果表明,投资者情绪对股市流动性和波动性的冲击更为强烈,而反向的影响虽然相对较小,但其随股市状态变化更为显著。此外,在所有情况下,短期的响应都比中长期更显著,且影响具有非对称性,市场下行时期的冲击更为强烈。

  • 我国人工智能政策语义、主题特征与演化研究——基于政策文本的量化分析

    分类: 其他 >> 综合 分类: 其他 >> 综合 提交时间: 2024-01-10 合作期刊: 《文献与数据学报》

    摘要: [目的 / 意义]政策作为特殊因素对我国人工智能行业发展起到指导、规范和约束作用。探究政策出台现状并提出建议,以期促进我国人工智能健康发展。[方法 / 过程]选取我国最具代表性的国家级和省部级人工智能政策文本共 66 项作为研究对象,通过 BERT-Based 混合 LDA 模型建模和语义量化分析方法,从政策语义、主题特征及其演化对其内含语义和外部属性两方面进行全面探究。[结果 / 结论]目前我国人工智能政策工具以需求型为主,政策主题以促进领域融合为主,重视基础技术研究和实际成果转化;提出我国需建立人工智能政策统筹规划协调机制,在重视人工智能风险治理的同时,探索实际效益转化的新模式、新路径,并不断深化国际合作和竞争等政策建议。