ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 18条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:201904.00026
下载全文

结构化数据的隐私与数据效用度量模型

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-04-01 合作期刊: 《计算机应用研究》

谢明明彭长根吴睿雪丁红发刘波涛

摘要：针对隐私保护中数据隐私量和数据效用的量化问题，基于度量空间和范数基本原理提出了一种结构化数据隐私与数据效用度量模型。首先，给出数据数值化处理方法，将数据表转变为矩阵进行运算；其次，引入隐私偏好函数，度量敏感属性随时间的变化；然后，分析隐私保护模型，量化隐私保护技术产生的变化；最后，构建度量空间，给出了隐私量、数据效用和隐私保护程度计算式。通过实例分析，所建立的度量模型能够有效反映隐私信息量。

点击量 1752 下载量 1046 评论
2. ChinaXiv:202309.00033
下载全文

大学生主动健康影响因素重要性度量及调节效应研究

分类：医学、药学 >> 临床医学提交时间： 2023-09-01 合作期刊: 《中国全科医学》

赵梦徐梦圆赵忠涛娄鹏宇

摘要：背景　健康中国战略的目标是人人健康。大学生作为青年群体的中坚力量、家庭和社会的高学历成员，对全民健康具有强大的辐射功能。大学生具备较好的健康意识，但健康行为状况不佳，实现大学生主动健康面临一系列挑战，需要观念转变和行动支持。目的　探索主动健康的影响因素，为高校健康教育提供参考建议。方法　分层整群抽取山东省 6 所高校 4 036 名在校大学生开展问卷调查。采用自设问卷（包括一般资料调查表、主动健康量表）开展调研。组间比较采用 t 检验，采用 Pearson 相关分析和多元线性回归分析探究主动健康的影响因素，采用随机森林度量分析评估影响因素的重要性。结果　主动健康得分为（24.614.65）分。女生主动健康得分高于男生，低年级大学生主动健康得分大于高年级。大学生健康责任、健康知识宣传、亲子关系、健康投资的重要性得分依次为 32 491.77、13 331、10 051.22、9 902.84，健康知识宣传（=0.024，P<0.001，95%CI：0.039，0.171）、健康需求沟通（=0.026，P<0.001，95%CI：0.043，0.145）、课程实践活动（=0.033，P<0.001，95%CI：0.069，0.167）、希望状态（=0.033，P<0.001，95%CI：0.008，0.019）、饮食情况（=0.019，P<0.001，95%CI：0.027，0.161）正向调节健康责任与主动健康的关系。结论　健康责任是影响主动健康的关键因素，健康知识宣传、健康需求沟通、课程实践活动、希望状态和饮食情况与健康责任产生正向交互作用，促进了个体主动健康。人际层与个体缺乏互动，组织层、社区层的重要性较小。可通过营造积极生态环境，形成多元健康促进关系，打造课堂、课外、自我实践教育模式，完善健康政策协同路径等举措促进主动健康。

点击量 572 下载量 191 评论
3. ChinaXiv:201901.00199
下载全文

基于变迁图编辑距离的流程相似性算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-01-28 合作期刊: 《计算机应用研究》

段瑞方欢方贤文詹悦

摘要：为了提高从企业模型库中查询检索模型的效率，提出一种基于变迁图编辑距离的流程相似性算法。首先，给出变迁图的概念及其生成方法；其次，提出边的长度概念，删除和插入边的代价由该边的长度决定，基于此定义图编辑操作及其代价，并用节点匹配算法计算最小图编辑距离；然后，给出两个过程模型的相似性概念和计算方法；最后，通过实验验证了算法的正确性且满足七条相似性性质，并验证了变迁图编辑距离满足四条距离性质。

点击量 1190 下载量 695 评论
4. ChinaXiv:201901.00058
下载全文

结合项目流行度加权的协同过滤推荐算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-01-03 合作期刊: 《计算机应用研究》

魏甜甜陈莉范婷婷吴小华

摘要：针对传统协同过滤算法中存在的流行度偏差问题，提出一种结合项目流行度加权的协同过滤推荐算法。在项目协同过滤算法的基础上，分析项目流行度和流行度差异对相似度的影响；设置流行度阈值，对大于该阈值的流行项目设计惩罚权重，降低其对项目间相似度的贡献。通过在MovieLens1M和Epinion数据集上进行实验验证和对比，结果表明，所提算法的预测准确度和覆盖率均优于传统算法，有效提高了推荐的多样性和新颖性，一定程度上缓解了流行度偏差问题。

点击量 1521 下载量 860 评论
5. ChinaXiv:202304.00549
下载全文

基于问题-方法组合的科技论文新颖性度量与创新类型识别

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

钱佳佳罗卓然陆伟

摘要： [目的/意义] 科技论文的新颖性度量是科技成果评价的重要内容，本文旨在从科技论文的核心要素即问题和方法出发，提出一种基于问题-方法组合的科技论文新颖性度量与创新类型识别方法。[方法/过程] 基于词频原则分别计算科技论文的问题新颖度、方法新颖度、问题-方法组合新颖度，再通过权重赋值计算论文整体的新颖度。同时，基于组合创新理论，从科技论文问题-方法组合的角度出发提出4种创新类型以及根据文章新颖值判断其所属创新类型的方法。[结果/结论] 对1951-2018年的20多万篇ACM论文进行实证研究，证明提出的科技论文新颖性度量方法以及创新类别识别方法是科学、合理和可操作的。

点击量 114 下载量 60 评论
6. ChinaXiv:201812.00114
下载全文

基于Spark的改进K-means算法的并行实现

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-12-13 合作期刊: 《计算机应用研究》

杜佳颖段隆振段文影卜秋瑾

摘要：针对K-means聚类算法存在的不足，提出了改进K-means来提高算法的性能，利用简化后的轮廓系数作为评估标准衡量K-means算法中k值，采用K-means++完成K-means算法初始中心点的选择。设置好k值以及初始中心点后使用形态学相似距离作为相似度测量标准将数据点归属到距离最近的中心点形成的簇中，最后计算平均轮廓系数确定合适的k值，并在Spark上实现算法并行化。通过对四个标准数据集在准确性，运行时间和加速比三个方面的实验表明，改进后的K-means算法相对于传统的K-means算法和SKDK-means算法不仅提高了聚类划分质量，缩短了计算时间，而且在多节点的集群环境下表现出良好的并行性能。实验结果分析出提出的改进算法能有效提高算法执行效率和并行计算能力。

点击量 1175 下载量 655 评论
7. ChinaXiv:202304.00609
下载全文

基于日志挖掘的学术搜索困难度量方法研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

陈翀王思炜梁冰

摘要： [目的/意义] 用户检索中经常面临不同程度的信息搜寻困难，为更好地理解用户需求、改进检索系统，需要一种简洁有效的方法度量信息搜寻的困难程度。[方法/过程] 将用户为查询而付出的行为及时间代价作为其信息搜寻困难的体现。按照用户在会话中的行为模式划分会话类型，将查询需求被满足且代价最小的会话类型作为比较基准，用基准会话的代价衡量其他会话类型的困难程度。为优化代价的表达模型，对搜寻代价的行为指标进行相关性检验，用因子分析选择独立性、区分度好的行为特征进行建模。以国家科技图书文献中心（NSTL）日志和搜狗日志为数据集比较学术搜索与通用搜索环境，以及不同会话类型所代表的探索过程中，用户的信息搜寻困难度。[结果/结论] 在本文所度量的两种搜索系统中，用户面临的信息搜寻困难度分别为2.30和1.57，学术搜索中的困难高于通用搜索。在两种体现学术探索过程的会话中，困难度分别为2.35和4.13。本文提出的方法可以用简单的数值来概括具有多种影响因素的搜索困难，并能用于不同类型会话和搜索环境，丰富了检索系统的评估手段。

点击量 135 下载量 60 评论
8. ChinaXiv:202303.00106
下载全文

时空克里金评估河套灌区土壤盐分时空格局

分类：地球科学 >> 大气科学提交时间： 2023-03-13 合作期刊: 《干旱区研究》

孙贯芳高照良朱焱杨金忠屈忠义

摘要：区域土壤盐分时空变异性大，采用经典统计和地统计方法无法准确判断取样时间不规则、空间位置不一致的土壤盐分的时空变化趋势。本文以内蒙古河套灌区隆胜研究区68个监测点0~1.8 m土壤剖面4582个土壤盐分数据为基础，利用时空地统计方法分析区域土壤盐分时空变化特征，比较时空克里金较传统空间克里金插值的精度提升效果，并验证时空地统计方法在监测点减少50%情况下预测区域盐分时空动态的能力。结果表明：（1）该研究区土壤盐分空间变异系数的变化范围是0.43~1.14，为中强变异，0~0.6 m根系层生育期积盐、非生育期脱盐， 0.6~1.8 m土壤剖面生育期脱盐、非生育期积盐、农田土壤盐分有明显的季节性规律。（2）和度量模型能较好拟合盐分时空经验半方差，各层土壤盐分预测值和观测值间的均方根误差RMSE均小于0.21 dSm-1，较传统空间克里金的 RMSE小0.02~0.09 dSm-1。（3）采用该方法在减少50%监测点情况下确定的土壤盐渍化分布与所有取样点确定的结果一致性较高，0~0.6 m和0.6~1.2 m土壤盐分面积间的相对误差MRE分别为-13.20%和-8.35%，RMSE为466.67 hm2和494.43 hm2，决定系数R2为0.79和0.72。时空克里金同时利用了土壤盐分时间和空间上的更多信息，实现了稀疏盐分监测点数据集土壤盐分时空动态的精确估计，可极大提高区域土壤盐分时空格局监测的效率。

点击量 3784 下载量 174 评论
9. ChinaXiv:201805.00232
下载全文

基于多目标进化算法的多距离聚类研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-20 合作期刊: 《计算机应用研究》

刘丛万秀华

摘要：传统的聚类算法通常基于单一的距离度量而设计，如何将多种距离度量有机融合在一起是当前面临的一个挑战。提出了一种基于多目标进化算法的多距离度量聚类框架(multiobjective evolutionary multiple distance measure clustering，MOMDC)，并使用欧氏距离和Path距离来设计实际框架。该框架首先将数据集分别用两种距离测度预聚类，而后将预聚类结果做合并，以降低问题的规模；其次分别计算子类间的两种距离关系；最后使用多目标进化算法在两种距离空间中并行聚类。在多目标进化算法设计中，使用实数-标签的编码方式来设计染色体，并且设计了基于两种距离测度的两个适应度函数对染色体进行评估。最终将MOMDC与其他几种经典算法在大量的数据集上进行实验对比。实验表明，该框架对不同分布的数据集均能取得良好的结果。

点击量 1357 下载量 745 评论
10. ChinaXiv:201804.02179
下载全文

基于FIUT的并行频繁项集增量更新算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-04-17 合作期刊: 《计算机应用研究》

张航张欣张平康李琪

摘要：针对目前大数据快速增加的环境下，海量数据的频繁项集挖掘在实际中所面临的增量更新问题，在频繁项超度量树算法（frequent items ultrametric trees，FIUT）的基础上，引入MapReduce并行编程模型，提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集，同时采用准频繁项集的策略来优化并行计算过程，从而提高数据挖掘效率。实验结果显示，所提出的算法能快速完成扫描和更新数据，具有较好的可扩展性，适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。

点击量 1946 下载量 1079 评论
11. ChinaXiv:202102.00076
下载全文

科研诚信的度量困难与非理性风险:面向科研诚信外部规范技术进路的学理反思

分类：管理学 >> 科学学与科技管理分类：图书馆学、情报学 >> 情报学提交时间： 2022-07-10

刘胜利

摘要：为深入探讨科研诚信外部规范相关价值体系层级和技术进路，基于多学科理论视域对科研诚信度量评价制度化实践的困难根源与非理性风险进行了具体考察和学理反思，明晰了：①科研诚信的伦理本质及其评价的社会关系型实践特质；②规范科研场域的应然价值尺度和科研著述的原初功能属性；③依托公共权威度量评价科研诚信的制度化逻辑及制度锁定风险；④优化技术进路和制度供给的未来方向。研究结论对于避免盲目的制度迁移与技术借鉴、构建有利于本国科学技术体系自立自强的制度优势、推进科研诚信从危机应对向长效治理转化，具有基础性的理论支撑意义。

同行评议状态:待评议

点击量 26641 下载量 2009 评论
12. ChinaXiv:202009.00094
下载全文

基于数据内在结构特征的度量学习

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2020-09-28 合作期刊: 《计算机应用研究》

张开放郎贵林王晓明黄增喜杜亚军

摘要：半正定约束度量学习(PCML)，作为一种结合了支持向量机(SVM)的典型度量学习方法，在图像识别和行人重识别领域展现了优越的性能。然而，在每次学习度量矩阵的过程中，该方法只简单的考虑不同类别样本之间的最大间隔，忽略了同一类别间的样本特征空间也在发生变化。基于此，提出了一种基于数据内在结构特征的度量学习方法。首先，与PCML相比，提出的方法不仅考虑了不同类别样本之间的间隔，而且考虑了相同类别样本间的类内散度矩阵，使学习到的度量矩阵有更强的鉴别能力。其次，进一步将L1-norm损失函数转换为L2-norm损失函数，这样可以进一步提高模型的泛化性能。最终，在多个数据集上的实验结果表明，多数情况下提出的方法相比于其他度量学习方法取得了更优异的性能。

点击量 1227 下载量 682 评论
13. ChinaXiv:201805.00436
下载全文

基于散度-形状引导和优化函数的显著性目标检测

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-24 合作期刊: 《计算机应用研究》

梁丽香夏晨星王胜文张汗灵

摘要：为了准确地进行显著性目标检测，提出了一种基于散度—形状引导和优化函数的显著性检测有效框架。首先，通过考虑颜色、空间位置和边缘信息，提出了一种有辨别力的相似性度量；接着，利用散度先验剔除图像边界中的前景噪声获得背景集，并结合相似性度量计算得到基于背景显著图。为了提高检测质量，形状完整性被提出并通过统计在分层空间中区域被激活的次数期望生成相应的形状完整显著图。最后，利用一个优化函数对两个显著图融合后的结果进行优化从而获得最终的结果。在公开数据集 ASD、DUT-OMRON和ECSSD上进行实验验证，结果证明所提方法能够准确有效地检测出位于图像任意位置的显著性物体。

点击量 2107 下载量 998 评论
14. ChinaXiv:201805.00398
下载全文

一种多元台风时间序列的相似性度量方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-18 合作期刊: 《计算机应用研究》

黄冬梅郑霞赵丹枫王丽琳

摘要：台风相似性度量方法的研究对防灾减灾、辅助决策等具有重要意义。目前，台风相似性的研究大多集中在台风路径的相似性度量上。首先，梳理影响台风相似性度量的多个要素，提出了基于多元时间序列的台风数据描述方法；其次，提出了台风时间序列完整性、一致性评估与修复方法；最后，针对台风时间序列的不等长问题，设计了一种基于主成分分析和动态时间弯曲距离的相似性度量方法。通过实验验证，该方法能够实现台风相似性的有效度量。

点击量 1215 下载量 677 评论
15. ChinaXiv:201711.01238
下载全文

微博用户标签与博文内容相关度研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

朱玲薛春香章成志傅柱

摘要：【目的】探索微博用户标签与其发布微博主题之间的潜在关系, 为微博类应用平台的主题发现以及用户标签自动推荐服务提供参考。【方法】利用爬虫程序抓取“自然语言处理”领域新浪微博用户信息及微博, 对抓取的微博内容进行分词并对用户标签进行语义扩充, 运用编辑距离算法将标签集与用户的微博内容进行匹配。【结果】对匹配结果进行抽样分析, 发现新浪微博平台上, 学术领域微博用户标签和用户所发微博内容具有一定的相关度。【局限】仅对学术领域和新浪微博进行相关研究, 研究领域和应用平台有待进一步扩展。【结论】微博标签推荐系统可以将用户微博内容作为标签推荐的重要数据来源, 为用户提供更有针对性的个性化标签; 同时,在对微博内容进行主题抽取和分析时, 可以借助微博用户标签优化分析结果。

点击量 2115 下载量 1219 评论
16. ChinaXiv:201805.00438
下载全文

基于辨识特征后融合的行人再识别

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-24 合作期刊: 《计算机应用研究》

刘琦侯丽

摘要：跨摄像机行人因光照、视角、姿态的差异，会使其外观变化显著，给行人再识别的研究带来严峻挑战。基于多特征融合和距离度量学习技术，提出辨识特征后融合的算法，并将其应用于行人再识别中。首先，对跨摄像机行人样本图像分别提取局部最大出现频次（LOMO）特征和基于显著颜色名称的颜色描述子（SCNCD）特征，表示跨摄像机行人的外观；然后，基于所提取的LOMO和SCNCD特征，分别去训练跨视图二次判别分析（XQDA）距离度量学习模型，分别获取跨摄像机每对行人每个特征优化的距离；最后，应用最小最大标准化距离融合的算法，获取跨摄像机行人最终的距离，用于跨摄像机行人的匹配。在具有挑战的VIPeR和PRID450S两个公开数据集上进行实验，实验结果表明所提出的行人再识别算法有效地提高了行人再识别的准确率。

点击量 2243 下载量 1194 评论
17. ChinaXiv:201805.00388
下载全文

适用于迭代型去模糊算法的自适应迭代终止条件

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-18 合作期刊: 《计算机应用研究》

江顺亮姜尹楠曾小霞唐祎玲徐少平

摘要：由于缺乏有效的迭代终止条件(iterative stopping criterion，ISC)，目前大多数去模糊算法简单采用固定的迭代次数实现，存在着执行效率低、去模糊效果不够理想等问题。为此，提出一种基于残差图像(迭代过程中所获得的中间估计图像和模糊核卷积后与模糊图像之间的差值)的去模糊效果度量(deblurring measure，DM)，并在该DM度量的基础上设计了一种自适应的迭代终止条件(adaptive ISC，AISC)。将所提出的AISC迭代终止条件应用于经典的NCSR(nonlocally centralized sparse representation) 迭代型去模糊算法中。在均匀模糊、高斯模糊和运动模糊三种典型模糊失真类型下大量的实验数据表明，与采用固定迭代次数的原NCSR算法相比，采用自适应迭代条件后NCSR算法执行效率得到显著提升，且所复原图像在PSNR、SSIM和FSIM图像指标值上与原算法差别不大。

点击量 1050 下载量 591 评论
18. ChinaXiv:202202.00048
下载全文

信息系统动力学的基础和应用

分类：信息科学与系统科学 >> 信息与系统科学其他学科提交时间： 2022-03-09

许建峰刘振宇王树良郑涛王雅实王赢飞党迎旭

摘要：目的论述建构信息系统动力学的必要性和基础，介绍其基本结构和应用前景。方法根据信息模型、性质和度量的数学基础理论以及信息系统的框架结构，建立信息系统的度量功效和动力构型，运用实例说明信息系统动力学的应用成前景。结果证明了信息模型、性质和度量定义符合一系列经典信息科技原理，基于信息系统的十一种度量功效和八种典型动力构型，构成了具有普遍意义的信息系统动力学基础理论体系。局限相关理论方法需要在其它行业领域复杂信息系统体系中得到应用验证。结论基于客观信息论的信息系统动力学能够支持复杂信息系统体系的分析和评价。

同行评议状态:待评议

点击量 7682 下载量 1161 评论