基于Spark并行的密度峰值聚类算法

作者： 孙伟鹏 ¹ 吴锡生 ¹ 孟斌 ²
作者单位：

1. 江南大学物联网工程学院

2. 中船重工集团第七〇二研究所软件工程中心
提交时间：2018-10-11 09:20:09

摘要: 针对FSDP聚类算法在计算数据对象的局部密度与最小距离时，由于需要遍历整个数据集而导致算法的整体时间复杂度较高的问题，提出了一种基于Spark的并行FSDP聚类算法SFSDP。首先，算法通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区；然后，利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析；最后，通过将分区间的局部簇集合并，生成全局簇集。实验结果表明，SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析工作，并且算法在准确性和扩展性方面都有很好的表现。

聚类密度峰值空间划分并行 Spark

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201810.00062 (或此版本 ChinaXiv:201810.00062V1)
DOI:10.12074/201810.00062V1
CSTR:32003.36.ChinaXiv.201810.00062.V1
推荐引用方式： 孙伟鹏,吴锡生,孟斌.(2018).基于Spark并行的密度峰值聚类算法.计算机应用研究.[ChinaXiv:201810.00062] (点此复制)

版本历史

[V1]

2018-10-11 09:20:09

ChinaXiv:201810.00062V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
4. 大模型与标准文献知识库的融合应用探索	2024-04-10
5. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
6. 引导大语言模型生成计算机可解析内容	2024-04-07
7. 基于 Python 中 MeCab 库对日语文章进行文本分析处理实现	2024-04-04
8. 一种基于能量-信息转换的智能测度	2024-03-30
9. 基于大语言模型的中庸思维对心理健康的影响机制研究——道德中心性的中介作用	2024-03-23
10. 收入分配不平等对心理健康的影响机制研究——道德中心性的中介作用	2024-03-23


公开评论匿名评论仅发给作者