您当前的位置: > 详细浏览

基于Spark并行的密度峰值聚类算法

请选择邀稿期刊:
摘要: 针对FSDP聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而导致算法的整体时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP。首先,算法通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析;最后,通过将分区间的局部簇集合并,生成全局簇集。实验结果表明,SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析工作,并且算法在准确性和扩展性方面都有很好的表现。

版本历史

[V1] 2018-10-11 09:20:09 ChinaXiv:201810.00062V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量1845
  •  下载量1074
评论
分享