基于存储改进的分区并行关联规则挖掘算法

作者： 王永贵 ¹ 谢南 ¹ 曲海成 ¹
作者单位：

1. 辽宁工程技术大学软件学院
提交时间：2018-10-11 09:20:10

摘要: 基于关联规则在大数据挖掘领域正引起广泛关注，算法的重点及难点就是挖掘频繁集。针对现有算法存储结构简单、生成大量冗余的候选集、时间和空间复杂度高，挖掘效率不理想的情况。为了进一步提高关联规则算法挖掘频繁集的速度，优化算法的执行性能，提出基于内存结构改进的关联规则挖掘算法。算法基于Spark分布式框架，分区并行挖掘出频繁集，提出在挖掘过程中利用布隆过滤器进行项目存储，并对事务集和候选集进行精简化操作，进而达到优化挖掘频繁集的速度、节省计算资源的目的。算法在占用较少内存的条件下，相比于YAFIM和MRApriori算法，在挖掘频繁集效率上有明显地提升。算法不但能较好提升挖掘速度，降低了内存的压力，而且具有很好的可扩展性，使得算法可以应用到更大规模的数据集和集群，从而达到优化算法性能的目的。

关联规则大数据候选集布隆过滤器 Spark

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201810.00041 (或此版本 ChinaXiv:201810.00041V1)
DOI:10.12074/201810.00041V1
CSTR:32003.36.ChinaXiv.201810.00041.V1
推荐引用方式： 王永贵,谢南,曲海成.(2018).基于存储改进的分区并行关联规则挖掘算法.计算机应用研究.[ChinaXiv:201810.00041] (点此复制)

版本历史

[V1]

2018-10-11 09:20:10

ChinaXiv:201810.00041V1

下载全文

相关论文推荐

1. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
2. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
3. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
4. 引导大语言模型生成计算机可解析内容	2024-04-21
5. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
6. 大模型与标准文献知识库的融合应用探索	2024-04-10
7. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
8. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07
9. 引导大语言模型生成计算机可解析内容	2024-04-07
10. Terrain Point Cloud Inpainting via Signal Decomposition	2024-04-05


公开评论匿名评论仅发给作者