查询结果:   张素琪,孙云飞,武君艳,顾军华.基于Spark的并行频繁项集挖掘算法[J].计算机应用与软件,2019,36(2):24 - 28,143.
中文标题
基于Spark的并行频繁项集挖掘算法
发表栏目
数据工程
摘要点击数
52
英文标题
A PARALLEL FREQUENT ITEMSETS MINING ALGORITHM BASED ON SPARK
作 者
张素琪 孙云飞 武君艳 顾军华 Zhang Suqi Sun Yunfei Wu Junyan Gu Junhua
作者单位
天津商业大学信息工程学院 天津 300134 河北工业大学人工智能与数据科学学院 天津 300401 河北省大数据计算重点实验室 天津 300401   
英文单位
School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China School of Artificial Intelligence and Data Science Institute, Hebei University of Technology, Tianjin 300401, China Hebei Key Laboratory of Big Data Computing, Tianjin 300401, China   
关键词
大数据平台 关联规则 频繁项集 FP-Growth Spark
Keywords
Big data platform Association rules Frequent itemsets FP-Growth Spark
基金项目
河北省科技计划项目(17210305D);天津市科技计划项目(15ZXHLGX00130,16ZXHLSF0023)
作者资料
张素琪,讲师,主研领域:数据挖掘,计算机仿真。孙云飞,本科生。武君艳,硕士生。顾军华,教授。 。
文章摘要
关联规则挖掘是数据挖掘领域的重要研究方向之一。频繁项集的挖掘是关联规则挖掘的第一步,也是最重要的步骤。FP-Growth(Frequent Pattern-Growth)算法因其挖掘效率以及空间复杂度方面的优势被广泛应用于频繁项集挖掘任务中。面对海量数据,FP-Growth算法挖掘效率变得极低甚至失效。在Hadoop大数据平台上实现的基于MapReduce框架的并行FP-Growth算法——PFP算法解决在处理大规模数据时传统算法失效的问题,但是由于其将每次执行之后的中间结果输出到磁盘,降低算法执行效率。为提高并行FP-Growth算法执行效率,提出一种基于Spark的SPFPG算法。该算法运用负载均衡思想对分组策略进行改进,综合考虑分区计算量和FP-Tree规模两个因素,保证每个组之间负载总和近似相等。在Spark上实现FP-Growth算法——SFPG算法的基础上,实现优化后的SPFPG算法。实验结果表明,SPFPG算法相比SFPG算法挖掘效率更高,且算法具有良好的扩展性。
Abstract
Association rule mining is one of the important research directions in data mining.The mining of frequent itemsets is the first and most important step in association rule mining.FP-Growth algorithm is widely used in frequent itemsets mining tasks because of its mining efficiency and its spatial complexity.Faced with big data, mining efficiency of FP-Growth algorithm becomes extremely low or even invalid.PFP algorithm, the parallel FP-Growth algorithm based on MapReduce framework implemented on Hadoop, solves the problem of failure of traditional algorithms when dealing with large-scale data.However, the efficiency of the algorithm is reduced because it output the intermediate results to disk after each execution.In order to improve the execution efficiency of parallel FP-Growth algorithm, a Spark-based SPFPG algorithm was proposed in the paper.The algorithm adopted the load balancing idea to improve the packet strategy. Considering the partition calculation and FP-Tree size, the sum of loads among each group was approximately equal. On the basis of SFPG, FP-Growth implemented on Spark, the optimized SPFPG algorithm was realized.The experimental results show that SPFPG algorithm is more efficient than SFPG algorithm and it has a good scalability.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于Spark的并行频繁项集挖掘算法
张素琪
数据工程
2019
2
24
[摘要]
2
基于混合式架构城市轨道交通大数据平台与运营决策应用
张铭
应用技术与研究
2019
2
85
[摘要]
3
基于IFC标准的建筑信息模型分布式大数据平台存储技术研究
陈远
应用技术与研究
2019
2
125
[摘要]
4
基于Spark的分布式大数据分析算法研究
宋泊东
数据工程
2019
1
39
[摘要]
5
基于大数据技术的EAST实验数据访问日志分析系统的设计
章琦皓
数据工程
2018
9
50
[摘要]
6
一种改进的基于N-List的频繁项集挖掘算法
翟悦
数据工程
2018
9
67
[摘要]
7
大数据环境下一种基于模式匹配的实体统一方法
熊安萍
数据工程
2018
8
87
[摘要]
8
基于大数据的IPTV视频评估模型
顾军华
多媒体技术应用
2018
8
231
[摘要]
9
建设具有“公交优先”特色的上海智慧交通云服务平台方案
费晔
应用技术与研究
2018
7
169
[摘要]
10
基于多数据库的模糊元关联规则挖掘方法
刘小燕
数据工程
2018
5
42
[摘要]
11
基于OLAP和聚类分析的关联规则挖掘方法
熊中敏
数据工程
2018
5
55
[摘要]
12
一种基于Spark的分布式时态索引方法
郑晓东
应用技术与研究
2018
5
102
[摘要]
13
面向大数据的超混沌和AES混合加密方法研究
温贺平
安全技术
2018
5
318
[摘要]
14
一种基于平行坐标系的流转数据可视化方法
张元鸣
数据工程
2018
4
55
[摘要]
15
一种用户画像系统的设计与实现
王洋
软件技术与研究
2018
3
8
[摘要]
16
一种基于权限特征的Android恶意应用检测方法
王家琰
安全技术
2018
3
316
[摘要]
17
深度置信网络的Spark并行化在微博情感分类中的应用研究
张翔
数据工程
2018
2
48
[摘要]
18
全局模式下的深网数据抽取与挖掘
姚晓鹏
应用技术与研究
2018
2
91
[摘要]
19
基于Spark的空间范围查询索引研究
陈业斌
应用技术与研究
2018
2
96
[摘要]
20
基于分词的关联规则预测系统研究
王志超
应用技术与研究
2018
12
140
[摘要]
21
差别依赖验证的分布式算法
覃昇
算法
2018
11
259
[摘要]
22
基于差分隐私的海量数据发布方法研究
颜飞
安全技术
2018
11
314
[摘要]
23
基于云平台Hadoop的中医数据挖掘系统设计与实现
王倩
数据工程
2018
10
45
[摘要]
24
基于数据挖掘的攻击场景提取方法研究
彭梦停
安全技术
2018
10
317
[摘要]
25
基于数据特性的Spark任务性能优化
柴宁
数据工程
2018
1
52
[摘要]
26
FM集成模型在广告点击率预估中的应用
潘博
应用技术与研究
2018
1
107
[摘要]
27
基于Spark/GraphX图聚类算法的入室盗窃串并案研究
鲍世方
应用技术与研究
2017
9
108
[摘要]
28
使用多支持度的关联规则分类算法
黄亚东
算法
2017
9
246
[摘要]
29
基于Spark的并行FP-Growth算法优化与实现
陆可
算法
2017
9
273
[摘要]
30
大型商业银行基于Hadoop分布式数据仓库建设初探
杨頲
数据工程
2017
8
72
[摘要]
31
一种分类数据聚类算法及其高效并行实现
丁祥武
算法
2017
7
249
[摘要]
32
Apriori改进算法在研究影响土壤反射率因素中的应用
孙斌
算法
2017
7
293
[摘要]
33
一种基于带权无向图的中医方剂频繁项集挖掘算法
谭龙
数据工程
2017
5
38
[摘要]
34
面向Spark的遥感影像金字塔模型的并行构建方法
黄冬梅
图像处理与应用
2017
5
175
[摘要]
35
一种基于Spark的改进协同过滤算法研究
许智宏
算法
2017
5
247
[摘要]
36
基于频繁项集挖掘算法的伴随车应用与实现
陈瑶
应用技术与研究
2017
4
60
[摘要]
37
面向微博的PageRank算法的改进与应用
原野
数据工程
2017
3
31
[摘要]
38
社会化信息对股市波动影响分析—基于SparkR平台的实现
倪丽萍
算法
2017
3
181
[摘要]
39
基于并行化递归神经网络的中文短文本情感分类
谢铁
算法
2017
3
205
[摘要]
40
基于前缀项集的Apriori算法改进
于守健
算法
2017
2
290
[摘要]
41
基于效用函数度量的多维效用关联规则挖掘
王仲君
数据工程
2017
12
36
[摘要]
42
基于二叉树编码的关联规则动态挖掘算法
王峰山
数据工程
2017
12
53
[摘要]
43
基于SVR预测的可逆数据库水印技术
龙晓泉
数据工程
2017
12
64
[摘要]
44
探索关联规则可视化的结构化关联映射图
易黎
数据工程
2017
12
68
[摘要]
45
基于特征相似的软件缺陷排除方法
张灿
软件技术与研究
2017
11
13
[摘要]
46
基于大规模社会网络的并行布局算法框架
顾惠健
应用技术与研究
2017
1
73
[摘要]
47
不确定数据流中频繁模式的并行挖掘算法
常艳芬
数据工程
2016
9
20
[摘要]
48
基于MapReduce的DHP算法并行化研究
周国军
数据工程
2016
6
47
[摘要]
49
Hadoop下负载均衡的频繁项集挖掘算法研究
朱文飞
数据工程
2016
5
35
[摘要]
50
民航旅客服务信息系统告警关联规则挖掘
赵纪刚
应用技术与研究
2016
4
72
[摘要]
51
Chrome浏览器历史记录提取与分析
杨雪
安全技术
2016
12
313
[摘要]
52
基于关联规则挖掘的航班协同保障数据知识发现研究
丁建立
数据工程
2016
11
21
[摘要]
53
Spark平台下的高效Web文本分类系统的研究
李涛
数据工程
2016
11
33
[摘要]
54
基于MapReduce的频繁项集并行挖掘算法
马强
软件技术与研究
2015
9
13
[摘要]
55
基于关联规则的语音情感中韵律特征抽取算法研究
徐照松
数据工程
2015
9
42
[摘要]
56
基于FP_Growth的消费行为关联分析系统设计与实现
黄伟
数据工程
2015
8
34
[摘要]
57
一种基于Apriori的微博推荐并行算法
丛颖
算法
2015
8
229
[摘要]
58
基于关联规则的垃圾邮件分类模型
邓慧
信息技术交流
2015
8
320
[摘要]
59
基于FARM降低系统性偏差的缺陷修复时间预测方法
吴含宇
软件技术与研究
2015
7
5
[摘要]
60
基于加权关联规则和文本挖掘的金融新闻传播Agent实现
张人上
人工智能与识别
2015
6
188
[摘要]
61
综合控制流与数据流分析的主机异常检测新方法
吴敏
软件技术与研究
2015
5
33
[摘要]
62
基于概念格的无冗余关联规则提取算法
翟悦
数据工程
2015
4
46
[摘要]
63
教育信息化数据中完全加权正负关联模式发现
余如
算法
2015
4
256
[摘要]
64
一种具有跳跃式前进的Apriori算法
陈方健
数据工程
2015
3
34
[摘要]
65
基于滑动窗口的不确定性数据流频繁项集挖掘算法
刘慧婷
数据工程
2015
12
12
[摘要]
66
基于多维关联规则的电网脆弱性识别研究
颜宏文
数据工程
2015
11
36
[摘要]
67
一种基于加权规则的显著模式挖掘算法
熊政
应用技术与研究
2015
11
53
[摘要]
68
分布式频繁项集挖掘算法
陈明洁
数据工程
2015
10
63
[摘要]
69
一种适合于保险产品的个性化推荐算法
徐锡忠
算法
2015
10
279
[摘要]
70
基于等价类规则树的高效关联规则挖掘算法
刘晓蔚
信息技术交流
2015
1
313
[摘要]
71
基于RGMM的离散基因表达数据关联规则挖掘
黄睿
人工智能与识别
2014
9
191
[摘要]
72
基于数据场的量化关联规则挖掘研究与实现
孟海东
数据库技术
2014
7
40
[摘要]
73
基于知识点的多支持度挖掘算法
杨鹤标
人工智能与识别
2014
7
169
[摘要]
74
一种基于关联规则与支持向量机的基因表达数据分类模型
王美华
人工智能与识别
2014
5
155
[摘要]
75
一种快速的自顶向下挖掘算法
胡宁
算法
2014
5
272
[摘要]
76
一种直接生成频繁项集的分治Apriori算法
郑麟
算法
2014
4
297
[摘要]
77
基于时间规律的独居老人日常行为异常预警系统设计
许丹纯
信息技术交流
2014
3
314
[摘要]
78
基于概念格中紧致依赖的空间数据挖掘方法研究
曾子维
数据库技术
2014
2
33
[摘要]
79
基于RESTFUL的面向服务数据挖掘原型系统的设计与实现
马青霞
数据库技术
2014
2
41
[摘要]
80
云计算环境下的关联挖掘在图书销售中的研究
郭健
数据工程
2014
11
50
[摘要]
81
基于概念格的频繁闭项集挖掘方法
翟悦
数据工程
2014
11
54
[摘要]
82
基于FP-Tree的QAR数据故障检测研究
杨慧
数据工程
2014
10
41
[摘要]
83
一种基于数据两方垂直分布的多维关联规则挖掘算法
李海磊
数据库技术
2014
1
18
[摘要]
84
基于观点挖掘的产品特征提取
刘羽
应用技术与研究
2014
1
81
[摘要]