查询结果:   宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39 - 44.
中文标题
基于Spark的分布式大数据分析算法研究
发表栏目
数据工程
摘要点击数
59
英文标题
DISTRIBUTED BIG DATA ANALYSIS ALGORITHM BASED ON SPARK
作 者
宋泊东 张立臣 江其洲 Song Bodong Zhang Lichen Jiang Qizhou
作者单位
广东工业大学计算机学院 广东 广州 510006     
英文单位
School of Computers, Guangdong University of Technology, Guangzhou 510006, Guangdong, China     
关键词
Apache Kafka 分布式 Spark RDD n层 实时数据流
Keywords
Apache Kafka Distributed Spark RDD n layer Real-time data stream
基金项目
国家自然科学基金项目(61572142)
作者资料
宋泊东,硕士生,主研领域:数据挖掘,信息安全,信息物理融合系统。张立臣,教授。江其洲,硕士生。 。
文章摘要
随着大数据时代的到来,数据计算的实时性和数据量面临许多挑战。为了满足庞大的数据量和大数据高速处理的要求,研究将Apache作为一种集成的资源管理系统?捎肁pache Storm、Apache Spice及SARK RDD处理大型分布式实时数据流,使用Apache Kafka作为消息中间件来支持异步消息的通信。设计一种支持并行运算规则的分布式大数据分析处理算法。实验结果表明:该算法可有效降低海量数据的分析速度,且支持系统内各子系统间的异构信息沟通与数据存储,足以满足高频交易市场的短期趋势预测需求。在高频、大数据处理系统中具有较高的应用价值。
Abstract
With the coming of the big data era, the real-time and data quantity of data computation is facing with many challenges. To meet the requirements of large data volume and high-speed processing of big data, we took Apache as an integrated resource management system. We adopted Apache Storm, Apache Spice and SARK RDD to deal with large-scale distributed real-time data streams, and used Apache Kafka as message middleware to support communication of asynchronous message. A distributed big data analysis and processing algorithm was designed, which supported parallel operation rules. Experimental results show that the algorithm can effectively reduce the analysis speed of massive data and support heterogeneous information communication and data storage among subsystems. It is sufficient to meet the demands of short-term trend forecast in high-frequency trading market. It has high application value in high frequency and big data processing system.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于IFC标准的建筑信息模型分布式大数据平台存储技术研究
陈远
应用技术与研究
2019
2
125
摘要还未上传
2
基于Spark的分布式大数据分析算法研究
宋泊东
数据工程
2019
1
39
[摘要]
3
微服务架构下的分布式事务处理
方意
应用技术与研究
2019
1
152
[摘要]
4
生产设备实时数据远程监测研究与实现
张为民
应用技术与研究
2018
9
126
[摘要]
5
区块链共识算法的比较研究
宋焘谊
综合评述
2018
8
1
[摘要]
6
基于分布式流处理的自适应数据分发策略
闾程豪
软件技术与研究
2018
8
24
[摘要]
7
云数据存储技术在气象数据存储中的应用
陈晴
应用技术与研究
2018
8
124
[摘要]
8
一种格点预报数据分布式服务系统的设计与实现
孙周军
网络与通信
2018
8
199
[摘要]
9
基于Bi-LSTM和分布式表示的网页主题相关度计算
王锋
数据工程
2018
7
57
[摘要]
10
基于蚁群的无线传感器网络漏洞检测技术研究
凌春
网络与通信
2018
7
194
[摘要]
11
基于Hadoop的中医症状群分类应用
石艳敏
信息技术交流
2018
7
325
[摘要]
12
基于Hadoop的数据资源管理平台设计
黄华林
信息技术交流
2018
7
329
[摘要]
13
基于Hadoop的监控数据存储与处理方案设计和实现
池亚平
应用技术与研究
2018
6
58
[摘要]
14
扩散式样条最小四阶矩算法
周楠
算法
2018
6
230
[摘要]
15
一种基于LRFU缓存替换策略的HDFS客户端本地缓存设计与实现
谢磊
软件技术与研究
2018
5
15
[摘要]
16
基于多数据库的模糊元关联规则挖掘方法
刘小燕
数据工程
2018
5
42
[摘要]
17
基于微服务架构的分布式测距系统的研究与设计
向彬彬
应用技术与研究
2018
5
89
[摘要]
18
一种基于Spark的分布式时态索引方法
郑晓东
应用技术与研究
2018
5
102
[摘要]
19
大型电力企业基于GBase分布式数据仓库建设初探
邱菊
应用技术与研究
2018
5
184
[摘要]
20
具有隐私保护的固定密文长度分布式属性基加密方案
李非非
安全技术
2018
5
323
[摘要]
21
面向资源架构的移动应用系统设计与实现
陈廷伟
应用技术与研究
2018
4
80
[摘要]
22
一种用户画像系统的设计与实现
王洋
软件技术与研究
2018
3
8
[摘要]
23
一种基于HBase的语义数据存储模型
翟社平
软件技术与研究
2018
3
15
[摘要]
24
分布式计算技术在交通一卡通清分管理系统中的应用研究
方秋水
应用技术与研究
2018
3
102
[摘要]
25
基于Hadoop-Mahout的分布式课程推荐算法
徐文健
算法
2018
3
236
[摘要]
26
隐马尔可夫模型路网匹配的MapReduce实现
陆健
软件技术与研究
2018
2
7
[摘要]
27
基于发布订阅机制的实时中间件的设计与实现
郑鹏怡
软件技术与研究
2018
2
44
[摘要]
28
面向国内直播行业的分布式弹幕爬虫研究
王雪瑞
网络与通信
2018
2
134
[摘要]
29
基于信息网模型的动态数据划分策略
陈诗雅
数据工程
2018
11
42
[摘要]
30
分布式任务调度在电力市场交易系统中的应用设计
承林
应用技术与研究
2018
11
163
[摘要]
31
差别依赖验证的分布式算法
覃昇
算法
2018
11
259
[摘要]
32
基于环境资源自动匹配的云测试框架研究与应用
鞠炜刚
软件技术与研究
2018
1
32
[摘要]
33
基于数据特性的Spark任务性能优化
柴宁
数据工程
2018
1
52
[摘要]
34
分布式发电配电网故障区段定位新方法
郭玉雯
软件技术与研究
2017
9
14
[摘要]
35
基于数据服务的县级国土资源“一张图”平台关键技术研究
辜寄蓉
应用技术与研究
2017
9
82
[摘要]
36
基于Spark/GraphX图聚类算法的入室盗窃串并案研究
鲍世方
应用技术与研究
2017
9
108
[摘要]
37
基于Spark的并行FP-Growth算法优化与实现
陆可
算法
2017
9
273
[摘要]
38
异构数据驱动和UML融合的供应链智能控制系统设计
张生福
信息技术交流
2017
9
312
[摘要]
39
分布式环境下的频繁数据缓存策略
易俗
软件技术与研究
2017
8
12
[摘要]
40
大型商业银行基于Hadoop分布式数据仓库建设初探
杨頲
数据工程
2017
8
72
[摘要]
41
一种高效的船舶活动热点海域探测算法
杨乐
算法
2017
8
296
[摘要]
42
云计算平台中监控视频摘要任务调度方法研究
许彬
软件技术与研究
2017
7
7
[摘要]
43
制造物联中弹性分布式海量数据分析系统的设计与实现
杜量
应用技术与研究
2017
7
55
[摘要]
44
基于信息网模型的分布并行多连接查询优化
徐晶
网络与通信
2017
7
66
[摘要]
45
基于接触信息的自适应机会网络路由算法
武淑艳
网络与通信
2017
7
97
[摘要]
46
基于分布式消息队列的企业级全文检索模型研究
李政
算法
2017
6
292
[摘要]
47
P2P信任系统中基于重复博弈的惩罚机制研究
杨先伟
信息技术交流
2017
6
328
[摘要]
48
面向Spark的遥感影像金字塔模型的并行构建方法
黄冬梅
图像处理与应用
2017
5
175
[摘要]
49
一种基于Spark的改进协同过滤算法研究
许智宏
算法
2017
5
247
[摘要]
50
层次化聚类在分布式计算环境中的剪枝策略
丁晓阳
算法
2017
5
261
[摘要]
51
网络安全审计系统中FTP解析策略研究
闫露
安全技术
2017
5
306
[摘要]
52
基于B-S的文印公司账务管理系统研发
曾强
信息技术交流
2017
5
322
[摘要]
53
对等结构的混合集群的层次化存储策略研究
涂超凡
软件技术与研究
2017
4
6
[摘要]
54
基于INM的在线教学系统的设计与实现
李杰
数据工程
2017
4
28
[摘要]
55
基于频繁项集挖掘算法的伴随车应用与实现
陈瑶
应用技术与研究
2017
4
60
[摘要]
56
基于复数域的高效完整性保护数据融合算法
贾宗璞
应用技术与研究
2017
4
70
[摘要]
57
一种面向网络边缘任务调度问题的多方向粒子群优化算法
乔楠楠
算法
2017
4
309
[摘要]
58
社会化信息对股市波动影响分析—基于SparkR平台的实现
倪丽萍
算法
2017
3
181
[摘要]
59
多云存储中基于身份的数据持有性公开证明方案
姜林美
安全技术
2017
3
294
[摘要]
60
基于列存储机制下多维数据仓库模型的优化与研究
徐晓锦
数据工程
2017
2
48
[摘要]
61
分布式下MongoDB对激光点云的存储和处理研究
徐旭东
应用技术与研究
2017
2
71
[摘要]
62
基于FCM-ANN的化工储罐异常检测方法研究
杨小健
人工智能与识别
2017
2
214
[摘要]
63
核电企业转型互联网架构的研究
杨强
信息技术交流
2017
12
326
[摘要]
64
EarnCache:一种增量式大数据缓存策略
郭俊石
软件技术与研究
2017
11
44
[摘要]
65
基于Storm的工业流水线实时分析系统设计与实现
陈志云
软件技术与研究
2017
11
48
[摘要]
66
基于虚拟化环境的多GPU并行通用计算平台研究
徐恒
应用技术与研究
2017
11
74
[摘要]
67
分布式检索在异构科技信息资源中的应用及优化
李城
应用技术与研究
2017
10
78
[摘要]
68
网络化分布式军事信息云架构解决方案的设计与实现
潘越
应用技术与研究
2017
10
97
[摘要]
69
SDN下的动态负载均衡机制
金玲
网络与通信
2017
10
180
[摘要]
70
基于Erasure code的实时流媒体传输系统
王俊博
多媒体技术应用
2017
10
214
[摘要]
71
面向中小机构的文件管理系统的设计与实现
郭彩云
应用技术与研究
2016
9
72
[摘要]
72
多视角分布式视频编码中基于置信度的时空边信息融合
黄碧波
多媒体技术应用
2016
9
134
[摘要]
73
面向城轨线网的海量小文件存储方法
刘靖
数据工程
2016
8
76
[摘要]
74
基于轮转部署的RAID6分布式存储系统扩容方案
高帅
应用技术与研究
2016
8
121
[摘要]
75
一种面向分布式策略自管理的方法
马增帮
算法
2016
8
264
[摘要]
76
面向Internet骨干网的优化LDDoS策略
陈世云
安全技术
2016
8
289
[摘要]
77
一种基于Chrome扩展程序的网络数据采集方法
沈洪洲
软件技术与研究
2016
7
10
[摘要]
78
基于ALE规范的分布式RFID中间件研究与实现
应俊
软件技术与研究
2016
7
14
[摘要]
79
DEN-Stream:一种分布式数据流聚类方法
李长路
数据工程
2016
7
56
[摘要]
80
基于分布式图计算框架的好友推荐算法研究
赵马沙
数据工程
2016
6
32
[摘要]
81
一种基于集群的SDN控制器负载均衡方案
黄小曼
网络与通信
2016
6
130
[摘要]
82
基于分布式计算的遥感图像水体识别研究
杨柳
人工智能与识别
2016
6
138
[摘要]
83
基于改进的分布式K-Means特征聚类的海量场景图像检索
崔红艳
图像处理与应用
2016
6
195
[摘要]
84
基于私有云计算技术的强震预警系统应用研究
蔡寅
软件技术与研究
2016
5
1
[摘要]
85
6LoWPAN中分布式TCP缓存队列策略
吉福生
网络与通信
2016
5
120
[摘要]
86
基于移动Agent的分布式Web搜索模型的设计与实现
李明
软件技术与研究
2016
4
18
[摘要]
87
大数据安全及其评估
陈文捷
数据工程
2016
4
34
[摘要]
88
基于节点聚集系数的分布式标签传播算法
张素智
网络与通信
2016
4
125
[摘要]
89
基于遗传压缩感知的无线传感器网络数据压缩方法
张娜
网络与通信
2016
4
129
[摘要]
90
一种移动网络下基于双时间戳的数据增量同步研究
郝平
网络与通信
2016
4
143
[摘要]
91
基于HDFS的创新知识云平台存储架构的研究与设计
马建红
数据工程
2016
3
62
[摘要]
92
基于WebSocket技术水文资源监管系统的研究与实现
陈炜
应用技术与研究
2016
3
104
[摘要]
93
基于共享内存的并行LDA算法
杨希
算法
2016
3
252
[摘要]
94
基于云计算的可扩展云教室解决方案的设计与实现
霍绍博
应用技术与研究
2016
2
81
[摘要]
95
基于Multi-Agent和本体的分布式入侵检测系统研究
郭广丰
人工智能与识别
2016
2
133
[摘要]
96
基于分布式集群环境的图聚类信息高效处理方案
刘娟娟
算法
2016
2
217
[摘要]
97
基于布鲁姆过滤器的计算机动态取证技术研究
鄢喜爱
安全技术
2016
2
299
[摘要]
98
无线传感网时间同步技术综述
庞泳
综合评述
2016
12
1
[摘要]
99
基于Web服务的海洋空间数据共享技术研究与实现
吕憧憬
应用技术与研究
2016
12
49
[摘要]
100
一类精确修复多个节点的简单再生码
王丽莎
数据工程
2016
11
11
[摘要]
101
一种面向CASA的分布式数据存储策略
过汇卿
数据工程
2016
11
28
[摘要]
102
Spark平台下的高效Web文本分类系统的研究
李涛
数据工程
2016
11
33
[摘要]
103
基于Ajax与MVC的RFID读写器B/S管理系统的设计实现
黄佑夫
应用技术与研究
2016
11
46
[摘要]
104
云计算网络中多租户虚拟网络隔离的分布式实现研究
严立宇
网络与通信
2016
11
93
[摘要]
105
数据分配策略优化的全条带遥感影像流水线并行处理
李亚林
图像处理与应用
2016
11
117
[摘要]
106
基于网格服务的电力海量数据分布式恢复算法
常涛
算法
2016
11
200
[摘要]
107
基于轻量级检测和混合连接策略的SYN Flood防御方法
刘云
安全技术
2016
11
310
[摘要]
108
基于排队论的交易系统时延分析
黄寅飞
信息技术交流
2016
11
326
[摘要]
109
一种基于数据划分实现分布式SPARQL查询的方法
杜方
数据工程
2016
10
23
[摘要]
110
SophicDB:一个高性能分布式实时数据库系统
崔昌栋
数据工程
2016
10
46
摘要还未上传
111
基于消息中间件的制造执行系统的设计与实现
张政
应用技术与研究
2016
10
118
[摘要]
112
面向多应用的文件同步方法
曾珊
安全技术
2016
10
297
[摘要]
113
一种大规模数据快速并行导入工具的研究与实现
邵开丽
软件技术与研究
2015
9
26
[摘要]
114
一种基于云的SaaS分布式多租户数据库研究
胡遵华
数据工程
2015
9
59
[摘要]
115
基于MongoDB的BESIII分布式计算记账系统的研究与实现
张刚
应用技术与研究
2015
9
62
[摘要]
116
基于URL动态映射的HTTP DDOS防御模型
李展歌
安全技术
2015
9
264
[摘要]
117
分布式拒绝服务攻击高速率单点局部异常检测
刘玉宽
安全技术
2015
9
299
[摘要]
118
基于WebService和Android的C/S+B/S结构手机电影系统
罗国涛
信息技术交流
2015
9
328
[摘要]
119
RERM:一种基于评论挖掘的需求获取方法
崔建苓
数据工程
2015
8
28
[摘要]
120
分布式组播路由器存储与转发优化模型
刘玉宝
网络与通信
2015
8
132
[摘要]
121
云数据中心分布式监控架构研究与平台设计
杨洪山
应用技术与研究
2015
7
51
[摘要]
122
基于Hadoop的朴素贝叶斯算法在中文微博情感分类中的研究与应用
蒋婉婷
应用技术与研究
2015
7
60
[摘要]
123
RDP码存储系统节点故障恢复的读盘优化
张燕
应用技术与研究
2015
6
104
[摘要]
124
基于Web服务的物联网体系结构模型及应用
郭正红
应用技术与研究
2015
5
123
[摘要]
125
实时数据流聚类等方法在钢铁质量监控中的应用
黄娇龙
信息技术交流
2015
5
297
[摘要]
126
云计算环境下基于朴素贝叶斯的数据分类
张红蕊
数据工程
2015
3
27
[摘要]
127
面向未来互联网的感知服务发现方法研究
徐川
网络与通信
2015
3
113
[摘要]
128
一种基于HLA的卫星分布式仿真系统研究及其应用
项磊
应用技术与研究
2015
2
61
[摘要]
129
基于网格环境的遥感图像并行分类
张雁
图像处理与应用
2015
2
194
[摘要]
130
基于预测的移动目标跟踪节点协同调度算法
卢旭
网络与通信
2015
12
80
[摘要]
131
移动小额支付平台框架研究
马玉鹏
应用技术与研究
2015
11
62
[摘要]
132
分布式云环境中多约束流媒体内容分发算法
魏蔚
算法
2015
11
247
[摘要]
133
分布式本体的构建与一致性维护方法
刘杰
软件技术与研究
2015
10
15
[摘要]
134
基于HBase的污染源监控数据存储系统实现方法研究
程树林
数据工程
2015
10
59
[摘要]
135
分布式频繁项集挖掘算法
陈明洁
数据工程
2015
10
63
[摘要]
136
基于可扩展路由体系的路由均衡存储转发模型
王淑贤
网络与通信
2015
10
130
[摘要]
137
一种无线传感器网络移动节点的三维定位算法
邹斌
网络与通信
2015
1
132
[摘要]
138
云计算背景下面向服务组合的SLA动态管理机制研究
于阳
软件技术与研究
2014
9
22
[摘要]
139
基于异构GPU集群的并行分布式编程解决方案
李佳佳
软件技术与研究
2014
9
28
[摘要]
140
基于DVS的绿色计算方法在大规模分布式计算中的应用研究
李琦
软件技术与研究
2014
7
18
[摘要]
141
基于非阻塞的分布式事务提交协议的实现
边耐政
网络与通信
2014
7
89
[摘要]
142
基于梯度的CRAHN分布式协作频谱感知方案
秦晓慧
网络与通信
2014
7
121
[摘要]
143
基于RAID6编码的校验盘故障修复算法
高玲玲
算法
2014
6
248
[摘要]
144
Linux服务器安全审计系统的设计与实现
张涛
软件技术与研究
2014
5
17
[摘要]
145
基于分布式麦克风阵列的声源定位算法
蔡卫平
多媒体技术应用
2014
5
132
[摘要]
146
海量图片文件存储去重技术研究
孙有军
应用技术与研究
2014
4
56
[摘要]
147
无线传感网中一种基于压缩感知的数据存储机制
庞慧
网络与通信
2014
4
111
[摘要]
148
一种直接生成频繁项集的分治Apriori算法
郑麟
算法
2014
4
297
[摘要]
149
地震行业数据整合服务架构研究与应用
蔡寅
应用技术与研究
2014
3
43
[摘要]
150
分布式自动化软件测试平台研究——测试工具集成策略研究
詹聪
应用技术与研究
2014
3
75
[摘要]
151
WSN中一种基于拓扑优化的数据收集方案
杨志
算法
2014
3
250
[摘要]
152
基于模糊关键字搜索的无安全信道公钥加密
孙婷
安全技术
2014
3
308
[摘要]
153
面向物联网的工作流服务架构模型
罗国涛
软件技术与研究
2014
2
9
[摘要]
154
基于RESTFUL的面向服务数据挖掘原型系统的设计与实现
马青霞
数据库技术
2014
2
41
[摘要]
155
基于dSPACE的高超声速飞行器实时仿真平台
郝秀
应用技术与研究
2014
2
52
[摘要]
156
基于MAS鱼病诊断专家系统的设计与应用
马冬萍
应用技术与研究
2014
2
96
[摘要]
157
一种面向纠删码技术的云存储可靠性机制
杜芸芸
安全技术
2014
2
312
[摘要]
158
基于模型检测的并发程序分析综述
黄明璋
综合评述
2014
12
1
[摘要]
159
一种修复多机型飞机运行计划的分布式整数规划方法
李奔驰
应用技术与研究
2014
12
80
[摘要]
160
数独问题的一个分布式物理博弈求解
商文喜
应用技术与研究
2014
12
113
[摘要]
161
分布式NoSQL系统写操作性能优化设计与实现
周跃
软件技术与研究
2014
11
25
[摘要]
162
基于图数据库的RDF数据分布式存储
项灵辉
数据工程
2014
11
35
[摘要]
163
云计算环境下的关联挖掘在图书销售中的研究
郭健
数据工程
2014
11
50
[摘要]
164
面向沉浸式多人射击游戏的分布式设备驱动系统设计与实现
陈学适
应用技术与研究
2014
11
58
[摘要]
165
基于MapReduce的并行聚类算法设计与实现
刘向东
算法
2014
11
251
[摘要]
166
基于ERN模型的分布式企业服务总线路由算法研究
曹君
网络与通信
2014
1
117
[摘要]
167
基于隐马尔科夫模型的无线传感网节点故障诊断算法
毛乐琦
网络与通信
2014
1
132
[摘要]