查询结果:   覃昇,谈子敬,肖永松.差别依赖验证的分布式算法[J].计算机应用与软件,2018,35(11):259 - 265.
中文标题
差别依赖验证的分布式算法
发表栏目
算法
摘要点击数
26
英文标题
DISTRIBUTED ALGORITHM FOR DIFFERENTIAL DEPENDENCY VALIDATION
作 者
覃昇 谈子敬 肖永松 Qin Sheng Tan Zijing Xiao Yongsong
作者单位
复旦大学计算机科学技术学院 上海 200433     
英文单位
School of Computer Science, Fudan University, Shanghai 200433, China     
关键词
数据质量 差别依赖 分布式算法 数据依赖验证
Keywords
Data quality Differential dependency Distributed algorithm Data dependency validation
基金项目
国家自然科学基金项目(61572135);上海市科技创新行动计划项目(16DZ1100200)
作者资料
覃昇,硕士生,主研领域:分布式数据管理。谈子敬,副教授。肖永松,硕士生。 。
文章摘要
数据质量是大数据研究的重要领域之一。数据一致性是数据质量评估的关键度量指标,它基于数据依赖来表述数据应该遵循的质量准则。差别依赖可以描述数据间的差异性,除了相等,还可以在定义中引入大于、小于等序列关系,因而具有较强的表述能力。数据依赖验证的目的是在数据集中发现违反数据依赖的部分数据,是进一步数据质量工作的基础。利用分布式计算环境来处理差别依赖验证的问题,以应对大数据的需求。提出分布式的随机三角分布算法,可以正确而高效地完成差别依赖在数据集上的检测;基于差别依赖的性质和数据分布特征,提出排序三角分布算法,更好地优化算法。实验证明,算法相较于常见分布式计算工具SparkSQL和Hive具有显著改善。
Abstract
Data quality is one of the important fields in big data research. Data consistency is regarded as one key measure to evaluate data quality, which expresses the quality criteria that data should follow according to data dependency. Differential dependency (DD) can state differences between data value. In addition to equality, it can also introduce sequence relationships in the definition such as greater than and less than, so it has strong expressive ability. The goal of data dependency validation is to find those data violating dependencies in the dataset, which is a fundamental step for further data quality tasks. In response to the demand of big data, distributed computing environment was used to deal with DD validation. We presented a distributed algorithm based on triangle distribution strategy, which could detect DD on the data set correctly and efficiently. Distributed algorithm based on sorted triangle was proposed to optimize the algorithm according to character of DD and distribution characteristics of data. The experiment proves that our approach significantly outperforms the common distributed computing tools such as SparkSQL and Hive.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
大数据治理体系
甘似禹
综合评述
2018
6
1
[摘要]
2
基于语义标注的数据资源库元数据质量自动评估方法研究
郭晓明
软件技术与研究
2018
6
23
[摘要]
3
一种支持数据质量评价的方法与应用研究
宋俊典
信息技术交流
2018
5
328
[摘要]
4
差别依赖验证的分布式算法
覃昇
算法
2018
11
259
[摘要]
5
基于OSG的OBS导航定位系统三维可视化场景实现
王跃
应用技术与研究
2017
8
92
[摘要]
6
一种基于GIS的铁路设备维修路线规划方法
曹朋朋
应用技术与研究
2017
12
77
[摘要]
7
基于空间自相关性和模糊集的空间数据噪声点检测算法
朱付保
算法
2016
3
264
[摘要]
8
基于FIXM的AFTN电报数据质量约束模型研究
姜高扬
网络与通信
2016
10
122
[摘要]
9
一种基于SCA的ETL架构的设计和实现
易先海
软件技术与研究
2015
4
24
[摘要]
10
基于云模型的电网统计数据质量评估方法研究
颜宏文
应用技术与研究
2014
12
100
[摘要]
11
一种改进的相似重复记录检测算法
郭文龙
算法
2014
1
293
[摘要]
12
医疗数据质量的问题探索和解决模式
李萍
应用技术与研究
2013
8
217
[摘要]
13
水利数据中心通用数据库维护系统设计与实现
黄滟
应用技术与研究
2013
5
241
[摘要]
14
一种数据交换整合平台的设计与实现
毕亿默
基金项目论文
2013
12
127
[摘要]
15
基于RIA的气象自动站异常数据分析系统模型
孙周军
基金项目论文
2013
1
96
[摘要]