查询结果:   陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件,2019,36(4):262 - 267.
中文标题
基于分块和滑窗技术的相似重复记录检测算法研究
发表栏目
算法
摘要点击数
334
英文标题
AN DUPLICATE DETECTION APPROACH BASED ON BLOCKING AND WINDOWING
作 者
陈亮 杜璐 胡康 Chen Liang Du Lu Hu Kang
作者单位
西安工程大学计算机科学学院 陕西 西安 710048     
英文单位
School of Computer Science, Xi’an Polytechnic University, Xi’an 710048, Shaanxi, China     
关键词
数据质量 相似重复记录检测 窗口技术 分块技术
Keywords
Data quality Duplicate detection Windowing Blocking
基金项目
陕西省工业攻关资助项目(2014K05-43);陕西省教育厅专项科研项目(14JK1310);广东省计算机集成制造重点实验室(CIMSOF2016001)
作者资料
陈亮,副教授,主研领域:云计算与大数据处理,并行计算,计算机网络。杜璐,硕士生。胡康,工程师。 。
文章摘要
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
Abstract
Duplicate detection plays an important role in data quality. In order to reduce the detection cost and improve the algorithm efficiency, we proposed an effective duplicate detection algorithm, which was based on the traditional windowing and blocking. The algorithm sorted data sets by keyword and partitioned data into multiple blocks. And windowing technology was applied to restrict comparisons between blocks. We designed an improved multi-key sorting algorithm. It clustered different key together, gave priority to the block pairs with high repetition density and discarded the blocks with poor clustering. The improved algorithm reduced the number of data comparisons in the detection process, and reduced the impact of field quality on the speed of the algorithm. Theoretical and experimental analyses shows that it can effectively improve the accuracy and time efficiency of duplicate detection.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于分块sim-min-Hash的近似图像检索
刘翔宇
图像处理与应用
2019
7
259
[摘要]
2
多要素智能主控制器嵌入式软件设计
马赛飞
嵌入式软件与应用
2019
7
273
[摘要]
3
基于分块和滑窗技术的相似重复记录检测算法研究
陈亮
算法
2019
4
262
[摘要]
4
一种加权的深度森林算法
宫振华
算法
2019
2
274
[摘要]
5
大数据治理体系
甘似禹
综合评述
2018
6
1
[摘要]
6
基于语义标注的数据资源库元数据质量自动评估方法研究
郭晓明
软件技术与研究
2018
6
23
[摘要]
7
一种支持数据质量评价的方法与应用研究
宋俊典
信息技术交流
2018
5
328
[摘要]
8
差别依赖验证的分布式算法
覃昇
算法
2018
11
259
[摘要]
9
基于OSG的OBS导航定位系统三维可视化场景实现
王跃
应用技术与研究
2017
8
92
[摘要]
10
一种基于GIS的铁路设备维修路线规划方法
曹朋朋
应用技术与研究
2017
12
77
[摘要]
11
基于模糊控制器的w2MOF快速标量乘算法
李超群
安全技术
2016
4
325
[摘要]
12
基于空间自相关性和模糊集的空间数据噪声点检测算法
朱付保
算法
2016
3
264
[摘要]
13
基于FIXM的AFTN电报数据质量约束模型研究
姜高扬
网络与通信
2016
10
122
[摘要]
14
一种基于SCA的ETL架构的设计和实现
易先海
软件技术与研究
2015
4
24
[摘要]
15
面向数据流的一个高效用项集挖掘算法
慕欢欢
算法
2015
4
283
[摘要]
16
基于动态可调衰减滑动窗口的变速数据流聚类算法
周华平
算法
2015
11
255
[摘要]
17
基于隐马尔可夫模型的学习行为评估
黄志成
应用技术与研究
2014
6
59
[摘要]
18
改进量子粒子群算法优化神经网络的数据库重复记录检测
陈芬
数据库技术
2014
3
20
[摘要]
19
基于云模型的电网统计数据质量评估方法研究
颜宏文
应用技术与研究
2014
12
100
[摘要]
20
一种改进的相似重复记录检测算法
郭文龙
算法
2014
1
293
[摘要]