查询结果:   彭新亮,程力,王轶,马博,赵凡.基于真值发现的加油站车辆号牌缺损数据填充方法[J].计算机应用与软件,2019,36(8):41 - 46,74.
中文标题
基于真值发现的加油站车辆号牌缺损数据填充方法
发表栏目
数据工程
摘要点击数
81
英文标题
GAS STATION VEHICLE PLATE DEFECT DATA FILLING BASED ON TRUTH DISCOVERY
作 者
彭新亮 程力 王轶 马博 赵凡 Peng Xinliang Cheng Li Wang Yi Ma Bo Zhao Fan
作者单位
中国科学院新疆理化技术研究所 新疆 乌鲁木齐 830011 中国科学院大学 北京 100049 新疆理化技术研究所新疆民族语音语言信息处理实验室 新疆 乌鲁木齐 830011   
英文单位
The Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, Xinjiang, China University of the Chinese Academy of Sciences, Beijing 100049, China Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi 830011,Xinjiang,China   
关键词
数据清洗 车辆加油数据 缺失数据填充 真值发现
Keywords
Data cleaning Gas station data Defect data filling Truth discovery
基金项目
2017“天山雪松计划”项目(2017XS05); 新疆维吾尔自治区十三五重大专项 (2016A03007-2)
作者资料
彭新亮,硕士生,主研领域:数据清洗,数据分析。程力,研究员。王轶,博士。马博,副研究员。赵凡,副研究员。周喜,研究员。 。
文章摘要
由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进TruthFinder算法的缺损值填充框架。基于真值发现算法,考虑到离散数据相似度的计算方式,改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验,相较于原算法及更加通用的Voting算法,正确率分别提升了7%和23%。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题,大大提高了此数据的可用性。
Abstract
Due to the imperfection of the data acquisition equipment and the unreliability of the data in the transmission process, data loss and errors often occur in the fueling data of the gas station vehicles. These problems reduce the integrity of the vehicle fueling data and seriously affect the subsequent data analysis work.Although there are many algorithms that can solve the problem of continuous numerical data defects, but they are not suitable for discrete classification data such as vehicle plates. Therefore, this paper proposed a defect-filling framework based on the improved TruthFinder algorithm. Its framework improved the calculation model of the data support by considering the calculation method of discrete data similarity. Through experiments on real gas station vehicle datasets, compared with the original algorithm and the Voting algorithm, the correct rates have increased by 7% and 23% respectively. The method can partially solve the problem of filling the defect value of the multi-source discrete data such as gas station vehicle fueling data, and greatly improves it’s availability.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于真值发现的加油站车辆号牌缺损数据填充方法
彭新亮
数据工程
2019
8
41
[摘要]
2
一种用于中文数据清洗的近邻排序算法
张培根
算法
2018
8
286
[摘要]
3
探索商业银行在大数据挖掘技术领域的应用
罗素文
数据工程
2017
9
43
[摘要]
4
电子资源海量访问行为的采集优化研究
宋惠莺
信息技术交流
2017
8
323
[摘要]
5
基于流处理技术的云计算平台监控方案的设计与实现
单莘
应用技术与研究
2016
4
88
[摘要]
6
一种基于极限学习机的缺失数据填充方法
杨毅
算法
2016
10
243
[摘要]