查询结果:   汤建明,寇小强.海量网络文本去重系统的设计与实现[J].计算机应用与软件,2018,35(12):33 - 37.
中文标题
海量网络文本去重系统的设计与实现
发表栏目
数据工程
摘要点击数
54
英文标题
DESIGN AND IMPLEMENTATION OF MASSIVE NETWORK TEXT DEDUPLICATION SYSTEM
作 者
汤建明 寇小强 Tang Jianming Kou Xiaoqiang
作者单位
华北计算机系统工程研究所 北京 100083     
英文单位
National Computer System Engineering Research Institute of China, Beijing 100083, China     
关键词
文本去重 Simhash 相似度
Keywords
Text deduplication Simhash Similarity
基金项目
作者资料
汤建明,硕士生,主研领域:数据处理,图像识别,网络爬虫。寇小强,研究员。 。
文章摘要
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验,对内容提供商来说,也需要花费更多的资源对重复冗余的内容进行存储。因此,对文本做一些相似度判断的基本处理,去除重复的文本有很重要的意义和价值。提出设计和实现一种基于simhash的文本去重系统。该系统可以对每天新产生的文本内容进行相似度计算,对于相似的内容只生成一份唯一标识并进行入库处理,有效排除了相似度太高的重复文本。
Abstract
With the rapid development of the Internet and information technology in the present world, there are a large number of texts generated every day. However, it is unavoidable that many textual content is duplicated, which may lead users to see a lot of similar things when they search through search engines or browse content on websites. It not only brings a bad experience to users, but also requires more resources for content providers to store these repetitive and redundant contents. Therefore, it is of great significance and value to do some basic processing of text similarity judgment and remove duplicate text. A text deduplication system was designed and implemented based on simhash. The system can perform similarity calculation on the newly generated text content every day. For the similar content, only a unique identifier is generated and stored into the database, which effectively excludes duplicate texts with a high degree of similarity.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
濒危语言与汉语平行语料库动态构建技术研究
于重重
数据工程
2018
9
63
[摘要]
2
基于角点的稀疏子空间粒子滤波跟踪算法
王旭阳
图像处理与应用
2018
9
236
[摘要]
3
基于商空间的不完备形式背景填补方法研究
张其文
软件技术与研究
2018
8
37
[摘要]
4
数据集的语义关联发现方法研究
龚振
数据工程
2018
8
83
[摘要]
5
基于词向量特征扩展的中文短文本分类研究
雷朔
算法
2018
8
269
[摘要]
6
一种用于中文数据清洗的近邻排序算法
张培根
算法
2018
8
286
[摘要]
7
基于深度学习的慢性肝病CT报告相似度分析
常炳国
算法
2018
8
289
[摘要]
8
非局部相似性去噪算法研究
袁媛
算法
2018
8
303
[摘要]
9
基于降采样的堆模型预测大型规模网络课程的学习结果
林菲
应用技术与研究
2018
7
131
[摘要]
10
基于前趋势相似度的细粒度用户用电负荷预测
曹梦
应用技术与研究
2018
7
158
[摘要]
11
基于Laplacian正则化与双向随机游走的药物重定位方法
宋映龙
多媒体技术应用
2018
7
199
[摘要]
12
基于语义标注的数据资源库元数据质量自动评估方法研究
郭晓明
软件技术与研究
2018
6
23
[摘要]
13
基于歌曲标签聚类的协同过滤推荐算法的研究
赵宇峰
算法
2018
6
259
[摘要]
14
基于加权融合的E2LSH用户相似度计算
陈浩
算法
2018
5
307
[摘要]
15
基于语义相似度的本体概念更新方法研究
李婉婉
软件技术与研究
2018
4
15
[摘要]
16
基于LDA扩展主题词库的主题爬虫研究
费晨杰
数据工程
2018
4
49
[摘要]
17
基于协同传递机制的形状匹配算法
王江辉
人工智能与识别
2018
4
215
[摘要]
18
基于PFMEA技术及专家群决策的工艺失效风险评估
陶秋香
应用技术与研究
2018
2
60
[摘要]
19
基于主题与语义的对话语料关键词抽取方法
胡迁
数据工程
2018
12
27
[摘要]
20
海量网络文本去重系统的设计与实现
汤建明
数据工程
2018
12
33
[摘要]
21
基于自动文摘的答案生成方法研究
胡迁
人工智能与识别
2018
12
187
[摘要]
22
基于骨骼信息下的手势识别研究
杨和稳
图像处理与应用
2018
12
228
[摘要]
23
结合评分时间和用户空间的协同过滤推荐算法
李炎
算法
2018
12
247
[摘要]
24
基于爬虫的智能爬行算法研究
侯美静
网络与通信
2018
11
215
[摘要]
25
基于AIS的船舶航行周期识别
赵文文
应用技术与研究
2018
10
111
[摘要]
26
OPEN:一个基于评论的商品特征抽取及情感分析框架
卿勇
应用技术与研究
2018
1
65
[摘要]
27
一种基于Word2Vec的训练效果优化策略研究
王飞
应用技术与研究
2018
1
97
[摘要]
28
基于深度学习的视频近似拷贝检索
冯兆华
多媒体技术应用
2018
1
160
[摘要]
29
一种新颖的混合相似度计算模型
廖志芳
人工智能与识别
2018
1
175
[摘要]
30
基于混合相似度和信任传播的位置推荐系统
戚文博
应用技术与研究
2017
9
97
[摘要]
31
基于Spark/GraphX图聚类算法的入室盗窃串并案研究
鲍世方
应用技术与研究
2017
9
108
[摘要]
32
基于形态模式的时间序列相似性度量算法
王瑞
算法
2017
9
253
[摘要]
33
OSDR:一种开源软件的缺陷修复人推荐方法
张文
软件技术与研究
2017
8
7
[摘要]
34
基于局部近邻图的特征描述与特征匹配算法研究
谢宜婷
图像处理与应用
2017
8
185
[摘要]
35
一种巴氏系数改进相似度的协同过滤算法
武文琪
算法
2017
8
265
[摘要]
36
基于人工免疫结合余弦相似度的病毒特征提取算法
杨应华
安全技术
2017
8
301
[摘要]
37
一种快速精准的核相关滤波器跟踪算法
施伟
人工智能与识别
2017
7
125
[摘要]
38
社交网络中上下文感知协同过滤算法
汪涛
算法
2017
7
231
[摘要]
39
基于联合聚类和C-RA组合相似度的协同过滤算法
赵文涛
算法
2017
7
257
[摘要]
40
基于隐马尔科夫模型与语义融合的文本分类
高知新
算法
2017
7
303
[摘要]
41
基于相似度算法的英语智能问答系统设计与实现
王文辉
应用技术与研究
2017
6
62
[摘要]
42
基于广告联盟的虚拟身份画像方法研究
彭如香
应用技术与研究
2017
6
91
[摘要]
43
基于用户兴趣和项目属性的协同过滤算法
刘静
数据工程
2017
5
33
[摘要]
44
基于射线跟踪法的SAR图像相干仿真与评估
聂春霞
图像处理与应用
2017
5
168
[摘要]
45
LS-Cluster:大规模多变量时间序列聚类方法
郑诚
算法
2017
5
205
[摘要]
46
一种基于Spark的改进协同过滤算法研究
许智宏
算法
2017
5
247
[摘要]
47
基于词向量的中文微博实体链接方法
毛二松
软件技术与研究
2017
4
11
[摘要]
48
用说话人相似度i-vector的非负值矩阵分解说话人聚类
哈尔肯别克·木哈西
人工智能与识别
2017
4
165
[摘要]
49
基于社会化网络的长期搭乘共享个性化推荐方法
仲秋雁
算法
2017
4
265
[摘要]
50
融合用户评分和属性相似度的协同过滤推荐算法
王三虎
算法
2017
4
305
[摘要]
51
基于用户行为特征的动态权重混合推荐算法
刘沛文
算法
2017
4
316
[摘要]
52
快速路行程速度突变段挖掘和基于相似匹配的短时预测算法
李心玥
数据工程
2017
3
38
[摘要]
53
一种基于多Agent系统的在线广告竞价模型
张文明
应用技术与研究
2017
2
133
[摘要]
54
基于位置信息的非比对序列聚类方法
魏静
数据工程
2017
12
42
[摘要]
55
基于改进LBP的单样本人脸识别算法
张辉
图像处理与应用
2017
12
220
[摘要]
56
基于特征相似的软件缺陷排除方法
张灿
软件技术与研究
2017
11
13
[摘要]
57
基于云模型的Web服务QoS预测
段秋实
软件技术与研究
2017
11
20
[摘要]
58
基于综合模糊相似度的云制造需求—服务双向匹配
胡雨
软件技术与研究
2017
11
26
[摘要]
59
海洋水文观测数据聚类
闫可
软件技术与研究
2017
11
39
[摘要]
60
基于网络分割聚类的标签语义规范化推荐算法
叶婷
数据工程
2017
11
64
[摘要]
61
混合最小二乘回归的稀疏子空间聚类
王越
图像处理与应用
2017
10
236
[摘要]
62
基于相似性填充和信任因子的协同过滤算法
王建芳
算法
2017
10
252
[摘要]
63
自适应中心对称局部三值模式的人脸识别
闫河
人工智能与识别
2016
9
143
[摘要]
64
基于邻域几何特征约束的植株三维形态配准方法研究
马福峰
图像处理与应用
2016
9
184
[摘要]
65
基于用户紧密度的微博网络社区发现算法
韦庆杰
算法
2016
9
254
[摘要]
66
选择性集成极限学习机分类器建模研究
徐晓杨
算法
2016
9
279
[摘要]
67
基于多约简Fisher-VSM和SVM的文本情感分类
邢玉娟
算法
2016
9
301
[摘要]
68
基于BDI的语义搜索及其在数字旅游中的应用
陈昊
软件技术与研究
2016
8
30
[摘要]
69
基于随机游走相似度矩阵的改进标签传播算法
宋琛
算法
2016
8
269
[摘要]
70
基于个人微博特征的事件提取研究
高永兵
数据工程
2016
7
47
[摘要]
71
中文在线评论中的商品特征聚类研究
秦成磊
数据工程
2016
7
64
[摘要]
72
基于Skip-gram模型的微博情感倾向性分析
李天彩
应用技术与研究
2016
7
114
[摘要]
73
微博用户模型复杂网络中多维有向社区发现
刘大海
网络与通信
2016
7
129
[摘要]
74
基于均衡系数的决策树优化算法
董跃华
算法
2016
7
266
[摘要]
75
机械零件设计的知识服务方法及系统实现
李录
应用技术与研究
2016
6
68
[摘要]
76
基于计算机视觉的多特征手势识别
张军
人工智能与识别
2016
6
151
[摘要]
77
加权映射匹配方法的站内搜索引擎设计
江文龙
应用技术与研究
2016
4
91
[摘要]
78
图像显著性启发的傅里叶频域变密度压缩采样
黄海
图像处理与应用
2016
4
164
[摘要]
79
基于个体相似性评价策略的改进遗传算法
汤可宗
算法
2016
3
236
[摘要]
80
基于熵重要测度权重粗糙集的阿尔法多层凝聚入侵分类
王兴柱
安全技术
2016
3
320
[摘要]
81
基于Restful的Mashup应用服务系统
曹步清
软件技术与研究
2016
2
17
[摘要]
82
基于Voronoi K阶邻近图的半监督学习自动图像标注
吴寿昆
图像处理与应用
2016
12
183
[摘要]
83
一种基于位置服务信息的移动推荐模型
申园园
算法
2016
12
202
[摘要]
84
基于weight-pooling词向量的上下文广告推荐算法
杨长春
算法
2016
12
224
[摘要]
85
基于谷歌距离的安卓恶意软件特征提取方法
杨春雷
安全技术
2016
12
329
[摘要]
86
一种云环境下图像的安全检索方法
韩威
图像处理与应用
2016
11
122
[摘要]
87
基于本体的教育资源推理查询原型系统设计与实现
冯瑶
软件技术与研究
2016
10
14
[摘要]
88
基于朴素贝叶斯点击预测的查询推荐方法
石雁
数据工程
2016
10
19
[摘要]
89
一种融合词项关联关系和统计信息的短文本建模方法
马慧芳
数据工程
2016
10
28
[摘要]
90
基于LDA的微博用户粉丝亲密度评价模型
王秋森
应用技术与研究
2016
10
67
[摘要]
91
基于PV-DM模型的多文档摘要方法
刘欣
算法
2016
10
251
[摘要]
92
面向教学资源查询的语义相似度和相关度算法
冯瑶
算法
2016
10
275
[摘要]
93
光栅投影测量中点云配准技术的研究
李宝顺
图像处理与应用
2016
1
222
[摘要]
94
基于VSM权重改进算法的智能导医系统
林予松
应用技术与研究
2015
9
81
[摘要]
95
一种基于多尺度LBPH特征的快速人脸识别算法
朱峰
信息技术交流
2015
8
315
[摘要]
96
基于路径特征的XML文档结构相似性度量
张力生
软件技术与研究
2015
7
39
[摘要]
97
基于JS综合相似度的个人微博时序事件归类研究
高永兵
应用技术与研究
2015
7
56
[摘要]
98
PWSWE:个人微博主题词提取算法的研究
高永兵
应用技术与研究
2015
7
86
[摘要]
99
基于自相似模型的智能网络质量管理系统
周志荣
网络与通信
2015
7
108
[摘要]
100
自适应结构化稀疏表示的海上目标跟踪研究
梁英杰
人工智能与识别
2015
7
186
[摘要]
101
基于主题词分布的低价值新闻识别技术研究
朱青
人工智能与识别
2015
7
190
[摘要]
102
一种快速的基于CPMC的协同分割算法
王美华
图像处理与应用
2015
7
216
[摘要]
103
基于语言无关性语义Kernel学习的短文本分类
易欣
信息技术交流
2015
7
314
[摘要]
104
基于Union-Find的图像聚类方法
宋芳琴
信息技术交流
2015
7
319
[摘要]
105
软件相似度在成本估算中的应用
任雪利
软件技术与研究
2015
6
34
[摘要]
106
基于多向测度和属性相似度的混合协同过滤
宫志晨
应用技术与研究
2015
6
62
[摘要]
107
基于用户兴趣度的改进二部图随机游走推荐方法
张怡文
应用技术与研究
2015
6
76
[摘要]
108
基于局部特征在线学习的视频人脸识别
卫娟
人工智能与识别
2015
6
198
[摘要]
109
基于结构相似度的HEVC感知SBAC-RDO算法
邸金红
图像处理与应用
2015
6
212
[摘要]
110
一种对时间连续数据进行分析查询的SQL扩展语言
崔渊
数据工程
2015
5
50
[摘要]
111
一种结合评分时间特性的协同推荐算法
任磊
应用技术与研究
2015
5
112
[摘要]
112
基于PTCPN的协同维修操作冲突建模
耿宏
应用技术与研究
2015
4
63
[摘要]
113
一种存在级不确定数据流聚类算法
邢长征
算法
2015
4
252
[摘要]
114
不良文本变体关键词识别的词汇串相似度计算
李少卿
人工智能与识别
2015
3
151
[摘要]
115
基于KINECT传感器采集三维点云的高效鲁棒人脸识别
杨善友
人工智能与识别
2015
3
177
[摘要]
116
基于轨迹多特征的运动模式学习及异常检测
汤春明
人工智能与识别
2015
3
200
[摘要]
117
基于Gabor变换域的积分直方图鞋印图像检索
黎向阳
图像处理与应用
2015
3
215
[摘要]
118
自动获取不同义项的相似词算法
王永生
算法
2015
3
258
[摘要]
119
融合信息熵与信任机制的防攻击推荐算法研究
郝志峰
安全技术
2015
3
284
[摘要]
120
基于地理本体的同名实体匹配技术研究
郭小菊
应用技术与研究
2015
2
66
[摘要]
121
基于梯度结构相似度的AVS帧间模式选择算法
白伟
多媒体技术应用
2015
12
105
[摘要]
122
基于社交关系的可信群体推荐
幸荔芸
信息技术交流
2015
12
330
[摘要]
123
基于自然图像复杂视觉信息的特征提取算法与应用
赵彦明
图像处理与应用
2015
11
200
[摘要]
124
基于维基知识的微博事件追踪方法
唐浩浩
软件技术与研究
2015
10
21
[摘要]
125
基于模糊路径匹配的XML文档分类研究
任雪利
应用技术与研究
2015
10
113
[摘要]
126
基于角半径变换的五金器件识别系统的研究
李保俊
图像处理与应用
2015
10
181
[摘要]
127
基于像素中位扩散的大面积损坏图像修复机制
鲁秋菊
图像处理与应用
2015
10
184
[摘要]
128
一种面向三维人脸识别的同一截面有效轮廓线提取算法
苗树艳
算法
2015
10
244
[摘要]
129
一种含噪音处理的K-means聚类算法
陆进
算法
2015
10
265
[摘要]
130
基于聚类的加速k-近邻分类方法
任丽芳
算法
2015
10
298
[摘要]
131
基于Wikipedia的短文本语义相关度计算方法
王荣波
应用技术与研究
2015
1
82
[摘要]
132
基于形态学商模板的人眼定位方法
谭台哲
人工智能与识别
2015
1
194
[摘要]
133
融合骨架结构与相关传递性的三维模型标注方法
韩丽
图像处理与应用
2015
1
211
[摘要]
134
一种文本分割技术的多文档文摘方法研究
王萌
数据工程
2014
9
40
[摘要]
135
一种基于模糊形式概念分析的模糊本体学习方法
马迪
人工智能与识别
2014
9
166
[摘要]
136
开放式网络信任评价研究
张景安
安全技术
2014
9
294
[摘要]
137
基于平面提取的点云数据分割算法
李宝顺
多媒体技术应用
2014
7
145
[摘要]
138
一种新的新浪微博好友推荐算法
杨长春
算法
2014
7
255
[摘要]
139
一种短文本特征词提取的方法
程传鹏
人工智能与识别
2014
6
162
[摘要]
140
基于TFIDF与分类树的工程文本信息分类法
孔秋强
人工智能与识别
2014
6
174
[摘要]
141
基于邻域相似度的局部二元模式方法
马彦
图像处理与应用
2014
6
218
[摘要]
142
基于脉冲耦合神经网络与欧拉数的图像检索
张静
图像处理与应用
2014
6
232
[摘要]
143
一种主题知识自增长的聚焦网络爬虫
李东晖
数据库技术
2014
5
29
[摘要]
144
结合结构相似度的AVS帧间模式选择算法
常娟
多媒体技术应用
2014
5
145
[摘要]
145
基于混合核方法的上下位语义抽取
江泳
数据库技术
2014
4
45
[摘要]
146
基于程序数据属性的联合软件特征
周清雷
安全技术
2014
4
308
[摘要]
147
改进量子粒子群算法优化神经网络的数据库重复记录检测
陈芬
数据库技术
2014
3
20
[摘要]
148
改进的互信息量相似度曲线关键帧提取研究
刘高军
多媒体技术应用
2014
2
153
[摘要]
149
基于情感计算的商品评论分析系统
林钦和
软件技术与研究
2014
12
39
[摘要]
150
基于云模型的电网统计数据质量评估方法研究
颜宏文
应用技术与研究
2014
12
100
[摘要]
151
一种新的基于综合相似度的区间值模糊推理方法
金玉雪
人工智能与识别
2014
12
214
[摘要]
152
查九
信息技术交流
2014
12
323
[摘要]
153
基于小波变换的磁瓦表面缺陷检测方法研究
杨成立
图像处理与应用
2014
11
210
[摘要]
154
基于改进水平集图像分割方法的乳腺超声病灶提取
杨谊
图像处理与应用
2014
11
217
[摘要]
155
基于相位的结构相似度图像质量评价模型
李爱华
图像处理与应用
2014
11
233
[摘要]
156
基于用户兴趣模型的协同过滤推荐算法
梁天一
算法
2014
11
260
[摘要]
157
一种基于图像特征的彩色图像水印算法
史宝明
安全技术
2014
11
307
[摘要]
158
基于乐纹特征和倒排索引的音乐检索系统
俞鹏飞
应用技术与研究
2014
10
45
[摘要]
159
超图拉普拉斯稀疏编码在图像识别中的应用
周钦青
人工智能与识别
2014
10
183
[摘要]
160
融合约束采样和面部对齐的稀疏表示人脸识别
刘晓飞
人工智能与识别
2014
10
192
[摘要]
161
特征融合和支持向量机反馈的图像检索算法
罗益荣
图像处理与应用
2014
10
209
[摘要]
162
基于链接关系的Web页面相似度搜索
靳黛露
应用技术与研究
2014
1
57
[摘要]
163
民航机场应急资源语义检索方法的研究
王红
应用技术与研究
2014
1
73
[摘要]
164
基于脚步声的身份识别
张瑞兴
人工智能与识别
2014
1
162
[摘要]
165
一种改进的相似重复记录检测算法
郭文龙
算法
2014
1
293
[摘要]
166
旅游本体的概念相似度算法改进
李燕妮
信息技术交流
2014
1
327
[摘要]