查询结果:   张国锋,吴国文.基于核函数的改进k-means文本聚类[J].计算机应用与软件,2019,36(9):281 - 284,301.
中文标题
基于核函数的改进k-means文本聚类
发表栏目
算法
摘要点击数
45
英文标题
IMPROVED K-MEANS TEXT CLUSTERING BASED ON KERNEL FUNCTION
作 者
张国锋 吴国文 Zhang Guofeng Wu Guowen
作者单位
东华大学计算机科学与技术学院 上海 200050     
英文单位
College of Computer Science and Technology, Donghua University, Shanghai 200050, China     
关键词
k-means 高斯核函数 TF-IDF 文本聚类
Keywords
k-means Gaussian kernel function TF-IDF Text clustering
基金项目
作者资料
张国锋,硕士生,主研领域:自然语言处理。吴国文,副教授。 。
文章摘要
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。
Abstract
Through the research and analysis of the advantages and disadvantages of the traditional k-means algorithm, we proposed an improved k-means clustering algorithm. We randomly initialized k/2 cluster cores, and divided the largest cluster and deleted the empty clusters. The cluster core was updated to determine the rationality of the cluster center position. The cluster core was modified in time to make the empty clusters would not appear in the last k clusters. The Gaussian kernel function was used as the method to measure the distance between vectors, which greatly improved the accuracy of clustering. Based on this improved k-means algorithm, articles collected on different websites were used as data sources, and we used TF-IDF and Word2Vec technologies to preprocess the text, and completed the task of clustering text. Compared with traditional k-means text clustering, it not only improves the accuracy, but also corrects the defect of empty clusters in the results of traditional k-means algorithm.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于DC-YOLO模型的建筑物砌体构件危险性等级鉴定方法
张洪瑞
人工智能与识别
2019
9
181
[摘要]
2
基于核函数的改进k-means文本聚类
张国锋
算法
2019
9
281
[摘要]
3
基于多密度峰值的CFSFDP算法改进
孙绵
算法
2019
8
235
[摘要]
4
个性化高校新闻分类推荐的应用研究
毕曦文
人工智能与识别
2019
7
218
[摘要]
5
基于差分隐私的混合位置隐私保护
徐启元
安全技术
2019
6
296
[摘要]
6
基于TF-IDF方法的文本人物群体人格分析方法
蔡天鸿
应用技术与研究
2019
5
35
[摘要]
7
基于自适应权重法的K-means模型对遥感图像分割
姜文斌
算法
2019
5
231
[摘要]
8
一种主题自适应聚焦爬虫方法
林椹尠
算法
2019
5
316
[摘要]
9
基于弱监督深度学习的文本聚类算法及应用
谭敏
人工智能与识别
2019
4
171
[摘要]
10
营销活动问题标签分类语料库的构建与分类研究
徐俊利
数据工程
2019
3
42
[摘要]
11
一种改进的K-means算法在城市通勤研究中的应用
周天绮
算法
2019
3
265
[摘要]
12
K-means聚类算法在肿瘤基因变异识别中的应用
叶骁
算法
2019
3
287
[摘要]
13
基于深度学习的慢性肝病CT报告相似度分析
常炳国
算法
2018
8
289
[摘要]
14
面向MapReduce异构集群的低功耗调度技术研究
任桂山
应用技术与研究
2018
7
138
[摘要]
15
基于降维与聚类的无人机航拍图拼接配准算法
鲁萍萍
图像处理与应用
2018
6
220
[摘要]
16
基于歌曲标签聚类的协同过滤推荐算法的研究
赵宇峰
算法
2018
6
259
[摘要]
17
基于最大距离积与最小距离和协同K聚类算法
邹臣嵩
算法
2018
5
297
[摘要]
18
一种基于平行坐标系的流转数据可视化方法
张元鸣
数据工程
2018
4
55
[摘要]
19
应用于地理信息数据自动分类的高性能聚类算法
夏梦
数据工程
2018
4
65
[摘要]
20
一种用户画像系统的设计与实现
王洋
软件技术与研究
2018
3
8
[摘要]
21
基于优选傅里叶描述子的粘连条锈病孢子图像分割方法研究
邸馨瑶
图像处理与应用
2018
3
193
[摘要]
22
一种基于图金字塔的聚类算法
吕晓波
算法
2018
2
256
[摘要]
23
基于差分隐私的海量数据发布方法研究
颜飞
安全技术
2018
11
314
[摘要]
24
不平衡数据分类研究及其应用
叶枫
应用技术与研究
2018
1
132
[摘要]
25
基于混合组网技术的数据聚合器最佳部署方案研究与设计
彭林
网络与通信
2018
1
154
[摘要]
26
一种基于关键词的微博话题聚类算法
林丹
算法
2018
1
264
[摘要]
27
聚类集成中基聚类的优化研究
程凯
算法
2017
9
267
[摘要]
28
基于人工免疫结合余弦相似度的病毒特征提取算法
杨应华
安全技术
2017
8
301
[摘要]
29
基于行业专有词典的TF-IDF特征选择算法改进
张齐勋
算法
2017
7
277
[摘要]
30
融合统计学和TextRank的生物医学文献关键短语抽取
魏赟
数据工程
2017
6
27
[摘要]
31
面向大规模数据快速聚类K-means算法的研究
郭占元
数据工程
2017
5
43
[摘要]
32
一种基于视觉词袋模型的图像检索方法
金铭
图像处理与应用
2017
4
249
[摘要]
33
模糊加权多视角可能性聚类算法
王振辉
算法
2017
4
294
[摘要]
34
基于半监督K-Means的属性加权聚类算法
潘巍
算法
2017
3
189
[摘要]
35
一种新的微博社区发现算法
杨长春
算法
2017
3
194
[摘要]
36
密度峰值优化初始中心的K-means算法
李敏
算法
2017
3
212
[摘要]
37
基于词向量的微博话题发现方法
李帅彬
数据工程
2017
12
47
[摘要]
38
基于数据场的数据势能竞争与K-means融合的聚类算法
许家楠
算法
2017
12
266
[摘要]
39
一种改进的基于核密度估计的DPC算法
仇上正
算法
2017
12
278
[摘要]
40
增强现实系统中电磁跟踪器注册精度校正研究
高明柯
应用技术与研究
2017
10
118
[摘要]
41
哈萨克文网络热点关键词提取方法研究
胡冰瑶
数据工程
2017
1
45
[摘要]
42
基于文本挖掘的科研项目管理辅助决策系统研究与实现
蒙杰
数据工程
2016
9
24
[摘要]
43
一种基于MPI和OpenMP的剖分遥感影像并行分割方法
杜根远
图像处理与应用
2016
9
180
[摘要]
44
基于多重特征信息的图像显著性检测方法
孟莎莎
图像处理与应用
2016
9
190
[摘要]
45
基于多约简Fisher-VSM和SVM的文本情感分类
邢玉娟
算法
2016
9
301
[摘要]
46
多策略中文微博实体词消歧及实体链接
向宇
软件技术与研究
2016
8
12
[摘要]
47
基于个人微博特征的事件提取研究
高永兵
数据工程
2016
7
47
[摘要]
48
基于二阶微分算子和测地距离的深度图超分辨率重建
董文菁
图像处理与应用
2016
7
200
[摘要]
49
基于CIELAB颜色模型的数字照片背景色替换
胡苏阳
图像处理与应用
2016
7
229
[摘要]
50
基于改进的分布式K-Means特征聚类的海量场景图像检索
崔红艳
图像处理与应用
2016
6
195
[摘要]
51
中文领域知识半自动化OWL本体构建方法研究
董洋溢
软件技术与研究
2016
5
17
[摘要]
52
安全云环境中一种改进的多关键字检索方案
郭秋滟
应用技术与研究
2016
4
103
[摘要]
53
农业信息搜索可视化平台研究
王恬
算法
2016
3
271
[摘要]
54
基于变异系数的双聚类算法及其在电信客户细分的应用研究
林勤
算法
2016
2
223
[摘要]
55
一种改进的狼群搜索算法及用于解决聚类问题
王涛
算法
2016
12
257
[摘要]
56
一种融合词项关联关系和统计信息的短文本建模方法
马慧芳
数据工程
2016
10
28
[摘要]
57
一种融合K-means和快速密度峰值搜索算法的聚类方法
盛华
算法
2016
10
260
[摘要]
58
基于VSM权重改进算法的智能导医系统
林予松
应用技术与研究
2015
9
81
[摘要]
59
一种融合K-means算法和人工鱼群算法的聚类方法
吕少娟
算法
2015
9
240
[摘要]
60
一种基于位置指纹的WLAN攻击检测与定位方法
马飞
安全技术
2015
9
306
[摘要]
61
中文美食开放链接资源库(LOD)建设实践
李珊珊
应用技术与研究
2015
8
56
[摘要]
62
基于JS综合相似度的个人微博时序事件归类研究
高永兵
应用技术与研究
2015
7
56
[摘要]
63
一种新的散乱点云快速去噪算法
王勇
应用技术与研究
2015
7
74
[摘要]
64
PWSWE:个人微博主题词提取算法的研究
高永兵
应用技术与研究
2015
7
86
[摘要]
65
基于改进K-means算法的不均匀光照下道路裂缝检测
王德方
算法
2015
7
244
[摘要]
66
基于Lingpipe的煤炭领域科研信息监测分析平台设计与实现
杨锐
应用技术与研究
2015
6
66
[摘要]
67
中医针灸临床治疗专家系统的研究与实现
皮勇泽
应用技术与研究
2015
6
99
[摘要]
68
基于马氏距离的文本聚类算法在自动阅卷系统中的应用
李翠霞
应用技术与研究
2015
4
80
[摘要]
69
无人机飞行过程中图像定位算法研究
吴爱国
图像处理与应用
2015
4
165
[摘要]
70
基于网格和图论的初始聚类中心确定算法
黄红伟
算法
2015
2
228
[摘要]
71
搜索日志中热点查询的内容抽取
任育伟
数据工程
2015
12
16
[摘要]
72
基于均值聚类分析和多层核心集凝聚算法相融合的网络入侵检测
王兴柱
安全技术
2015
12
313
[摘要]
73
结合权重因子和特征向量改进的混合聚类方法
董跃华
算法
2015
11
264
[摘要]
74
改进K-Means聚类算法及其在视觉词典构造中的应用
王美华
人工智能与识别
2015
10
159
[摘要]
75
一种含噪音处理的K-means聚类算法
陆进
算法
2015
10
265
[摘要]
76
基于用户聚类的推荐算法
刘璟
算法
2015
10
269
[摘要]
77
基于层次K-均值聚类的支持向量机模型
王秀华
人工智能与识别
2014
5
172
[摘要]
78
基于近邻图的k-means初始中心选择调优算法
胡湘萍
人工智能与识别
2014
4
178
[摘要]
79
基于PSO优化SVM的纹理图像分割
陈云凤
图像处理与应用
2014
4
214
[摘要]
80
个性化信息检索中用户兴趣建模与更新研究
史宝明
软件技术与研究
2014
3
7
[摘要]
81
一种改进的朴素贝叶斯关键词提取算法研究
王锦波
人工智能与识别
2014
2
174
[摘要]
82
基于用户特性的Web会话模式聚类算法
郑富兰
算法
2014
2
283
[摘要]
83
基于多特征的中文关键词抽取方法
杨颖
应用技术与研究
2014
11
109
[摘要]
84
基于形状约束的LBF模型的水平集分割
欧文杰
图像处理与应用
2014
11
204
[摘要]