查询结果:   李顺勇,张钰嘉,彭晓庆,曹付元,刘恩乾.一种基于分层抽样的大数据快速聚类算法[J].计算机应用与软件,2020,37(10):256 - 261,277.
中文标题
一种基于分层抽样的大数据快速聚类算法
发表栏目
算法
摘要点击数
53
英文标题
作 者
李顺勇 张钰嘉 彭晓庆 曹付元 刘恩乾 Li Shunyong
作者单位
     
英文单位
     
关键词
Keywords
基金项目
作者资料
文章摘要
针对K-means算法处理大规模数据时算法迭代时间较长的问题,提出一种基于分层抽样的大数据快速聚类算法(A Large Data Fast Clustering Algorithm Based on Stratified Sampling,FCASS)。提出一种分层方法,可以快速将原始数据集进行分层,使得层内数据相似度较大,层间数据相似度较小;引入抽样时间函数,并求得各层样本量的最优分配方案;用K-means算法对样本集进行聚类,得到最终结果。在4个UCI数据集以及8个人工数据集上进行实验,结果表明,FCASS算法具有较高的聚类精度,并且在大规模数据集上运行速度较快。
Abstract
下载PDF全文