2010年度  第8期


标题:一种改进的K-means聚类算法
作者:王勇 刘建平 蔡长霞
作者单位:浙江理工大学信息电子学院, 浙江 杭州 310018
关键字:数据挖掘,K-means算法,簇中心,动态簇,距离计算数
摘要:聚类是数据挖掘中的一种重要数据分析方法,K-means是一种基于划分的聚类算法。针对K-means算法中每次调整簇中心后确定新的簇中心需要大量的距离计算,提出一种利用簇中心的变化信息来确定新簇中心的方法,通过从动态簇中心集中选取候选集的方法减少了过滤算法的计算复杂度。理论分析表明,此算法在每一个迭代阶段能有效的减少距离计算数和计算时间。当数据集越大,维度越高时,算法的优越性越显著。