2016年度  第11期


标题:一种优化的K-Means聚类算法
作者:姚奥 张宇
作者单位:浙江理工大学信息学院,浙江 杭州 310018
关键字:距离,密度,初始聚类中心点
摘要:聚类在数据挖掘领域应用广泛,但是传统的K-Means聚类算法存在对初始聚类中心点敏感以及需要人工设定聚类个数K等问题。针对这些问题,在进行评论文本特征词聚类的过程中,提出了一种改进的K-Means聚类算法,综合利用距离和密度来选择初始聚类中心点,并利用评测标准来确定聚类的个数K。此外,在聚类过程中,提出了利用基于知网的相似度计算修正相似度矩阵,以及利用成对约束规则来提高聚类的准确度。实验证明,提出的方法是切实有效的。