标题：一种优化的K-Means聚类算法
作者：姚奥张宇
作者单位：浙江理工大学信息学院，浙江杭州 310018
关键字：距离，密度，初始聚类中心点
摘要：聚类在数据挖掘领域应用广泛，但是传统的K-Means聚类算法存在对初始聚类中心点敏感以及需要人工设定聚类个数K等问题。针对这些问题，在进行评论文本特征词聚类的过程中，提出了一种改进的K-Means聚类算法，综合利用距离和密度来选择初始聚类中心点，并利用评测标准来确定聚类的个数K。此外，在聚类过程中，提出了利用基于知网的相似度计算修正相似度矩阵，以及利用成对约束规则来提高聚类的准确度。实验证明，提出的方法是切实有效的。