2017年度  第9期


标题:基于聚类分组和属性综合权值的SNM改进算法
作者:杨巧巧;郭振波 王开西
作者单位:青岛大学数据科学与软件工程学院,山东 青岛 266071;青岛大学计算机科学技术学院,山东 青岛 266071
关键字:相似重复记录,聚类分组,属性综合权值,SNM算法,属性匹配
摘要:在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数据进行分组,然后对各属性设置综合权值最后再进行相似重复记录的识别。其中聚类分组法能有效减少记录之间的比对次数,提高检测效率;属性综合权值的方法能更加准确反映各属性对记录的贡献度,针对实际数据集的实验分析表明,聚类分组法和属性综合权值法两者结合在提高查准率、查全率等方面均优于传统的SNM算法。