2012年度  第11期


标题:中文文本自动分类中的特征选择改进与研究
作者:张振浩1 周奇年1;杨继慧2;徐登彩1
作者单位:1 浙江理工大学信息学院,浙江 杭州 310018;2 浙江理工大学图书馆,浙江 杭州 310018
关键字:中文文本自动分类,特征选择,类别区分度,互信息,期望交叉熵
摘要:特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。