标题:基于投票混合模型的中文地址分词研究 作者:滕秋霞 杨金霄 方永佳 作者单位:上海大学机电工程与自动化学院,上海 200072 关键字:CRF模型,支持向量机,最大正向模糊匹配,投票混合模型 摘要:针对现有的中文分词算法在特殊领域的分词性能并不理想的问题,在基于CRF分词器的基础上,结合传统的基于字典的分词方法,以及支持向量机(Support Vector Machine,SVM)分词工具,实现了一种基于投票混合模型的地址分词方法,并使用非标准地址数据对该模型进行训练与测试。实验结果表明,在对中文地址数据的分词中,该分词器比几种常用的分词工具具有更好的分词性能,为基于分词的地址数据清洗做了一个重要的基础。 |