标题:基于字符串匹配的中文分词算法的研究 作者:常建秋 沈炜 作者单位:浙江理工大学信息学院,浙江 杭州 310018 关键字:Lucene,中文分词,正向最大匹配算法 摘要:伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。 |