标题:一种短文本主题特征的改进方法 作者:郑诚1,2;代宁1,2 作者单位:1 安徽大学计算智能与信号处理教育部重点实验室,安徽 合肥 230601;2安徽大学计算机科学与技术学院,安徽 合肥230601 关键字:数据挖掘,短文本,词对,LDA,主题模型 摘要:主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。但是,由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。本文在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取“词对”共现的方式来对文本建模,代替传统的“词”共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,本方法相比于传统主题模型,在短文本特征提取方面有较好的提升。 |