2017年度  第12期


标题:基于改进隐式狄利克雷分布算法的新浪微博话题检测
作者:袁弛1,2 余小清1,2 杨凯1,2 万旺根1,2
作者单位:1 上海大学通信与信息工程学院,上海 200072;2 上海大学 智慧城市研究院,上海 200072
关键字:隐含狄利克雷分布,新浪微博,话题检测
摘要:提出了一个基于改进主题模型的微博话题检测算法。由于传统的主题模型主要适用于传统媒体文字,对短文本的处理效果不是很好。针对微博文本特有的数据结构,在文本聚类时先加入转发特征以及评论特征权重预处理方法。在此基础上,改进了传统的隐含狄利克雷分布主题模型用来提取热点微博数据中的主题。实验证明,与传统相比方法,改进的主题模型解决了传统主题检测方法在应用于短文本时存在的高维稀疏问题。