2022年度  第11期


标题:基于Structured Streaming的实时文本画像系统设计与实现
作者:谢莹庆 熊义龙 曹炳尧
作者单位:上海大学通信与信息工程学院特种光纤与光接入网重点实验室,上海 200444
关键字:Structured Streaming;大数据;画像系统;TF-IDF
摘要:针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅, kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框架对用户的实时数据进行分析处理,刻画用户的实时兴趣。通过改进的TF-IDF算法改善文本画像系统的准确性与可靠性,并借助Structured Streaming与静态数据良好的交互性减轻实时计算压力,提高系统响应速度。