标题：基于多模态特征增强的场景文本视觉问答
作者：崔瑞雪1，2 王旭智1，2 万旺根1，2；孙学涛2；张振3
作者单位：1上海大学通信与信息工程学院，上海 200444；2 上海大学智慧城市研究院，上海 200444；3 上海健康医学院附属嘉定区中心医院，上海 200444
关键字：文本视觉问答；文本识别；多模态特征融合
摘要： 基于文本的视觉问答（TextVQA）通过阅读给定图像中的文本来回答与文本相关的问题。传统的视觉问答方法只关注图像中的视觉物体而忽略了图像中的文本信息，在回答有关图像文本的问题时效果会大大降低。为了更加充分地利用图像中的多模态信息，增强模型对场景的理解和推理能力，在SSBaseline模型的基础上使用了CLIP模型来丰富图像和OCR文本特征，并通过增加注意力模块来增强不同模态信息的融合。最后在TextVQA和ST-VQA数据集上的实验结果表明，所提方法有效提升了模型的推理能力。