标题：基于文本感知和非重复单词生成的图像语义理解
作者：杨晨露1，2 万旺根1，2 王旭智1，2；孙学涛2；张振3
作者单位：1 上海大学通信与信息工程学院；上海 200444；2 上海大学智慧城市研究院，上海 200444；3 上海交通大学医学院附属仁济医院宝山分院，上海 200444
关键字：图像语义理解；自然语言处理；视觉-语言预训练任务；Transformer
摘要：在描述图像时，阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息，以及图像中的文本信息和图像内容的关系。针对此问题，提出基于图像文本信息的预训练任务，包括掩模语言建模（MLM）、图像-文本匹配（ITM）以及相对空间位置预测（RPP）。在解码过程中，为解决生成语句冗余问题，提出重复掩码模块，以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明，所提的方法可以有效地提高生成描述语句的准确率。