2026年度  第4期


标题:基于噪声增强与几何关系感知的文本视觉问答方法
作者:胡晓东1;崔瑞雪2,3;熊席慧1;王旭智2,3 万旺根2,3 朱秋煜2,3 何雨明2,3
作者单位:1 上海海达通信有限公司,上海 200444;2 上海大学通信与信息工程学院,上海 200444;3 上海大学智慧城市研究院,上海 200444
关键字:文本视觉问答;对比学习;几何关系
摘要:传统方法通常假定文本识别高度正确,但现实中,OCR系统常因图像模糊、光照不均或字体多样化等因素导致识别文本出现错误,影响模型的推理与理解能力。为此,提出了一种基于噪声增强与几何关系感知的文本视觉问答方法,引入了OCR噪声增强与对比学习模块,提高模型对OCR错误的鲁棒性。改进了传统指针网络,将几何关系特征融入动态预测过程,增强模型对空间信息的建模能力。实验结果表明,所提方法有效提升了模型对OCR噪声的鲁棒性,并增强了空间推理能力。