2025年度  第3期


标题:基于多尺度字符特征提取的场景文本识别算法研究
作者:崔瑞雪1,2 舒 琪1,2 王旭智1,2 万旺根1,2;孙学涛2;张振3
作者单位:1 上海大学通信与信息工程学院,上海 200444;2 上海大学智慧城市研究院,上海 200444;3 上海交通大学医学院附属仁济医院宝山分院,上海 200444
关键字:多尺度字符特征提取;文本识别;深度学习
摘要:在场景文字识别任务中,字符特征的提取是至关重要的一环,对于提高识别准确率具有举足轻重的作用。为了提高模型在处理文字弯曲、拥挤、变形、模糊等复杂情况时的性能,提出了一种基于多尺度字符特征提取的场景文本识别算法,以表现优异的SVTR模型为基准,改进了模型中的Mixing Block,使用更丰富的混合块进行特征提取,使得模型能够在不同尺度上对各字符组件进行有效关系建模,从而更全面地理解字符间的联系和字符与全局之间的信息。最后在BCTR等数据集上进行训练和测试,实验结果表明,该方法在BCTR数据集上准确提升了2.8%,验证了其有效性。