2025年度  第12期


标题:专报文档图表抽取系统的设计与实现
作者:陈孟孟 张作省 蔡洋 张震 徐伟民 梁栋
作者单位:中国电子科技集团公司第二十八研究所体系部,江苏 南京 210000
关键字:专报文档;图表识别和抽取;容器编排;可插拔式
摘要:专报文档是一种特定类型的文件,通常服务于政府、企事业、科研机构或其他组织内部,因其格式固定、信息精练、时效性强,在传递研究成果和辅助决策中扮演着重要角色。研究的图表抽取是对专报文档进行自动化图表识别和抽取,并将数据转换为下游服务可处理、可分析的过程。在信息化时代,军事资讯领域的专报文档迎来爆发式增长的背景下,图表自动化识别和抽取能够帮助资讯专员大幅度提高数据提取和数据分析的质量与效率。主要研究了军事资讯领域专报文档的图表自动化识别和抽取技术,对专报文档图表抽取系统做了功能模块架构设计和流程设计,包括通过Python算法实现抽取能力服务化、Docker-Compose容器编排实现算法服务容器化,设计了一套可插拔式的专报文档图表抽取系统。