在数字化转型加速的今天,文档分析与识别技术的重要性日益凸显。作为该领域的顶级会议,ICDAR 2025(International Conference on Document Analysis and Recognition)将于2025年9月16日至21日在中国武汉举办,吸引了全球众多顶尖团队参与。
360人工智能研究院知识图谱与文档理解团队在此次竞赛中表现卓越,分别在“中国高考试卷理解”、“端到端文档图像机器翻译”两项赛事中斩获季军和亚军。
1、中国高考试卷理解竞赛-季军
为了提升并评估多模态大模型(MLLMs)在教育领域应用的有效性,2025年ICDAR中文高考试卷理解竞赛(ICDAR 2025 Competition on Understanding Chinese College Entrance Exam Papers),引入了一个名为CEP-7K的数据集,其中包含7000对来自不同学科的过往中文高考试卷中的问题及答案。
鉴于这些试卷的独特特点,这些问题的设计旨在通过要求以阿拉伯数字或从多个预定义选项中选择答案的形式,来评估MLLMs对文档的理解能力。
这个任务的难点在于,需要准确识别、定位和解释文档中的复杂元素,如图表和表格,而现有的多模态大模型(MLLMs)在处理中文文档时表现不佳,尤其是在理解复杂布局方面。
为了克服这些难题,360人工智能研究院知识图谱与文档理解团队,创新性地引入引入Hyper Attention Transformer Block(HATB)来优化跨注意力机制,以实现高效的多模态融合,并采用随机选择(RS)策略,有效缓解了图像序列长度和图像分辨率之间的权衡,最终获得第三名。
2、端到端文档图像机器翻译竞赛—亚军
ICDAR 2025"面向复杂布局的端到端文档图像机器翻译"(ICDAR 2025 Competition on End-to-End Document Image Machine TranslationTowards Complex Layouts)竞赛,以英文文档图像为输入,并要求将其翻译成中文。
在OCR-free(Translation-LLM)赛道中,需要使用包含超过10亿个参数的大模型 (LLM) 来实现OCR-Free情况下,处理复杂的布局和长上下文,输出准确翻译。
这类任务的难点在于,需要处理复杂布局的文档图像、提高模型的鲁棒性和泛化能力。 为了解决这类问题,360人工智能研究院知识图谱与文档理解团队,采用基于多模态大模型进行微调的方式进行。
为了提高模型的鲁棒性和泛化能力,采用对抗性训练方法,包括投影梯度下降(PGD)和快速梯度方法(FGM),对视觉编码器进行对抗性训练。最终,排名第二,验证了这种方法在处理复杂布局文档图像方面的有效性。
在此次ICDAR2025竞赛中的优异表现,充分展现了360人工智能研究院知识图谱与文档理解团队在文档分析与识别领域的技术积累和创新能力。 两个获奖比赛均由团队成员余俊晖完成,再次展现出在竞技领域的实力。
团队负责人刘焕勇表示,ICDAR作为文档解析领域中的顶级赛事/会议,对于团队而言,也是检验技术扎实和先进性的一个试金石。值得一提的是,这两个比赛成果都是几天之内取得的,实属不易。团队还是从实际应用中来,在解决实际业务的同时,顺道检验能力,并将比赛成果反哺业务,这是主旋律。
360人工智能研究院知识图谱与文档理解团队是一支年轻的团队,经过过去一年的研发,已经研制出了一套自主可控的文档解析系统,相关成果已经应用于360云盘、纳米搜索、推推等产品中,后续也将继续围绕文档智能、文档多模态等方向展开深入研究和落地,欢迎关注我们的工作。
【责任编辑:张伟】
暂无评论