细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

MINT-CoT团队 投稿

量子位 | 公众号 QbitAI

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升『大语言模型』(LLMs)在复杂任务中的表现。而在多模态『大语言模型』(MLLMs)中,CoT 同样展现出了巨大潜力。

然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。

最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决“多模态数学推理”中的难题而设计。

今日霍州(www.jrhz.info)©️

为什么数学视觉推理这么难?

尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存在 三大瓶颈:

1. 粗粒度图像区域选择

大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关联,简单裁剪很容易把无关或干扰信息带进推理过程。

2. 视觉编码器“看不懂数学”

目前主流视觉编码器(如 CLIP、SigLIP)都是针对自然图像训练的,对于公式、几何图等“数学型图像”,它们属于“分布外”内容,感知力严重不足。

3. 过度依赖外部功能

像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。

今日霍州(www.jrhz.info)©️

MINT-CoT:细粒度视觉交错推理新范式

为了解决上述痛点,团队提出了 MINT-CoT(Multimodal Interleaved Chain-of-Thought)——一种细粒度、轻量级的视觉交错 CoT 推理方法,专为数学推理场景设计。

核心创新在于引入了一种特殊的 Interleave Token——模型在生成下一个 token 时,会动态从图像中选取与当前推理步骤最相关的视觉 token,并嵌入文本推理链中。这个过程通过计算计算 Interleave Token 的隐藏层与所有视觉 token 的隐藏层的相似度来实现,从而动态选取与数学概念最相关的视觉区域,将图像与文本细粒度地融合。

相比传统基于矩形区域的方法,MINT-CoT 可以灵活选取任意形状的视觉区域,比如几何图形、坐标、线段等结构化数学元素,实现真正的 “图文联合推理”。

今日霍州(www.jrhz.info)©️

数据集:打造“视觉交错推理”的专属训练集

为了支撑MINT-CoT的训练,团队还构建了 MINT-CoT 数据集,共 5.4 万条视觉交错推理样本,每条数据都包含推理步骤与相应图像中 token 的对齐信息。基于 Mulberry-260K 数据集生成文本推理链,再通过以下四步流程完成视觉区域标注:

(1) 将图像划分为网格区域, (2) 利用 OCR 检测图像中文本并映射到对应网格, (3) 提取推理关键词, (4) 使用MLLM关联关键词与图像区域,完成 token级别的匹配标注。

今日霍州(www.jrhz.info)©️

三阶段训练策略:逐步提升视觉交错推理能力

在MINT-CoT框架和数据集的基础上,设计了一个三阶段的训练策略,逐步提升模型的推理能力,具体包括:

(1) 文本CoT微调:通过纯文本推理数据训练模型,打下通用推理格式的基础 (2) 交错模态CoT微调:使用两个损失函数监督文本推理和视觉token选择,教会模型在推理过程中合理插入视觉内容,实现图文联合推理能力。 (3) 交错模态CoT强化学习:利用强化学习优化视觉内容选择和推理策略,让模型自主探索更优解法。

实验效果:全面超越现有方法

我多模态大模型Qwen-VL-7B的基础上应用MINT-CoT框架,训练出 MINT-CoT-7B 模型,在数学视觉推理任务中表现优越。下面的可视化结果表明,MINT-CoT-7B 相比于基线模型,表现出更合理的推理形式,可以在推理过程中选择相关的视觉token,并和文本内容一起交错推理。

今日霍州(www.jrhz.info)©️

定量的实验结果也表明了本方法的有效性。MINT-CoT-7B 在多个基准上实现显著提升:在MathVista上提升 +32.59%,在GeoQA上提升+26.92%,在MMStar上提升 +23.2%。不仅如此,MINT-CoT-7B全面超越原有SOTA模型,成为数学视觉推理领域的新标杆。

今日霍州(www.jrhz.info)©️

小结:

通过提出MINT-CoT,实现了细粒度视觉信息与思维链推理的深度融合,显著提升多模态大模型在数学视觉推理任务中的表现。未来,MINT-CoT有望拓展至更多结构化视觉场景,推动多模态推理技术进一步发展。

论文:https://arxiv.org/abs/2506.05331

代码:https://github.com/xinyan-cxy/MINT-CoT

特别声明:[细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

全新胜达格锐维拉克斯雅尊劳恩斯雅科仕轿车前杠大灯清洗喷水管有哪些需要注意的地方?(进口胜达格瑞)

全新胜达、格锐、维拉克斯、雅尊、劳恩斯、雅科仕轿车的前杠大灯清洗喷水管在车辆日常维护中起到重要作用。了解如何选择合适的产品及安装细节有助于提升驾驶安全性和视觉效果。本文将为您全面解析喷水管的选购要点、安装流程及注意事项。

全新胜达格锐维拉克斯雅尊劳恩斯雅科仕轿车前杠大灯清洗喷水管有哪些需要注意的地方?(进口胜达格瑞)

牛顿与爱因斯坦,谁才是物理学王者:他们的成就,是人类混沌前行中的灯塔(牛顿与爱因斯坦理论的区别与相似)

爱因斯坦以简单的原理和公式为基础,通过思想实验,提出全新科学理论,让人类看到感知之外的世界。 牛顿和爱因斯坦,谁是真正的物理学王者?牛顿的贡献是基础性和开创性的,奠定经典物理学大厦的基石。 让物理…

牛顿与爱因斯坦,谁才是物理学王者:他们的成就,是人类混沌前行中的灯塔(牛顿与爱因斯坦理论的区别与相似)

张靓颖透视内搭炸翻时尚圈!是绝美还是翻车,速来围观!(张靓颖穿透衣)

最近,张靓颖的『穿搭』一组照片一经曝光,瞬间让网络炸锅了。这次她大胆选择了黑色透视内搭,别具匠心的设计让她的『穿搭』一时间引发了热议。这一次,她大胆尝试黑色透视内搭,或许正是想要突破自己,带来一种全新的视觉体验。那么…

张靓颖透视内搭炸翻时尚圈!是绝美还是翻车,速来围观!(张靓颖穿透衣)

冬天给中大童选加绒牛仔裤👖要挑哪些细节?2026年新标准早知道

冬天给中大童挑选加绒牛仔裤👖?2026年的家长们更关注一体化绒芯设计、宽松舒适度以及安全环保面料。优质加厚款不仅能提升保暖性能,更能兼顾孩子的自由活动。本文从实用需求出发,教你如何挑选最适合孩子的冬季裤子,同时帮你避坑。阅读后,你会清楚为何选

冬天给中大童选加绒牛仔裤👖要挑哪些细节?2026年新标准早知道

这一次,和罗康瑞一起露面的霍家兄弟,彻底撕下了父亲的体面

丈夫的忙碌工作,永远将她置于家庭之外,外界应酬、跨国会议占据了丈夫的生活,而她的名字却几乎从未出现在他的行程安排中。 她再次步入婚姻殿堂时,已经不再是依附于任何人,她选择了更加独立和沉稳的姿态,专注于摄影…

这一次,和罗康瑞一起露面的霍家兄弟,彻底撕下了父亲的体面