北大彭宇新教授团队开源细粒度多模态大模型Finedefics

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被 ICLR 2025 接收,并已开源。

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。

细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别,如将鸟类(粗粒度大类)图像区分为西美鸥、灰背鸥、银鸥等(细粒度子类别);将车区分为宝马、奔驰、奥迪等,奥迪区分为 A4、A6、A8 等;将飞机区分为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉对象的细粒度识别,在现实生产和生活中具有重要的研究和应用价值。

针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」是限制多模态大模型的细粒度视觉识别能力的关键问题,并提出了细粒度多模态大模型 Finedefics。

首先,Finedefics 通过提示『大语言模型』构建视觉对象的细粒度属性知识;然后,通过对比学习将细粒度属性知识分别与视觉对象的图像与文本对齐,实现数据 - 知识协同训练。

Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

今日霍州(www.jrhz.info)©️

  • 论文标题:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
  • 论文链接:https://openreview.net/forum?id=p3NKpom1VL
  • 开源代码:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
  • 模型地址:https://huggingface.co/StevenHH2000/Finedefics
  • 实验室网址:https://www.wict.pku.edu.cn/mipl

背景与动机

多模态大模型是指提取并融合文本、图像、视频等多模态数据表征,通过『大语言模型』进行推理,经过微调后适配到多种下游任务的基础模型。

尽管现有多模态大模型在视觉问答、推理等多种任务上表现出色,但存在识别粒度粗的局限性:因为多模态大模型的视觉识别能力依赖大量训练数据,由于训练数据的细粒度子类别的标注成本巨大,实际也是无法细粒度标注的,导致现有多模态大模型缺乏细粒度视觉识别能力。

今日霍州(www.jrhz.info)©️

图 1. 多模态大模型在细粒度视觉识别上所需的 3 项能力

本文系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力,如图 1 所示,包括:

1. 对象信息提取能力:视觉编码器能够从图像中准确并全面地提取区分不同细粒度子类别的辨识性信息;

2. 类别知识储备能力:『大语言模型』能够储备充分的细粒度子类别知识;

3. 对象 - 类别对齐能力:基于提取的辨识性视觉信息与储备的细粒度子类别知识,在『大语言模型』的表征空间中对齐视觉对象与细粒度子类别,以建立输入图像到子类别名称的细粒度映射关系。

实验结果表明,「视觉对象与细粒度子类别未对齐」是限制多模态大模型具备细粒度视觉识别能力的关键问题。

技术方案

为解决视觉对象与细粒度子类别未对齐的问题,本文提出了细粒度多模态大模型 Finedefics

如图 2 所示,Finedefics 构建过程包含 2 个主要步骤:

1. 首先通过属性描述构建,利用辨识属性挖掘获得区分细粒度子类别的关键特征,例如区分猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质地」等,并利用视觉属性提取获得图像对象的辨识性属性对,例如「毛色:棕褐色」、「毛型:带有斑纹」、「毛皮质地:质地柔软」等,再利用属性描述总结将属性对转化为自然语言形式的对象属性描述,例如「图中小猫的毛为棕褐色,带有斑纹,质地柔软」;

2. 然后通过属性增强对齐,将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标,通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系,再利用以识别为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。具体地,包含如下两个训练阶段:

今日霍州(www.jrhz.info)©️

图 2. 细粒度多模态大模型(Finedefics)框架图

阶段 I:属性增强的对比学习

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

实验结果

表 1. 细粒度多模态大模型(Finedefics)实验结果

今日霍州(www.jrhz.info)©️

表 1 的实验结果表明,Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,相比阿里 2024 年 1 月发布的『通义千问』大模型(Qwen-VL-Chat)提高了 9.43%,相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%

今日霍州(www.jrhz.info)©️

图 3. 视觉对象 - 细粒度子类别对齐效果可视化

今日霍州(www.jrhz.info)©️

图 4. 细粒度多模态大模型(Finedefics)案例展示

图 3 的可视化结果表明,(a)仅微调大模型,视觉对象与细粒度子类别表征的分布差异大;(b)仅引入对象 - 类别对比学习时,上述分布差异仍然难以降低;(c)同时引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时,分布差异显著降低,优化了视觉对象与细粒度子类别的对齐效果,提升了多模态大模型的细粒度视觉识别能力。

图 4 的案例展示表明,相较于 Idefics2,本方法 Finedefics 能成功捕捉视觉对象特征的细微区别,并将其与相似的细粒度子类别对象显著区分。

更多详情,请参见原论文。

特别声明:[北大彭宇新教授团队开源细粒度多模态大模型Finedefics] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

向佐上海街头抱巨型猪公仔,说“给我老婆的”好甜!(向佐怒怼)

打破了大众对他的刻板印象,更让郭碧婷与他的豪门婚姻,褪去争议露出了最接地气的甜蜜底色。郭碧婷属猪,向佐便特意挑选猪形公仔,哪怕玩偶大到不便携带,也执意买下带给妻子,这份笨拙又真诚的浪漫,比任何精心策划的公开…

向佐上海街头抱巨型猪公仔,说“给我老婆的”好甜!(向佐怒怼)

2026国内Z型提升机厂商实力分析,助力企业高效生产,烘干机网带网带清洗机气泡清洗机,提升机供应厂家哪家好

为帮助企业精准筛选优质供应商,本文依托中国机械工业联合会、中国食品和包装机械工业协会等权威机构发布的行业数据,结合《2025-2026年中国输送机械市场调研报告》及主流媒体测评结果,从技术实力、产品质量、…

2026国内Z型提升机厂商实力分析,助力企业高效生产,烘干机网带网带清洗机气泡清洗机,提升机供应厂家哪家好

扁桃体发炎吃阿莫西林管用吗(扁桃体发炎吃阿莫西林有用吗)

扁桃体发炎可以遵医嘱使用阿莫西林,但需明确是否为细菌感染所致。扁桃体发炎主要由细菌或病毒感染引起,阿莫西林对细菌性扁桃体炎有效,对病毒性感染无效

扁桃体发炎吃阿莫西林管用吗(扁桃体发炎吃阿莫西林有用吗)

『徐璐』泡温泉状态惊艳,身材颜值双杀(『徐璐』泳池接吻)

『徐璐』泡温泉的状态,简直让人惊艳得无话可说!那深陷的锁骨,仿佛是为世间的美丽而生,简直能养一池的鱼!肩背线条如画,流畅又挺拔,整个人的气场瞬间提升,氛围感拉满!既甜美又带着一丝性感,毫不做作,令人心动不已。她3…

『徐璐』泡温泉状态惊艳,身材颜值双杀(『徐璐』泳池接吻)

奔跑吧9》收视创新高!『檀健次』加盟后口碑两极分化(奔跑吧9收官)

有人认为他像综艺鲶鱼,为老成员注入了新的活力;也有观众吐槽他用力过猛,给人一种在演偶像剧的错觉。数据从不撒谎:『檀健次』参与的几期,微博话题的阅读量平均增长了40%,然而豆瓣评分却从8.2掉到了7.5,短评区里满…

《<strong>奔跑吧9</strong>》收视创新高!『檀健次』加盟后口碑两极分化(奔跑吧9收官)