Meta，最新发布！“多模态性最强模型” #科技 #Meta #推理 #社区 #『DeepSeek』 #Llama

开源大模型元老，发布重磅更新。

北京时间4月6日凌晨，美国科技巨头Meta推出了开源人工智能模型Llama 4。据介绍，该模型目前目前有Scout和Maverick两个版本，是Meta迄今为止最先进的模型，也是同类产品中多模态性最强的模型。

今日霍州(www.jrhz.info)©️

在『DeepSeek』引发模型开源浪潮以前，Meta一直是开源模型的领先玩家及重要的行业奠基者。在ChatGPT横空出世7个多月后，Meta就率先宣布开源Llama 2，并且可免费商用。这也成为大模型发展的分水岭，是开源模型社区的历史性时刻。Llama第四代模型的发布，不仅是Meta应对『DeepSeek』等新兴开源势力的一次“回击”，同时也推动了开源模型技术的进一步发展和生态的进一步完善。

大规模、多模态、长文本的Llama 4发布

北京时间4月6日凌晨，Meta发布Llama 4系列首批模型，包括两款高效模型Llama 4 Scout、Llama 4 Maverick。此外，Meta还预览了其迄今最强大最智能的模型——Llama 4 Behemoth，是“新模型中的教师”。

Llama 4模型是Llama系列模型中首批采用混合专家（MoE）架构的模型。这一模型也是『DeepSeek』系列模型采用的架构，与传统的稠密模型相比，在MoE架构中，单独的token只会激活全部参数中的一小部分，训练和推理的计算效率更高。

首先，Llama 4的第一大特点是参数规模大，最先进的Llama 4 Behemoth总参数高达2万亿（作为对照，『DeepSeek』-R1总参数规模为6710亿）。

其中，Llama 4 Scout面向文档摘要与大型代码库推理任务，专为高效信息提取与复杂逻辑推理打造，共有16位“专家”、1090亿参数、170亿激活参数量；Llama 4 Maverick则专注于多模态能力，支持视觉和语音输入，具备顶级的多语言支持与编程能力，共有128位“专家”、4000亿参数、170亿激活参数量；Llama 4 Behemoth（预览版）则是Meta未来最强大的AI模型之一，具备令人瞩目的超大规模参数架构，具有2880亿激活参数量，总参数高达2万亿。

其次，Llama 4的另外一大特点是多模态能力突出。作为原生多模态模型，Llama 4采用了早期融合（Early Fusion）技术，可以用海量的无标签文本、图片和视频数据一起来预训练模型，实现文本和视觉token无缝整合到统一的模型框架里。

jrhz.info

据Meta介绍，Llama用各种图像和视频帧静止图像训练两个模型，以赋予它们广泛的视觉理解能力，包括时间活动和相关图像。这支持多图像输入与文本提示的无缝交互，用于视觉推理和理解任务。模型在预训练中最多使用48张图像，后训练中测试了最多8张图像，结果良好。

最后，Llama在长文本能力上也取得了突破，具有超大的上下文窗口长度。Llama 4 Scout 模型支持高达1000万token的上下文窗口，刷新了开源模型的纪录，而市场上其他领先模型如GPT-4o也未能达到此规模。超大上下文窗口使Llama 4在处理长文档、复杂对话和多轮推理任务时表现出色。

大模型竞争趋于白热化

作为开源模型社区的“领头羊”和佼佼者，Llama（Large Language Model Meta AI）系列模型由Meta在2022年推出。2023年，为应对ChatGPT等领先闭源模型的挑战，Meta率先宣布开源Llama 2，并且可免费商用。这一开源之举激活了开发者社区的创新潜力，此后基于Llama 2构建的应用项目数量大大增加，覆盖各种领域，形成了一个充满活力的生态系统。

2024年4月，Llama 3正式发布，在技术层面实现了诸多突破，最重要的是不仅在单语言任务上表现卓越，还实现了多模态处理能力，能够同时理解并生成文本、图像、音频等多种类型的数据，从而开启了多模态的新纪元。

虽然Meta是开源模型的重要奠基者，但是开源领域的竞争正变得日益激烈和焦灼，尤其是『DeepSeek』的崛起，对Meta在开源模型社区的领先地位构成了巨大的冲击。

今年1月末，在『DeepSeek』刚刚在海外火爆出圈时，就有Meta员工在匿名社区TeamBlind上爆料称，仅用550万美元💵训练的『DeepSeek』-V3在基准测试中已经让Llama模型相形见绌，Meta的『工程师』们正在争分夺秒地分析『DeepSeek』，试图复制其中的一切可能技术。该爆料帖还说，Meta管理层正面临严峻的财务压力，其生成式AI部门数十位高管，“每个人的年薪都超过了『DeepSeek』-V3的全部训练费用。如何向公司高层解释这种投入产出比，已成为他们的噩梦”。

除了『DeepSeek』以外，阿里巴巴『通义千问』系列开源大模型也屡屡斩获佳绩。4月2日，全球最大的AI开源社区Hugging Face更新了大模型榜单，阿里『通义千问』近期开源的端到端全模态大模型Qwen2.5-Omni登上总榜榜首。据了解，阿里至今已向全球开源200多款模型，千问衍生模型数量已突破10万，超越美国Llama系列，成为全球最大的开源模型族群。

在Llama 4发布之际，OpenAI首席执行官山姆·奥特曼也对外透露了公司的模型发布计划。他表示，OpenAI可能在几周后发布最新的推理模型o3和最新的基座模型o4-mini，然后在几个月后推出GPT-5。

『DeepSeek』-R2模型何时发布也备受市场关注。4月4日，『DeepSeek』与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文，提出自我原则点评调优（SPCT）与元奖励模型（Meta Reward Model）两项核心技术，为提升『大语言模型』的推理能力提供了全新方法论。虽然官方并未明确R2的发布时间，但这一成果被视为『DeepSeek』下一代推理模型R2的重要技术铺垫。

技术的不断突破及各家大模型的密集推出，表明大模型竞争趋于白热化，彼此间你追我赶将是未来一段时间的常态。业内人士分析称，模型能力的持续提升，推动大模型竞争进入推理强化和应用拓展的下半场赛程。个人智能体潜力初步显现，行业应用渐次走深，开源开放日益成为大模型的核心竞争力组成。大算力、多模态、强推理、广开源、准数据、智能体、深应用等，成为大模型发展的重要趋势。

责编：王璐璐

校对：彭其华