梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(『DeepSeek』)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。

今日霍州(www.jrhz.info)©️

这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据『DeepSeek』,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能力提供新的方向,实现将算法创新与硬件对齐的优化相结合,进行高效的长上下文建模。

『DeepSeek』在论文中介绍,NSA采用动态分层稀疏策略,将粗粒度标记压缩与细粒度标记选择相结合,以保持全局上下文感知和局部精度。通过两项关键创新推进稀疏注意力设计:第一,通过算术强度平衡算法设计实现了显着的加速,并针对现代硬件进行了实现优化。第二,支持端到端训练,在不牺牲模型性能的情况下减少预训练计算。

实验表明,使用 NSA 预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过了全注意力模型。同时,NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速,验证其在整个模型生命周期中的效率。

“此次『DeepSeek』发布的论文,可以称为基石更新。”业内人士向澎湃新闻记者评论,此前的『DeepSeek』-R1的瓶颈在于输入上下文能力方面相对不足,此次更新正是解决了原先大模型文字处理的问题。从内容来看,NSA主要针对长上下文高速训练,在长上下文情况下,相比原先的结构有更慢的性能衰减,这导致长思维链的 COT 效果会更好,对于复杂数学推导非常有价值。

据业内人士分析,『DeepSeek』此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础,但其核心算法注意力机制存在先天问题:为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较,导致处理文本越长,技术就会越卡,甚至崩溃。

通过NSA新架构,和Transformer原先传统的注意力机制相比,准确率相同或更高,处理64k标记序列时速度可提高至11.6倍,且训练更高效,所需算力更少。

值得注意的是,此次论文作者中,梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳(Jingyang Yuan)。据公开信息,袁景阳目前是北京大学硕士研究生,研究领域包括LLM和AI for Science,目前是『DeepSeek』的实习生,据袁景阳个人主页,他在去年参与7篇论文的撰写。

此前,在发布Grok 3同时,马斯克透露,Grok 3的计算能力是Grok 2的10倍以上,训练过程累计消耗20万张『英伟达』GPU。而梁文锋的训练思路似乎与马斯克截然相反,更关注如何在更少算力消耗下,达到更好的计算效果。

有趣的是,对于马斯克坚持大力出奇迹的思路,另一家国内大模型独角兽“月之暗面”几乎在同时提出挑战。

2月18日,就在『DeepSeek』论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为“MoBA:面向长上下文『大语言模型』的块注意力混合方法”)》,提出了与NSA类似的稀疏注意力框架MoBA,并设计了一套可以自由切换全注意力和稀疏注意力机制的方式,为已有的全注意力模型更多的适配空间。

据介绍,MoBA是“一种将混合专家(MoE)原理应用于注意力机制的创新方法”,旨在提高长文本处理效率。经过Kimi平台验证,MoBA架构能将处理1M长文本的速度提升6.5倍,将处理10M长文本的速度提升16倍。

MoBA提升效率的关键手段在于仅关注部分键值。Kimi团队把完整的上下文划分成“块(block)”、让每个查询token自动关注最相关的KV(键值)块,从而实现长序列数据的高效处理,并提出一种新的top-k门控机制,无需额外训练参数,为每个查询token挑选出最相关的“块”,保证模型的注意力聚焦在包含最有用信息的“块”上。

Kimi团队表示,开展这项研究的原因在于,在传统注意力机制中,计算复杂度随着序列长度的增加而呈平方级增长,阻碍了模型对长序列的高效处理。MoBA架构能够轻松融入现有模型,不需要高昂的训练成本,并实现与全注意力模式的无缝切换。

国产AI竞赛正在日益加剧中。1月20日,中国AI初创公司深度求索(『DeepSeek』)推出大模型『DeepSeek』-R1。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入『DeepSeek』。

2月8日,QuestMobile数据显示,『DeepSeek』在1月28日的日活跃用户数首次超越『豆包』,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。

『DeepSeek』的爆发正在重塑中国大模型行业,从过去的“烧钱换估值”转向关注技术性价比与商业化闭环。在这个日新月异的赛道,由『DeepSeek』引领的开源已成为大模型整体潮流,2月18日,阶跃星辰和吉利汽车联合宣布,将双方合作的阶跃两款Step系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

特别声明:[梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

春夏清爽款!5款大牌素颜霜实测,馥诺娜遮瑕隔离素颜霜不闷痘(春夏时尚女休闲套装)

本次实测专为春夏场景打造,核心围绕3点:一是质地清爽透气,不黏腻、不闷肤,杜绝闷痘泛油;二是长效持妆抗汗,抵御春夏高温出汗,不脱妆、不暗沉;三是温和养肤,兼顾提亮,适配春夏各类肤质,附真实使用心得,拒绝厚重…

春夏清爽款!5款大牌素颜霜实测,馥诺娜遮瑕隔离素颜霜不闷痘(春夏时尚女休闲套装)

先后演『钟汉良』和『董璇』儿子,王昊泽真是个小帅哥,但也显得老成(『钟汉良』和女演员)

妈妈答应带他去旅游,却又反悔了,童童虽然能理解妈妈的难处,但还是因为没能带上同学的礼物🎁而感到不满,表现出一丝情绪低落,这种真实的反应让观众觉得非常自然。 然而,虽然王昊泽的表现十分成熟,但在这两部剧中,他…

先后演『钟汉良』和『董璇』儿子,王昊泽真是个小帅哥,但也显得老成(『钟汉良』和女演员)

温碧霞晒圣诞全家福,80多婆婆出镜好年轻,婆媳挽手关系终于破冰(温碧霞晒圣诞全家福)

结婚25年的温碧霞和丈夫何祖光的感情,依然是那么甜蜜温馨。他们16岁的儿子何国伦是养子,但从他的外貌中依稀可以看出和父亲何祖光的相似之处,尤其是笑起来的神态,几乎像是同一个模子里刻出来的。如今,公公去世后,婆…

温碧霞晒圣诞全家福,80多婆婆出镜好年轻,婆媳挽手关系终于破冰(温碧霞晒圣诞全家福)

雅马哈XJ900 Diversion XV1600 XV1700燃油泵汽油泵选型全解:2026年必知细节与避坑指南(雅马哈调音台)

随着雅马哈XJ900 Diversion XV1600 XV1700的普及,如何选择合适的燃油泵成为许多骑行者关注的重点。本文将深入解析燃油泵的关键参数、应用场景及选型注意事项,帮助您避开选购中的常见误区,确保您的爱车始终动力澎湃。无论是追

雅马哈XJ900 Diversion XV1600 XV1700燃油泵汽油泵选型全解:2026年必知细节与避坑指南(雅马哈调音台)

金瓶梅》——聊聊西门庆的管理手段(金瓶梅爱的奴隶歌曲叫什么名字)

她看着其他妻妾争风吃醋、恩宠更迭,只能用“正室当有气度”来自我安慰,久而久之,她渐渐忘了自己也曾有过欢喜与委屈,忘了自己也曾是个有血有肉的女子,只记得,自己是西门庆的正室,是封建礼教的代言人,是这座牢笼里,最…

《<strong>金瓶梅</strong>》——聊聊西门庆的管理手段(金瓶梅爱的奴隶歌曲叫什么名字)