改款『DeepSeek』,乱了华为心态

今日霍州(www.jrhz.info)©️

文源:源Byte

作者:柯基的柯

当技术参数的相关性飙到0.927,行业直接炸了。

近期,有研究团队在GitHub上公开比对数据,指出华为盘古ProMoE与阿里Qwen-2.5 14B参数结构高度雷同,居然高达0.927,超过业内正常范围(通常低于0.7)。华为盘古团队迅速回应,强调其模型基于昇腾硬件优化,属于“殊途同归”,向来在舆论场上不输阵仗的阿里,却意外保持沉默。

今日霍州(www.jrhz.info)©️

截图来源于诺亚方舟实验室公号

无独有偶,就在上个月,月之暗面的Kimi-Dev-72B凭借60.4%的测试成绩惊艳亮相,因“Basemodel:Qwen2.5-72B”的标注被贴上“套壳”标签陷入争议。就在开发者们争论不休之时,外界发现“受害者”依旧是阿里,不禁发出如此疑问:这是微调技术的胜利,还是原创性匮乏的遮羞布?

而曾被寄予厚望的『DeepSeek』 R2,迟迟未能面世,这款有望继续对世界顶级大模型持续施压的模型长期“跳票”,一定程度助推了国产大模型的技术标准“失焦”。

在一片R2“狼来了”的声音中,市场似乎在等待中逐渐失去耐心,正在让国产大模型的竞争,从技术比拼滑向资源内耗。

01

参数之争背后的技术迷局

华为盘古ProMoE与阿里Qwen-2.5 14B的“0.927相似度”,直接剖开了大模型研发的黑箱。

今日霍州(www.jrhz.info)©️

研究团队通过比对注意力参数分布,发现两者结构相似性远超行业常态。华为坚称其模型基于昇腾硬件优化,属于“异构架构的殊途同归”;阿里则保持沉默,但开源社区已涌现对代码复用合规性的质疑。

然而,技术细节的争议很快滑向商业博弈的泥潭。

盘古团队紧急发布技术白皮书,强调其MoE架构的专利布局;阿里则加速推进Qwen-3.0迭代,似乎在用版本升级对冲舆论风险。一位不愿具名的『芯片』『工程师』透露:“参数结构的趋同,本质上是算力军备竞赛下的技术妥协。”

开发者社区并不买账,用户 @HonestAGI 通过 “LLM 指纹” 技术反向验证,结果与原始研究高度吻合。技术趋同是否等同于抄袭?这一问题在开源社区引发激烈辩论。

支持华为的声音认为,大模型领域的技术重叠难以避免,关键在于优化和落地。昇腾生态的拥趸特别指出,盘古的动态专家网络设计解决了分布式训练『负载均衡』的难题,是实打实的创新。

但反对者,反对者翻出匿名爆料,称部分盘古模型存在“洗水印”嫌弃——即对开源模型进行微调后重新包装。尽管爆料未提供具体证据,但阿里『通义千问』的开源协议中明确要求衍生模型需标注来源,这一细节让争议更加扑朔迷离。

从技术角度看,参数结构的相似性可能源于训练数据的重叠或优化目标的趋同。但问题的核心在于,当两家巨头在公开场合强调“自主创新”时,这种高度一致性是否违背了开源协议的精神?

华为盘古团队的回应中,一个细节值得玩味:他们提到“参考了业界开源实践”,但未具体说明哪些实践。这种模糊表述让外界难以判断其行为的边界。而阿里的沉默,则被解读为一种战术性回避,避免卷入公开论战。

一位长期观察AI行业的分析师表示:“参数之争的背后,是国产大模型在高速发展中的身份焦虑——既要追赶国际巨头,又要在本土竞争中脱颖而出。”这种焦虑,或许正是技术迷局的真正底色。

02

微调红利与创新困局

华为与阿里的纠纷并非孤立事件,就在上个月,月之暗面与阿里就曾陷入类似的纠纷。

就在外界认为月之暗面要在国产大模型内卷中掉队之时,其推出的Kimi-Dev-72B在SWE-bench测试中一骑绝尘。

该模型通过1500亿专项数据和数百万GitHub工单优化,将代码任务准确率提升至60.4%。在当时,它刷新了开源模型的纪录,将包括『DeepSeek』在内的众多竞争对手甩在了身后。

不过好景不长,开发者们很快发现,Kimi-Dev-72B明确标注了其基础模型为Qwen/Qwen2.5-72B,随后,开发者社区的分歧迅速蔓延:有人将其视为“站在巨人肩膀上”的微调典范,也有人质疑这是披着开源外衣的“技术组装”。

微调本是行业常态,但标注的透明性未能消弭质疑。月之暗面官方解释,他们以Qwen 2.5-72B为起点,收集了数百万个GitHub问题单和PR提交作为中期训练数据集,其核心创新点在于采用了大规模强化学习技术。

争议的核心并非技术本身,而是创新的边界。Kimi-Dev-72B的表现确实亮眼,但它的成功是否依赖于基座模型的原始能力?有匿名开发者尖锐指出:“如果微调就能达到顶尖水平,原创的价值在哪里?”

开源生态的规则正在被重新定义。阿里通过协议更新试图维护技术主权,而月之暗面则用性能说话,试图证明微调并非简单的“套壳”。市场反应两极分化:一部分企业开始效仿这种快速迭代的模式,另一部分则呼吁回归原创研发。

值得注意的是,Kimi-Dev-72B的优化框架确实有其独特性,它结合了BugFixer和TestWriter角色,通过强化学习精准提升代码修复和测试编写的效率。

但这种优化是否足以定义“创新”,仍是一个悬而未决的问题。可见,行业的焦虑感正在加剧,当微调成为捷径,原创研发的成本和风险是否会被边缘化?对此,一位风投机构合伙人给出解释:“资本更倾向于快速见效的项目,原创大模型的投入周期太长。”

03

失序的竞争

R1的辉煌已成往事,R2的难产却让市场陷入焦灼。『DeepSeek』曾以低成本、高性能对标OpenAI,一度成为全球开源推理类模型的标杆。

今日霍州(www.jrhz.info)©️

截图来源于『DeepSeek』官网

传闻在今年4月发布的R2,时至今日也未能问世,仅仅在5月末推出了一个R1的改款。

至少从6月以来的两起“套壳”事件来看,改款的R1模型难以承担定义行业标准的重任。

有媒体爆料称,因公司创始人梁文锋对性能的极致追求和H20『芯片』短缺被迫延期,根据爆料的内部文件显示,其1.2万亿参数的MoE设计对标GPT-4Turbo,但训练成本控制成为致命瓶颈。

技术瓶颈之外,行业正面临更严峻的信任危机。R1曾以纯强化学习训练打破技术范式,而R2的缺席让华为、阿里有望抢占生态位,有风投机构对源Byte表示:“当所有人都忙着给模型‘镀金’,真正的创新反而成了『奢侈品』。”

『DeepSeek』如今已经成为了国产大模型的代名词,其R1模型具备定义行业标准的意义,但长达半年多的技术缺位、R2接连跳票后,难免有人想取而代之。“对于一线『互联网』大厂来说,能够定义行业标准、引领行业前进方向,才是他们最为看重的。”上述风投机构坦言。

简单点理解,就是『DeepSeek』 R2的跳票,或变相造成了国产大模型的竞争失焦。

华为和阿里在R2真空期内动作频频,华为盘古ProMoE的争议尚未平息,阿里已悄然推进Qwen-3.0的迭代。两家巨头的技术路径虽有差异,但核心逻辑仍是参数与性能的堆砌,难怪不少匿名开发者都在调侃:“大家都在玩‘谁的数字更大’,没人关心技术是否真的进步。”

据部分开发者向源Byte爆料称,部分国产智能体专注“出海”,而非针对国内市场开发,除了国内市场尚未形成付费习惯,还有相当一部分的原因是,国产大模型仅仅在参数上追平或赶超海外模型,但在具体的开发细节上,仍存在一定差距,直接导致开发成本的飙升。

与此同时,『芯片』短缺加剧了这场混乱。『英伟达』H20的供应紧张,让依赖高端硬件的企业陷入被动。『DeepSeek』的延迟或许只是开始,更多中小厂商可能因资源不足被迫退出竞争。

即便如此,市场对R2的期待仍未消退。传闻称其混合专家架构(MoE)将成本大大降低,但具体表现仍是未知数。若R2能如期突破,或许能重新点燃行业的信心;若继续延迟,国产大模型的竞争格局或将改写。

耐人寻味的是,这场延迟反而让市场看清了行业的真实状态,技术路径趋同、创新乏力、资源垄断——这些问题在R2的缺席中被放大。一位从业者无奈表示:“我们需要的不是另一个参数怪兽,而是能真正解决问题的工具。”

部分图片来源于网络,如有侵权请告知删除

特别声明:[改款『DeepSeek』,乱了华为心态] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

福星不是天降好运,是那个雨夜,有人为你多开了一公里(天降福星 电视剧)

笑声未歇,泪点已至——当暴雨夜,老张目睹李路生冒雨护送孩童回家,脱口而出那句济宁方言:“跑出租不丢人,丢人的是看不起跑出租的人。”李嘉明即兴发挥的济宁话:“俺这车,拉的是人,不是票子”,让无数北方观众瞬间破防…

福星不是天降好运,是那个雨夜,有人为你多开了一公里(天降福星 电视剧)

因祸得福!『鹿晗』解决困扰回归《五哈6》(『鹿晗』临危受命)

这一回归,让人不禁联想到“因祸得福”这个词。 回顾去年《五哈》录制时,在第一期节目中,『邓超』、『陈赫』、范志毅曾提到『鹿晗』犯了一些错误,需要时间沉淀和反省。或许这一次的回归,会成为『鹿晗』演艺生涯中的又一个新起点,让我们…

因祸得福!『鹿晗』解决困扰回归《<strong>五哈6</strong>》(『鹿晗』临危受命)

章泽天父母离婚内幕曝光!九几年爸爸赚了钱,再婚后生了妹妹(章泽天爸妈离婚了吗)

那个年代,很多人还在为安稳的工作而努力,而章丽厚则能在商业浪潮中找到机会,开创了属于自己的事业。章丽厚虽然为小女儿提供了相应的教育资源,家中依旧保持着一定的生活水平,但她的成长过程没有进入公众的视野,知名度与…

章泽天父母离婚内幕曝光!九几年爸爸赚了钱,再婚后生了妹妹(章泽天爸妈离婚了吗)

62%的水瓶变冷漠,受过情伤后竟会这样,为什么他们越爱越慢热?(水瓶冷静下来就真的冷了)

像那个我观察过的水瓶朋友,刚开始对人们还愿意一心一意,把心交出去,但时间久了,他(她)会学会三思而后行。他们变得更稳重了,还会用一副“我可以”,但心里其实特别在乎那些细节。看着他们渐渐变得更懂事,更懂得怎么去…

62%的水瓶变冷漠,受过情伤后竟会这样,为什么他们越爱越慢热?(水瓶冷静下来就真的冷了)

2月6日追剧日历:《成何体统》《被隐匿的真相》今日开播(2025年2月追剧日历)

成何体统》今日开播,桃厂首更6集共32集 《被隐匿的真相》今日开播,鹅厂首更4集共12集 唐鉴军、王小利等主演的40集电视剧《乡村爱情18》2月10日裤厂开播 彭冠英、佟大为等主演的电视剧《登场》有…

2月6日追剧日历:《<strong>成何体统</strong>》《<strong>被隐匿的真相</strong>》今日开播(2025年2月追剧日历)