改款『DeepSeek』，乱了华为心态 #科技 #盘古 #Qwen #技术 #『DeepSeek』 #参数

今日霍州(www.jrhz.info)©️

文源：源Byte

作者：柯基的柯

当技术参数的相关性飙到0.927，行业直接炸了。

近期，有研究团队在GitHub上公开比对数据，指出华为盘古ProMoE与阿里Qwen-2.5 14B参数结构高度雷同，居然高达0.927，超过业内正常范围（通常低于0.7）。华为盘古团队迅速回应，强调其模型基于昇腾硬件优化，属于“殊途同归”，向来在舆论场上不输阵仗的阿里，却意外保持沉默。

今日霍州(www.jrhz.info)©️

截图来源于诺亚方舟实验室公号

无独有偶，就在上个月，月之暗面的Kimi-Dev-72B凭借60.4%的测试成绩惊艳亮相，因“Basemodel:Qwen2.5-72B”的标注被贴上“套壳”标签陷入争议。就在开发者们争论不休之时，外界发现“受害者”依旧是阿里，不禁发出如此疑问：这是微调技术的胜利，还是原创性匮乏的遮羞布？

而曾被寄予厚望的『DeepSeek』 R2，迟迟未能面世，这款有望继续对世界顶级大模型持续施压的模型长期“跳票”，一定程度助推了国产大模型的技术标准“失焦”。

在一片R2“狼来了”的声音中，市场似乎在等待中逐渐失去耐心，正在让国产大模型的竞争，从技术比拼滑向资源内耗。

参数之争背后的技术迷局

华为盘古ProMoE与阿里Qwen-2.5 14B的“0.927相似度”，直接剖开了大模型研发的黑箱。

今日霍州(www.jrhz.info)©️

研究团队通过比对注意力参数分布，发现两者结构相似性远超行业常态。华为坚称其模型基于昇腾硬件优化，属于“异构架构的殊途同归”；阿里则保持沉默，但开源社区已涌现对代码复用合规性的质疑。

然而，技术细节的争议很快滑向商业博弈的泥潭。

盘古团队紧急发布技术白皮书，强调其MoE架构的专利布局；阿里则加速推进Qwen-3.0迭代，似乎在用版本升级对冲舆论风险。一位不愿具名的『芯片』『工程师』透露：“参数结构的趋同，本质上是算力军备竞赛下的技术妥协。”

开发者社区并不买账，用户 @HonestAGI 通过 “LLM 指纹” 技术反向验证，结果与原始研究高度吻合。技术趋同是否等同于抄袭？这一问题在开源社区引发激烈辩论。

支持华为的声音认为，大模型领域的技术重叠难以避免，关键在于优化和落地。昇腾生态的拥趸特别指出，盘古的动态专家网络设计解决了分布式训练『负载均衡』的难题，是实打实的创新。

但反对者，反对者翻出匿名爆料，称部分盘古模型存在“洗水印”嫌弃——即对开源模型进行微调后重新包装。尽管爆料未提供具体证据，但阿里『通义千问』的开源协议中明确要求衍生模型需标注来源，这一细节让争议更加扑朔迷离。

从技术角度看，参数结构的相似性可能源于训练数据的重叠或优化目标的趋同。但问题的核心在于，当两家巨头在公开场合强调“自主创新”时，这种高度一致性是否违背了开源协议的精神？

华为盘古团队的回应中，一个细节值得玩味：他们提到“参考了业界开源实践”，但未具体说明哪些实践。这种模糊表述让外界难以判断其行为的边界。而阿里的沉默，则被解读为一种战术性回避，避免卷入公开论战。

一位长期观察AI行业的分析师表示：“参数之争的背后，是国产大模型在高速发展中的身份焦虑——既要追赶国际巨头，又要在本土竞争中脱颖而出。”这种焦虑，或许正是技术迷局的真正底色。

微调红利与创新困局

华为与阿里的纠纷并非孤立事件，就在上个月，月之暗面与阿里就曾陷入类似的纠纷。

就在外界认为月之暗面要在国产大模型内卷中掉队之时，其推出的Kimi-Dev-72B在SWE-bench测试中一骑绝尘。

该模型通过1500亿专项数据和数百万GitHub工单优化，将代码任务准确率提升至60.4%。在当时，它刷新了开源模型的纪录，将包括『DeepSeek』在内的众多竞争对手甩在了身后。

不过好景不长，开发者们很快发现，Kimi-Dev-72B明确标注了其基础模型为Qwen/Qwen2.5-72B，随后，开发者社区的分歧迅速蔓延：有人将其视为“站在巨人肩膀上”的微调典范，也有人质疑这是披着开源外衣的“技术组装”。

微调本是行业常态，但标注的透明性未能消弭质疑。月之暗面官方解释，他们以Qwen 2.5-72B为起点，收集了数百万个GitHub问题单和PR提交作为中期训练数据集，其核心创新点在于采用了大规模强化学习技术。

争议的核心并非技术本身，而是创新的边界。Kimi-Dev-72B的表现确实亮眼，但它的成功是否依赖于基座模型的原始能力？有匿名开发者尖锐指出：“如果微调就能达到顶尖水平，原创的价值在哪里？”

开源生态的规则正在被重新定义。阿里通过协议更新试图维护技术主权，而月之暗面则用性能说话，试图证明微调并非简单的“套壳”。市场反应两极分化：一部分企业开始效仿这种快速迭代的模式，另一部分则呼吁回归原创研发。

值得注意的是，Kimi-Dev-72B的优化框架确实有其独特性，它结合了BugFixer和TestWriter角色，通过强化学习精准提升代码修复和测试编写的效率。

但这种优化是否足以定义“创新”，仍是一个悬而未决的问题。可见，行业的焦虑感正在加剧，当微调成为捷径，原创研发的成本和风险是否会被边缘化？对此，一位风投机构合伙人给出解释：“资本更倾向于快速见效的项目，原创大模型的投入周期太长。”

失序的竞争

R1的辉煌已成往事，R2的难产却让市场陷入焦灼。『DeepSeek』曾以低成本、高性能对标OpenAI，一度成为全球开源推理类模型的标杆。

截图来源于『DeepSeek』官网

传闻在今年4月发布的R2，时至今日也未能问世，仅仅在5月末推出了一个R1的改款。

至少从6月以来的两起“套壳”事件来看，改款的R1模型难以承担定义行业标准的重任。

有媒体爆料称，因公司创始人梁文锋对性能的极致追求和H20『芯片』短缺被迫延期，根据爆料的内部文件显示，其1.2万亿参数的MoE设计对标GPT-4Turbo，但训练成本控制成为致命瓶颈。

技术瓶颈之外，行业正面临更严峻的信任危机。R1曾以纯强化学习训练打破技术范式，而R2的缺席让华为、阿里有望抢占生态位，有风投机构对源Byte表示：“当所有人都忙着给模型‘镀金’，真正的创新反而成了『奢侈品』。”

『DeepSeek』如今已经成为了国产大模型的代名词，其R1模型具备定义行业标准的意义，但长达半年多的技术缺位、R2接连跳票后，难免有人想取而代之。“对于一线『互联网』大厂来说，能够定义行业标准、引领行业前进方向，才是他们最为看重的。”上述风投机构坦言。

简单点理解，就是『DeepSeek』 R2的跳票，或变相造成了国产大模型的竞争失焦。

华为和阿里在R2真空期内动作频频，华为盘古ProMoE的争议尚未平息，阿里已悄然推进Qwen-3.0的迭代。两家巨头的技术路径虽有差异，但核心逻辑仍是参数与性能的堆砌，难怪不少匿名开发者都在调侃：“大家都在玩‘谁的数字更大’，没人关心技术是否真的进步。”

据部分开发者向源Byte爆料称，部分国产智能体专注“出海”，而非针对国内市场开发，除了国内市场尚未形成付费习惯，还有相当一部分的原因是，国产大模型仅仅在参数上追平或赶超海外模型，但在具体的开发细节上，仍存在一定差距，直接导致开发成本的飙升。

与此同时，『芯片』短缺加剧了这场混乱。『英伟达』H20的供应紧张，让依赖高端硬件的企业陷入被动。『DeepSeek』的延迟或许只是开始，更多中小厂商可能因资源不足被迫退出竞争。

即便如此，市场对R2的期待仍未消退。传闻称其混合专家架构（MoE）将成本大大降低，但具体表现仍是未知数。若R2能如期突破，或许能重新点燃行业的信心；若继续延迟，国产大模型的竞争格局或将改写。

耐人寻味的是，这场延迟反而让市场看清了行业的真实状态，技术路径趋同、创新乏力、资源垄断——这些问题在R2的缺席中被放大。一位从业者无奈表示：“我们需要的不是另一个参数怪兽，而是能真正解决问题的工具。”

部分图片来源于网络，如有侵权请告知删除

改款『DeepSeek』，乱了华为心态

猜你喜欢

福星不是天降好运，是那个雨夜，有人为你多开了一公里(天降福星电视剧)

因祸得福！『鹿晗』解决困扰回归《五哈6》(『鹿晗』临危受命)

章泽天父母离婚内幕曝光！九几年爸爸赚了钱，再婚后生了妹妹(章泽天爸妈离婚了吗)

62%的水瓶变冷漠，受过情伤后竟会这样，为什么他们越爱越慢热？(水瓶冷静下来就真的冷了)

2月6日追剧日历：《成何体统》《被隐匿的真相》今日开播(2025年2月追剧日历)

改款『DeepSeek』，乱了华为心态

猜你喜欢

福星不是天降好运，是那个雨夜，有人为你多开了一公里(天降福星 电视剧)

因祸得福！『鹿晗』解决困扰回归《五哈6》(『鹿晗』临危受命)

章泽天父母离婚内幕曝光！九几年爸爸赚了钱，再婚后生了妹妹(章泽天爸妈离婚了吗)

62%的水瓶变冷漠，受过情伤后竟会这样，为什么他们越爱越慢热？(水瓶冷静下来就真的冷了)

2月6日追剧日历：《成何体统》《被隐匿的真相》今日开播(2025年2月追剧日历)

分享

添加书签

福星不是天降好运，是那个雨夜，有人为你多开了一公里(天降福星电视剧)