梁文锋，准备战斗(梁文冲个人资料) #科技 #梁文锋 #推理 #架构 #『DeepSeek』 #参数

今日霍州(www.jrhz.info)©️

摘要：

下一个引领浪潮的人是谁？或许连『DeepSeek』与梁文锋，都在等待下一个强如o1的对手。

凤凰网科技出品

作者｜Dale 姜凡

编辑｜董雨晴

7月底的上海，疲劳与抓狂并存。疲惫在于一场声势浩大的国际性盛会刚在这里落幕。这是WAIC（世界人工智能大会）举办以来规模最大的一次，不仅参展商数量暴涨了60%。连从未现身中国的AI教父辛顿也惊喜闪现，会场门票直接炒到了“单日千元”。抓狂则在于，人人都想拿出看家本领，试图复刻下一个“炸裂”时刻。

今日霍州(www.jrhz.info)©️

参展到半程，有大模型企业半夜还在调试模型参数，“深夜突然决定发布，第二天全班人马拉足火力”，有现场的参展企业向凤凰网科技透露，和往年不同，今年WAIC吸引了不少外国的观众，其中包括外媒这样的专业观众，这是中国大模型企业难得有机会最近距离复刻『DeepSeek』效应的时候。

今日霍州(www.jrhz.info)©️

但过分追求结果的人们往往会忽略一个真相，技术可以复制，颠覆太难模仿。想重走『DeepSeek』之路，一切没那么简单。

重走『DeepSeek』之路

就在外界用误读的方式唱衰『DeepSeek』之际，又一个『DeepSeek』时刻最先从海外爆出。

7月中旬，英国《自然》杂志网站发表文章称，中国人工智能（AI）模型Kimi K2发布后引发轰动，世界迎来“又一个『DeepSeek』时刻”。

今日霍州(www.jrhz.info)©️

Kimi在7月11日正式发布K2模型，其采用了一套经过精心优化的万亿参数混合专家架构，总参数量达到1.04万亿，但激活参数仅为320亿。很快人们就发现，K2采用了和『DeepSeek』-V3相似的架构，即多头注意力的头数更少，MoE的专家数更多，因此可以在提高上下文效率的同时提升token使用的效率。“Kimi K2基本上是『DeepSeek』 V3，但拥有更少的头脑和更多的专家。”有从业者如此表述。

今日霍州(www.jrhz.info)©️

架构相似，也走开源路线。Kimi的一位内部员工后来也很坦诚的表示，“在启动K2训练之前，我们进行了大量模型结构相关的scaling实验，结果是，所有当时propose的、与DSv3不同的结构，没有一个能真正打败他的（顶多旗鼓相当）。因此，问题就变成了，我们要不要为了与『DeepSeek』不同，强行选择一个没有优势但不一样的结构，最终的答案是no。”。所以Kimi只做了一件创新，就是在同样的架构里，把参数拉到爆表。考虑到Kimi仍旧是一家创业公司，没有无限子弹，而目前大家能看到的K2实现的结果，已经是Kimi所能承受的算力上限。

尽管K2没有到大爆的程度，但其在海外的确在短时间内吸纳了极大的关注度。7月中旬，据OpenRouter公布的数据，Kimi K2调用量与马斯克刚发布的Grok4登上增长榜前两名，日调用量超过 100 亿 token，而Kimi K2的API价格仅为Claude Sonnet的五分之一。

这也就有了前文开头的一幕，海外媒体报道，又一个『DeepSeek』时刻涌现。

紧接着在7月28日凌晨，智谱带来了其自身迄今为止最大参数的开源模型GLM-4.5，虽然彭博在援引知情人士表述时写的是“该公司正试图在全球范围内挑战OpenAI”，但一样走开源路线，一样希望在海外引爆的思路，实际上也是在重走『DeepSeek』之路。

今日霍州(www.jrhz.info)©️

更早之前，无论是Kimi、阶跃星辰还是MiniMax，都重提坚持基础模型研发。这与梁文锋追求AGI的理念如出一辙。

下一个o1也很重要

AI行业从业者“AI Dance”形容当前的AI发展是“草灰蛇线，伏脉千里”，“如OpenAI在探索出RL（强化学习）范式后（指发布o1），又被『DeepSeek』 R1揭示秘密，所有从业者一拥而上”。而如今的coding Agent（编码智能体）与大参数的MoE模型，则全部在『DeepSeek』-V3的架构之上，可以说，当前这一轮风潮皆是因为『DeepSeek』。

正如另一位Kimi员工所言，“K2还是先狠狠地致敬『DeepSeek』了，而不是刻意标新立异，更多的想法和创意，我们把它们做得更扎实之后，在K3、K4再见了。”

今日霍州(www.jrhz.info)©️

然而下一个引领浪潮的人是谁？当前仍未有答案。或许甚至连『DeepSeek』与梁文锋，都在等待下一个强如o1的对手。

此前有消息称，GPT-5将于2025年8月发布。作为GPT-4的迭代升级，这不仅是简单的版本更新，更是一次全方位的技术跃迁，将从推理能力、多模态交互、智能代理到开放生态等多个维度重新定义AI的可能性。

目前，OpenAI的GPT系列与o3推理引擎处于分立状态，用户需根据不同任务手动切换模型。而GPT-5将彻底打破这一界限，首次实现语言生成、逻辑推理、数学计算、多步规划等功能的深度融合，构建真正的“统一智能”系统。

GPT-5无需手动切换模式，能智能判断任务需求，在需要深度推理的复杂场景（如代码调试、数学证明、商业决策）与快速响应的简单场景间自动切换。在复杂任务处理上表现应该会有很大一部分提升，尤其在代码优化、数学推导、战略决策等领域。

OpenAI CEO山姆·奥特曼则在X上透露：“早上，我正在测试我们最新的大模型，输入了一个我自己都不太理解的问题，它却给出了完美的回答。’”

外部用户也陆续捕捉到GPT-5的早期迹象。网友Yacine在『社交平台』表示，自己刚试用了一款AI公司的大模型，体验“震撼到难以置信”，并断言“没有人能预料即将到来的风暴”。

更有用户反馈，在使用OpenAI模型时被“灰度”到一个全新AI：无需提示，该模型可连续思考3分钟，并同步进行大量搜索操作。当用户选择“4o”模型时，ChatGPT直接进入思考状态，这一现象引发猜测——OpenAI是否已在悄然过渡至GPT-5？

GPT-5的发布，会不会成为下一轮国产模型的引爆点也尚未得知。回想o1发布之际，全球陷入算力内卷，『DeepSeek』以算法革命对冲硬件依赖。许多大模型在预训练阶段几乎都选择了不计成本地投入，而『DeepSeek』选择剑走偏锋，把重点放在了上岗之后的强化学习。用反复高强度地训练，倒逼自身不断地调整姿势，理解逻辑，自我反思，直到结果令人满意。

『DeepSeek』改变了什么？

在正式发布R1之前，『DeepSeek』一直在圈内有着不错的口碑，“业内很早之前就比较看好『DeepSeek』，甚至最早的价格战就起源于『DeepSeek』”，一位算法『工程师』告诉凤凰网科技。但在大众层面上，『DeepSeek』一直没有感知。因为没有融资需求，『DeepSeek』也鲜少对接投资机构，甚至没有设置专门的公共沟通部门。

到今天，梁文锋依旧几乎不在公开场合露面。只存在于一些CEO的讲述中，比如rokid创始人祝铭明会在不经意间提起梁文锋在他家聚餐，罗永浩也在近期的一次公开活动中谈到其在今年春节前与梁文锋的会面，“我们在酒店大堂见面时，他从远处走来，就像一个在读学生。或许因为年纪稍长，感觉像个硕士或博士。”