智东西
作者 | 陈骏达
编辑 | 漠影
智东西1月30日报道,春节期间吸引全球关注的『DeepSeek』热度丝毫不减。截至今天上午,『DeepSeek』-R1已经冲至开源平台Hugging Face最受欢迎模型榜单的第5名,离第4名Llama-3-8B的差距还在持续缩小。
▲Hugging Face最受欢迎模型榜单
『DeepSeek』的『服务器』似乎也因这场爆火而承受了巨大的压力。在高峰期,与『DeepSeek』对话需要等待5秒到20秒不等,而联网搜索服务更是长期处于繁忙状态,基本无法使用;面向开发者和企业的『DeepSeek』开放平台也处于无法访问的状态。
▲『DeepSeek』联网搜索功能和开放平台目前均无法使用
这让人不由得联想起2022年底、2023年初,ChatGPT刚刚爆火出圈时,似乎也是同样的情景。
然而,『DeepSeek』也逃不过树大招风的命运,科技圈大佬对其态度已一时间分裂为多个派别,各持己见。
就在刚刚,Meta CEO马克·扎克伯格在财报电话会中首次对『DeepSeek』近期的爆火做出回应,他称Meta对『DeepSeek』并不感到担忧,反而增强了他们对开源路径的信心。
此外,扎克伯格称『DeepSeek』一家的成就并不能证明大算力的时代就过去了,“我持续认为大量的资本支出和基础设施建设能带来长远的战略优势”。
而微软CEO Satya Nadella在微软半年财报电话会中称,『DeepSeek』的产品确有创新,基本上顺应了AI成本下降的大趋势。
昨晚,Anthropic创始人兼CEO Dario Amodei发布万字长文评价『DeepSeek』的种种成就,并呼吁美国政府继续维持『芯片』管制,将H20这样的中国特供版『芯片』也纳入限制范围,最终打造以美国为主导的单极世界。
Amodei称,『DeepSeek』的模型与美国前沿模型的差距有7-10个月,实际训练价格可能也没有号称的那么低。他还不惜自曝Claude 3.5 Sonnet模型的训练成本为“数千万美元💵”,以佐证『DeepSeek』的成本优势并不显著。
而也有部分AI圈名人发声力挺『DeepSeek』,如Meta首席科学家杨立昆、Hugging Face CEO Clem Delangue等。广大国际网友也不断用实际行动投票,开发出大量基于R1的衍生模型,丰富开源项目。
▲杨立昆发文称『DeepSeek』证明了开源路径的正确性(图源:Linkedin)
此外,今天凌晨,OpenAI宣布他们掌握了『DeepSeek』使用其模型进行违规蒸馏的所谓“证据”,已停用『DeepSeek』的OpenAI API账号,但拒绝透露更多实质性信息;美国政府传出将对H20『芯片』施加限制,爱尔兰、意大利等国针对『DeepSeek』的数据安全问题提起质询,『DeepSeek』 App已在意大利国内的应用市场全面下架。
一场针对『DeepSeek』的“猎巫行动”,似乎已在全球范围内悄然发酵……
一、OpenAI、微软展开联合调查,已取消API接口权限
据彭博社报道,知情人士透露,近期OpenAI与微软展开了一项联合调查,针对『DeepSeek』去年使用OpenAI API接口的账户进行审查,并以涉嫌违反服务条款的模型蒸馏为由,取消了他们的访问权限。
OpenAI向英国《金融时报》进一步分享,他们看到了一些“蒸馏”的证据,并怀疑这一行为背后便是『DeepSeek』。
虽然蒸馏是AI行业的常见做法,但OpenAI在服务条款中规定,用户不得“复制”其服务,也不得使用输出内容来开发竞品。
OpenAI拒绝向《金融时报》提供更多实质性的信息,而微软与『DeepSeek』尚未对此事作出回应。
这一消息曝光后,有不少网友发现了其中的矛盾所在。一位黑客新闻论坛上的网友称,无论此事是真还是假,都不能改变OpenAI被『DeepSeek』击败的事实——OpenAI拥有对其旗下模型更好的访问权限,他们理应能更容易地实现『DeepSeek』现有的成就。
还有一位网友认为,这一事件对维持OpenAI的高估值毫无益处,即便真的坐实,投资者也会意识到,仅仅花上几百万美元💵,就能复刻出OpenAI耗资成千上万亿美元💵才能取得的成就。
二、Anthropic CEO发文评价『DeepSeek』,希望用『芯片』管制打造单极世界
在OpenAI CEO Sam Altman前日发推回应『DeepSeek』的热度后,闭关数月近期才开始重新露面的Anthropic CEO Amodei也迅速在个人博客发布了一篇长文,他的核心观点是:
『DeepSeek』虽然取得了接近美国前沿AI模型的成就,但这并不意味着美国对中国『芯片』出口管制不再有必要,反而是变得愈发重要。
为论证这一观点,Amodei先用大量篇幅讨论了AI发展的三个动因:扩展定律、技术创新和范式转变。
他认为,AI系统的性能与训练成本成正比,新的创新和效率提升可以改变成本曲线,而 AI 领域每隔一段时间就会出现新的训练范式。『DeepSeek』-R1验证了大规模强化学习的潜力,是一种新的范式转变,因此也在短期内取得了巨大的成就。
至于『DeepSeek』-V3,Amodei称他们内部很早就已经关注到了,并提出几点他自己的论断:
1、『DeepSeek』-V3的创新并没有像一些报道中所称的那样,以极低成本超越美国AI公司的模型。以Claude 3.5 Sonnet为例,这款模型的训练成本为几千万美元💵,并且不依靠其他模型。
Sonnet的训练大致是在9个月到12个月之前进行的,而『DeepSeek』-V3是在去年11月-12月完成训练的,Sonnet在多项关键指标上仍然明显领先,这意味着『DeepSeek』实际上是以更低的价格,创造了一个美国7-10个月之前就已经训练出的模型。
2、『DeepSeek』-V3的成本优势并不是一个独特的突破,也没有从根本上改变大模型领域的经济帐。『DeepSeek』的成本下降基本符合整体趋势,下降幅度甚至低于初代GPT-4到初代Claude 3.5 Sonnet之间10倍的成本下降。
3、『DeepSeek』拥有至少5万块『英伟达』Hopper架构的『芯片』,包括H100、H800和H20,这些『芯片』的成本至少有10亿美元💵。因此,『DeepSeek』公司的总支出与美国的AI实验室并没有太大差异。
最终,Amodei呼吁美国政府应加强『芯片』管制。他认为目前包括H20在内的『芯片』都应该被纳入监管范围,虽然其训练效率较低,但在采样上的效率较高。如果美国能进一步堵上这些出口“漏洞”,阻止中国获得大量『芯片』,就更有可能打造出美国领先的单极世界。
三、多个欧洲国家就数据安全提出质询,『DeepSeek』在意大利惨遭下架
除了来自竞争对手的指控之外,『DeepSeek』也已成为不少监管部门的重点关注对象。
据TechCrunch报道,爱尔兰数据保护委员会已经向『DeepSeek』发出信函,要求其提供有关如何处理爱尔兰公民数据的详细信息。
意大利数据保护机构也采取了类似措施,他们认为『DeepSeek』对意大利数百万人数据造成风险,『DeepSeek』需要在20天时间里作出回应。
目前,『DeepSeek』应用已经在意大利下架,意大利的谷歌商店和苹果App Store都已没有这款App的踪迹。
欧洲消费者组织还认为,『DeepSeek』在保护和限制未成年人方面的做法还不够健全,从年龄验证到未成年人数据处理都没有明确的强制执行方案。
结语:『DeepSeek』有望走出一条独特的发展道路
『DeepSeek』这股神秘的东方开源力量,以多款模型的现象级爆火,将以OpenAI、Anthropic为代表的闭源模型打了个措手不及,俨然成为开闭源路径之争的牌桌上一位有力的玩家。
不过,这也将『DeepSeek』一时间推到了风口浪尖,收获声量与赞誉的同时,成为不少争议的焦点。在未来中美AI竞争的大背景之下,『DeepSeek』或将代表中国AI,走出一条独特的发展道路。
春节期间『DeepSeek』掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。




