『DeepSeek』重大更新,加“料”不加价,输出价格降低75%(deep1)

左手职场.右手AI

有故事.有方法.有工具

2025年9月30日

2025年第219篇,总第980篇原创文章

全文1838字,阅读时间约6分钟

大家好,我是山哥!一个深耕采购供应链领域20多年的老司机,曾在GE、维谛技术、当纳利、药明康德、信达生物等全球知名企业担任高管,曾实操若干采购供应链降本增效项目(累计降本数十亿),深谙企业战略和管理、组织发展和领导力提升。目前all in “AI+行业/领域应用”,人社部AIGC教材副主编,微博认证“AI专家”,沃顿商学院校友,社科院AI经济学博士在读。

昨天傍晚,『DeepSeek』又升级了!要知道,它刚刚在7天前的9月22日将『DeepSeek』 V3.1升级到D

这次升级(『DeepSeek』-V3.2-Exp),版本直接”跳到了“V3.2,同时也有一个后缀“Exp”。这意味着它不算是常规迭代,而是基于前一代V3.1-Terminus架构的最新实验模型。

在AI开发中,这意味着它像个大胆的探险家,带着新鲜想法冲向未知领域。不同于那些打磨得光鲜的稳定版,Exp版往往是实验室里的半成品,专为测试前沿技术而生。它允许开发者提前尝鲜,验证新机制在真实场景下的表现,同时收集海量反馈,为后续正式版铺路。

『DeepSeek』这次玩得更大胆,直接把模型权重、GPU内核和相关论文全开源了,扔到Hugging Face和ModelScope上,任由全球码农们拆解。

为什么叫“实验性”?因为它不求完美,只求突破。想想那些长夜苦战的程序员,终于能用上更快的长文本处理工具,而不用担心模型崩盘。这不只是技术升级,更是『DeepSeek』对AI民主化的又一次承诺——让尖端工具从象牙塔里走出来,落到普通人手里。

本次升级有两大变化:一个是听起来高大上的『DeepSeek』 Sparse Attention(简称DSA,稀疏注意力机制),另一个则是API价格的惊人下调。前者像个聪明管家,专治长文本处理的“内存杀手”问题;后者则直击痛点,让高性能AI从『奢侈品』变成日常必需。

咱们先聊聊稀疏注意力机制。它是『DeepSeek』团队针对Transformer模型的注意力计算痛点,量身定制的优化方案。传统注意力机制好是好,每对token都要算一遍亲密度,导致长序列一拉长,计算量就爆炸式增长。内存吃紧,速度龟爬,训练成本直线上升。

DSA呢?它聪明地引入细粒度稀疏化:每个注意力头只关注一小撮关键token,外加几个全局锚点,跳过那些无关紧要的成对计算。结果是训练和推理效率蹭蹭上涨,尤其在长上下文场景下。『DeepSeek』的测试显示,在对齐V3.1-Terminus的训练设置下,DSA几乎不牺牲输出质量,却把计算开销砍掉大半。

拿基准来说,MMLU-Pro分数稳稳的85.0,BrowseComp小幅升到40.1,Codeforces Div1也从2046爬到2121。(参数的意义请参考这篇文章:)

这对谁最有意义?开发者们肯定先叫好。想象一下,你在搞RAG系统,文档堆成山,上下文拉到几万token,过去一跑就卡,现在DSA让它流畅如丝。研究者也能松口气,长序列实验不再是烧钱游戏。

企业用户呢?那些依赖AI分析海量报告的团队,成本直降,效率翻倍。『DeepSeek』自己也说,这是个探索性验证,旨在为下一代架构铺路。 更接地气地说,它戳中了大众的痛点:AI本该聪明省力,为什么总让我们为硬件哭穷?DSA像个贴心解药,让长文本从负担变成利器。

再看API价格下调,这才是真炸裂。『DeepSeek』没含糊,直接宣布50%以上的降幅,即刻生效。输出token的价格,从原来的12元直接降到3元,足足砍了75%。 输入端也跟着亲民:缓存命中时从0.5元降到0.2元,60%优惠;缓存未命中从4元到2元,50%掉价。

为什么这么狠?因为DSA的效率提升,直接传导到成本链条。重复前缀的聊天或RAG提示,现在用缓存命中价,积少成多,省得让人心疼。为直观对比,我整理了张表格,数据取自『DeepSeek』官方公告。

这表格一摆,谁不心动?过去,高端模型API像贵族俱乐部,动辄几毛钱一token,小团队望而却步。现在呢?输出3块钱,还赶不上一杯咖啡钱,就能生成海量代码或报告。实际意义巨大:开发者能多试几次迭代,不再为预算纠结;初创公司用上顶级AI,产品上线更快;甚至普通用户,在App或Web端聊天,隐形省钱。『DeepSeek』还贴心地留着V3.1-Terminus到10月15日,供大家侧边对比。 网友们炸锅了。

X上,Kevin Xu直呼“,输出成本0.42美元💵/百万token,太香了!”

Arjun Kocher发帖感慨:“这稀疏注意力是工程驱动的进步,推动成本前沿向下挪。”

OpenRouter团队兴奋宣布模型已上线:“基准与V3.1平齐,效率却爆表。”

EdDiboi补充:“685B参数,性能对标前版,API halved,值!”

甚至有日本用户Maki喊道:“这是成本革命,开发者天堂!”

这些声音,透着惊喜和解脱。谁不想AI更平价?谁不盼着工具随手可得?『DeepSeek』这波操作,不只降价,更是拉近了人与智能的距离。过去,AI像遥远的星辰;现在,它落入掌心,温暖而实惠。

『DeepSeek』 V3.2-Exp作为一个实验性版本,其发布不仅带来了即时的性能提升和成本下降,更让业界对『DeepSeek』下一步的技术演进充满期待。

从技术路线来看,稀疏注意力机制的成功验证为V4版本的架构革新奠定了基础。V3.2-Exp已经证明,通过精巧的算法设计,完全可以在不牺牲性能的前提下大幅提升模型效率。

特别声明:[『DeepSeek』重大更新,加“料”不加价,输出价格降低75%(deep1)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

印奇挂帅阶跃星辰:大模型「季后赛」进入物理世界

早在 2023 年成立之初,阶跃就确定了语言大模型与多模态大模型同步研发的并行战略。在手机终端上,阶跃被认为是最懂 AI 手机的大模型厂商。IDC 数据显示,2026 年中国市场 AI 手机渗透率将突破 5…

印奇挂帅阶跃星辰:大模型「季后赛」进入物理世界

吕良伟大摆筵席,庆祝70大寿,本人红色大褂太亮眼,众星到场祝寿(吕良伟节目视频)

12月22日,吕良伟迎来了自己的70岁大寿,但他并没有在那天举行庆祝活动,而是选择了在12月24日举行了生日宴会。为了庆祝自己70岁的生日,他在一家高级酒店举办了盛大的宴会,邀请了不少『娱乐圈』️的朋友和同行。如今…

吕良伟大摆筵席,庆祝70大寿,本人红色大褂太亮眼,众星到场祝寿(吕良伟节目视频)

定居上海的王玲,与大16岁高曙光相守,二婚日子活成顶配模样(定居在上海)

有一次,高曙光拍戏受伤,王玲立刻连夜飞过去照顾他,跑两地,医院和学校两头忙;当时还是朋友关系的王玲,还主动帮忙陪护他父亲,在上海治疗期间,王玲的体贴和付出深深打动了高曙光的父母,他们夸赞她靠谱。最近,有网友拍…

定居上海的王玲,与大16岁高曙光相守,二婚日子活成顶配模样(定居在上海)

开年大剧《太平年》,为什么大尺度开局后,却把视角放到吴越国?

为了体现这个民不聊生的时代,剧中给了一个细节,也是《太平年》这部电视剧上的首个热搜词汇——吃人! 同样,五代十国的混乱也不仅仅体现在吃人上,像剧中石敬瑭,即便身为皇帝,同样是令难出皇宫,很多事明知是在饮鸩止…

开年大剧《<strong>太平年</strong>》,为什么大尺度开局后,却把视角放到吴越国?

口腔溃疡三叉神经疼怎么办(口腔三叉神经一直肿痛)

口腔溃疡伴随三叉神经痛可以通过多种方式缓解,通常由黏膜损伤、维生素缺乏、感染刺激、神经压迫及免疫异常等因素引起。 三叉神经痛急性发作时,可以使用利多卡因凝胶等表面麻醉剂涂抹溃疡面,暂时阻断痛觉传导

口腔溃疡三叉神经疼怎么办(口腔三叉神经一直肿痛)