『DeepSeek』重大更新，加“料”不加价，输出价格降低75%(deep1) #科技 #成本 #注意力 #『DeepSeek』 #exp #团队

左手职场.右手AI

有故事.有方法.有工具

2025年9月30日

2025年第219篇，总第980篇原创文章

全文1838字，阅读时间约6分钟

大家好，我是山哥！一个深耕采购供应链领域20多年的老司机，曾在GE、维谛技术、当纳利、药明康德、信达生物等全球知名企业担任高管，曾实操若干采购供应链降本增效项目（累计降本数十亿），深谙企业战略和管理、组织发展和领导力提升。目前all in “AI+行业/领域应用”，人社部AIGC教材副主编，微博认证“AI专家”，沃顿商学院校友，社科院AI经济学博士在读。

昨天傍晚，『DeepSeek』又升级了！要知道，它刚刚在7天前的9月22日将『DeepSeek』 V3.1升级到D

这次升级（『DeepSeek』-V3.2-Exp），版本直接”跳到了“V3.2，同时也有一个后缀“Exp”。这意味着它不算是常规迭代，而是基于前一代V3.1-Terminus架构的最新实验模型。

在AI开发中，这意味着它像个大胆的探险家，带着新鲜想法冲向未知领域。不同于那些打磨得光鲜的稳定版，Exp版往往是实验室里的半成品，专为测试前沿技术而生。它允许开发者提前尝鲜，验证新机制在真实场景下的表现，同时收集海量反馈，为后续正式版铺路。

『DeepSeek』这次玩得更大胆，直接把模型权重、GPU内核和相关论文全开源了，扔到Hugging Face和ModelScope上，任由全球码农们拆解。

为什么叫“实验性”？因为它不求完美，只求突破。想想那些长夜苦战的程序员，终于能用上更快的长文本处理工具，而不用担心模型崩盘。这不只是技术升级，更是『DeepSeek』对AI民主化的又一次承诺——让尖端工具从象牙塔里走出来，落到普通人手里。

本次升级有两大变化：一个是听起来高大上的『DeepSeek』 Sparse Attention（简称DSA，稀疏注意力机制），另一个则是API价格的惊人下调。前者像个聪明管家，专治长文本处理的“内存杀手”问题；后者则直击痛点，让高性能AI从『奢侈品』变成日常必需。

咱们先聊聊稀疏注意力机制。它是『DeepSeek』团队针对Transformer模型的注意力计算痛点，量身定制的优化方案。传统注意力机制好是好，每对token都要算一遍亲密度，导致长序列一拉长，计算量就爆炸式增长。内存吃紧，速度龟爬，训练成本直线上升。

DSA呢？它聪明地引入细粒度稀疏化：每个注意力头只关注一小撮关键token，外加几个全局锚点，跳过那些无关紧要的成对计算。结果是训练和推理效率蹭蹭上涨，尤其在长上下文场景下。『DeepSeek』的测试显示，在对齐V3.1-Terminus的训练设置下，DSA几乎不牺牲输出质量，却把计算开销砍掉大半。

拿基准来说，MMLU-Pro分数稳稳的85.0，BrowseComp小幅升到40.1，Codeforces Div1也从2046爬到2121。（参数的意义请参考这篇文章：）

这对谁最有意义？开发者们肯定先叫好。想象一下，你在搞RAG系统，文档堆成山，上下文拉到几万token，过去一跑就卡，现在DSA让它流畅如丝。研究者也能松口气，长序列实验不再是烧钱游戏。

企业用户呢？那些依赖AI分析海量报告的团队，成本直降，效率翻倍。『DeepSeek』自己也说，这是个探索性验证，旨在为下一代架构铺路。更接地气地说，它戳中了大众的痛点：AI本该聪明省力，为什么总让我们为硬件哭穷？DSA像个贴心解药，让长文本从负担变成利器。

再看API价格下调，这才是真炸裂。『DeepSeek』没含糊，直接宣布50%以上的降幅，即刻生效。输出token的价格，从原来的12元直接降到3元，足足砍了75%。输入端也跟着亲民：缓存命中时从0.5元降到0.2元，60%优惠；缓存未命中从4元到2元，50%掉价。

为什么这么狠？因为DSA的效率提升，直接传导到成本链条。重复前缀的聊天或RAG提示，现在用缓存命中价，积少成多，省得让人心疼。为直观对比，我整理了张表格，数据取自『DeepSeek』官方公告。

这表格一摆，谁不心动？过去，高端模型API像贵族俱乐部，动辄几毛钱一token，小团队望而却步。现在呢？输出3块钱，还赶不上一杯咖啡钱，就能生成海量代码或报告。实际意义巨大：开发者能多试几次迭代，不再为预算纠结；初创公司用上顶级AI，产品上线更快；甚至普通用户，在App或Web端聊天，隐形省钱。『DeepSeek』还贴心地留着V3.1-Terminus到10月15日，供大家侧边对比。网友们炸锅了。

X上，Kevin Xu直呼“，输出成本0.42美元💵/百万token，太香了！”

Arjun Kocher发帖感慨：“这稀疏注意力是工程驱动的进步，推动成本前沿向下挪。”

OpenRouter团队兴奋宣布模型已上线：“基准与V3.1平齐，效率却爆表。”

EdDiboi补充：“685B参数，性能对标前版，API halved，值！”

甚至有日本用户Maki喊道：“这是成本革命，开发者天堂！”

这些声音，透着惊喜和解脱。谁不想AI更平价？谁不盼着工具随手可得？『DeepSeek』这波操作，不只降价，更是拉近了人与智能的距离。过去，AI像遥远的星辰；现在，它落入掌心，温暖而实惠。

『DeepSeek』 V3.2-Exp作为一个实验性版本，其发布不仅带来了即时的性能提升和成本下降，更让业界对『DeepSeek』下一步的技术演进充满期待。

从技术路线来看，稀疏注意力机制的成功验证为V4版本的架构革新奠定了基础。V3.2-Exp已经证明，通过精巧的算法设计，完全可以在不牺牲性能的前提下大幅提升模型效率。

『DeepSeek』重大更新，加“料”不加价，输出价格降低75%(deep1)

猜你喜欢

印奇挂帅阶跃星辰：大模型「季后赛」进入物理世界

吕良伟大摆筵席，庆祝70大寿，本人红色大褂太亮眼，众星到场祝寿(吕良伟节目视频)

定居上海的王玲，与大16岁高曙光相守，二婚日子活成顶配模样(定居在上海)

开年大剧《太平年》，为什么大尺度开局后，却把视角放到吴越国？

口腔溃疡三叉神经疼怎么办(口腔三叉神经一直肿痛)