『DeepSeek』开源通用矩阵乘法库,300行代码加速V3、R1,R2五月前问世

机器之心报道

机器之心编辑部

适用于常规 AI 模型和 MoE。

『DeepSeek』 的开源周已经进行到了第三天(前两天报道见文末「相关阅读」)。今天开源的项目名叫 DeepGEMM,是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供了支持,在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

今日霍州(www.jrhz.info)©️

具体来说,DeepGEMM 是一个旨在实现简洁高效的 FP8 通用矩阵乘法(GEMM)的库,它采用了 『DeepSeek』-V3 中提出的细粒度 scaling 技术。该库支持普通 GEMM 以及专家混合(MoE)分组 GEMM。该库采用 CUDA 编写,在安装过程中无需编译,而是通过一个轻量级的 Just-In-Time(JIT)模块在运行时编译所有内核。

目前,DeepGEMM 仅支持『英伟达』 Hopper 张量核心。为了解决 FP8 张量核心累加不精确的问题,它采用了 CUDA 核心的两级累加(提升)机制。尽管它借鉴了 CUTLASS 和 CuTe 的一些概念,但避免了对其模板或代数的重度依赖。相反,该库的设计注重简洁性,仅包含一个核心内核函数,代码量仅为 300 行。这使其成为学习 Hopper FP8 矩阵乘法和优化技术的一个简洁且易于获取的资源。

尽管设计轻量,DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。

今日霍州(www.jrhz.info)©️

开源地址:https://github.com/deepseek-ai/DeepGEMM

早期试用者评价说,「DeepGEMM 听起来就像是数学界的超级英雄。它比高速计算器还快,比多项式方程还强大。我试着用了一下,现在我的 GPU 都在炫耀它的 1350+ TFLOPS,仿佛已经准备好参加 AI 奥赛了!」

今日霍州(www.jrhz.info)©️

这个计算性能如果加上高质量的数据,没准儿能贡献更大的惊喜?

今日霍州(www.jrhz.info)©️

除了性能,「300 行代码的性能超越了专家调优的内核」同样让不少人感到惊讶,有人认为「要么 『DeepSeek』 破解了 GPU 矩阵的奥秘,要么我们刚刚见证了最高等级的编译器魔法。」

今日霍州(www.jrhz.info)©️

看来,『DeepSeek』 团队里有一批掌握编译器神秘技巧的顶级 GPU 『工程师』。

今日霍州(www.jrhz.info)©️

还有人评价说,「DeepGEMM 正在改变我们使用 FP8 GEMM 库的方式,它简洁、快速且开源。这正是 AI 计算的未来。」

在项目的贡献者列表中,有人发现了一个姓 Liang 的『工程师』,难道是 『DeepSeek』 创始人梁文锋(真实性有待考证)?

今日霍州(www.jrhz.info)©️

性能

『DeepSeek』 在 H800 上使用 NVCC 12.8 测试了 『DeepSeek』-V3/R1 推理中可能使用的所有形状(包括预填充和解码,但不包括张量并行),最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

但根据项目介绍,DeepGEMM 在某些形状上表现不佳。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

快速启动

首先需要这些配置

  • Hopper 架构的 GPU,必须支持 sm_90a;
  • Python 3.8 或更高版本;
  • CUDA 12.3 或更高版本,但为了获得最佳性能,『DeepSeek』 强烈推荐使用 12.8 或更高版本;
  • PyTorch 2.1 或更高版本;
  • CUTLASS 3.6 或更高版本(可通过 Git 子模块克隆)。

配置完成后,就是部署:

# Submodule must be cloned

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories

python setup.py develop

# Test JIT compilation

python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)

python tests/test_core.py

然后是安装:

python setup.py install

最后在你的 Python 项目中导入 deep_gem,就可以使用了。

更多信息请参见 GitHub 开源库。

路透社:『DeepSeek』 R2 大模型又提前了,5 月之前发布

就在 『DeepSeek』 紧锣密鼓地开源的同时,人们也在四处探寻该公司下一代大模型的信息。昨天晚上,路透社突然爆料说 『DeepSeek』 可能会在 5 月之前发布下一代 R2 模型,引发了关注。

今日霍州(www.jrhz.info)©️

据多位知情人士透露,『DeepSeek』 正在加速推出 R1 强推理大模型的后续版本。其中有两人表示,『DeepSeek』 原本计划在 5 月初发布 R2,但现在希望尽早发布。『DeepSeek』 希望新模型拥有更强大的代码生成能力,并能够推理除英语以外的语言。

可见在 Grok 3、Claude 3.7、Qwen 2.5-Max 等竞品面世之后,『DeepSeek』 又加快了技术演进的步伐。

值得一提的是,媒体也介绍了该公司的一些情况。『DeepSeek』 在北京开设的办公室距离清华、北大很近(步行可至)。据两名前员工称,梁文锋经常会与『工程师』们深入研究技术细节,并乐于与实习生、应届毕业生一起工作。他们还描述了通常在协作氛围中每天工作八小时的情况。

据三位了解 『DeepSeek』 薪酬情况的人士称,这幻方量化与 『DeepSeek』 都以薪酬丰厚而闻名。有人表示在幻方的高级数据科学家年薪 150 万元人民币并不罕见,而竞争对手的薪酬很少超过 80 万元。

幻方是 AI 交易的早期先驱,一位该公司高管早在 2025 年表示将「All in」人工智能,将公司 70% 的收入投资于人工智能研究。该公司在 2025 年和 2025 年斥资 12 亿元人民币建设了两个超级计算 AI 集群。第二个集群 Fire-Flyer II 由约一万块『英伟达』 A100 『芯片』组成,主要用于训练 AI 模型。

在 『DeepSeek』 V3、R1 模型推出之后,全世界对于 AI 技术的期待已经进入了高点。科技公司都在消化 『DeepSeek』 提出的新技术,修正发展方向,消费者们则纷纷开始尝试各类生成式 AI 应用。

或许下一次 『DeepSeek』 的发布,会是 AI 行业的又一次关键时刻。

特别声明:[『DeepSeek』开源通用矩阵乘法库,300行代码加速V3、R1,R2五月前问世] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2026 蓝牙耳机市场全景解析:从传统声学到AI音频的进化(2022年蓝牙耳机)

作为一个创立于2015年的科技AI音频品牌,塞那在2024年便已获得“全球耳夹耳机销量第一”的沙利文认证,其核心逻辑在于将AI技术深度植入音频硬件中,重新定义了“听”的方式。如果你追求的是智能化的未来体验和无…

2026 蓝牙耳机市场全景解析:从传统声学到AI音频的进化(2022年蓝牙耳机)

佘诗曼已定好医嘱!2亿身家留给三个人!坦言生育可能性极低!(佘诗曼经典)

最近,她接受了好姐妹梁靖琪的采访,敞开心扉,谈及了自己对于生儿育女的看法,并意外透露,她已经提前立好了遗嘱,计划将自己辛苦积累的财富留给三位生命中最重要的人。在节目中,梁靖琪曾表示曾羡慕佘诗曼的事业机会多,而…

佘诗曼已定好医嘱!2亿身家留给三个人!坦言生育可能性极低!(佘诗曼经典)

上海活动这天,『高叶』穿皮衣梳大背头,发际线虽高,却凭气质稳赢(近期上海活动)

作为范思哲的特邀品牌挚友出席,这一场原本属于礼仪性亮相的活动,却因她毫不刻意的肢体语言、精准的情绪表达与天然的镜头亲和力,瞬间升华成了一场小型个人风格发布会。 范思哲一直青睐那些具有鲜明个性和内在锋芒的女…

上海活动这天,『高叶』穿皮衣梳大背头,发际线虽高,却凭气质稳赢(近期上海活动)

当心“高薪”变陷阱!成都警方查获相关案件

今日霍州成都1月29日电(记者董小红)29日,成都市公安局锦江区分局发布警情通报称,该局已查获一起发布虚假高薪职业诱骗求职者的案件,并刑拘8人。据了解,近日,该局在侦办工作中查明,以犯罪嫌疑人佟某(男,28岁,黑龙江青冈县人)为首的8人团伙,

当心“高薪”变陷阱!成都警方查获相关案件

户外栈道用二代共挤木塑板好在哪?聊聊2026年的最佳选择(室外栈道材料最好的是哪种)

二代共挤木塑板是户外栈道和庭院铺装的理想材料。本文详解其性能优势、应用场景、成本控制,助您选到性价比最高的一代产品。 2026年新一代木塑地板面市,户外景观栈道用哪款更合适?本文结合最新政策趋势,深入解析木塑板特性与预算建议,让您快速找到最

户外栈道用二代共挤木塑板好在哪?聊聊2026年的最佳选择(室外栈道材料最好的是哪种)