谷歌在推理时代的架构Ironwood TPU | HotChips2025(谷歌在推理时代的应用)

芝能智芯出品

在 2025 年 Hot Chips 大会上,谷歌详解介绍了 Ironwood 的新一代张量处理单元(TPU),并以此成为大会机器学习专场的焦点。

与以往的 TPU 产品相比,Ironwood 最大的特点在于它是谷歌首次明确定位于大规模推理而非训练的计算『芯片』,从单纯的模型训练走向大规模推理部署的现实需求。

Part 1

推理为核心:

Ironwood 的定位与架构突破

长期以来,TPU 的设计更多面向训练任务,强调在极大规模参数下的矩阵计算能力,大模型逐步进入实际应用场景,推理任务所需的算力和能效比已经成为新的瓶颈。

Ironwood 并非是训练与推理通用的折中方案,真正针对推理优化的体系架构。

从硬件组织层面来看,Ironwood 最大的变化体现在 SuperPod 的扩展能力。通过光路交换机(OCS)的引入,一个 Pod 内最多能够支持 9,216 颗『芯片』,远超上一代 TPUv4 的 4,096 『芯片』规模。

谷歌在构建超大规模 AI 集群时,可以在单一体系下提供高达 42.5 百亿亿次浮点运算的峰值性能。

更为关键的是,OCS 的灵活互联让系统能够在硬件失效时通过检查点恢复和重构,保持整体可用性,这对于需要长时间运行、几乎不允许宕机的推理服务而言至关重要。

在存储架构上,Ironwood 采用了最新的 HBM3e 技术,单『芯片』配置 192GB 高带宽内存,总体可扩展至 1.77PB 的共享寻址空间,提升了对大模型参数的直接加载能力,也降低了因频繁数据交换带来的延迟与功耗。

谷歌强调,内存系统是其架构中最重要的优化方向之一,这与『大语言模型』在推理时对内存带宽和容量的极高依赖高度契合。

Ironwood 还是谷歌首次采用多计算『芯片』组的 TPU,每个封装内集成两个计算『芯片』。

通过突破单一光罩尺寸的限制,谷歌能够在不牺牲良率的前提下进一步提升单『芯片』的计算密度,标志着 TPU 正式迈入多『芯片』协同的新时代,与 GPU 业界普遍采用的 MCM(多『芯片』模块)方向保持一致。

Part 2

能效、可靠性与系统观:

从单『芯片』到『数据中心』

如果说架构扩展奠定了 Ironwood 的规模基础,那么能效与可靠性的提升,则决定了它能否真正适应长期在线的大规模推理任务。

首先是能效。Ironwood 采用 FP8 精度来应对『大语言模型』和混合专家模型推理的计算需求,既保证了足够的精度,也显著降低了计算和存储开销。

官方数据显示,Ironwood 在每瓦性能上较 TPUv4 提升了近 6 倍,而如果与 Trillium 相比,也有两倍的进步。

考虑到其峰值功耗达到 10 兆瓦,能效的提升并非锦上添花,而是确保这一系统能在『数据中心』环境中具备长期可持续运行的根本条件。

谷歌在冷却和电力稳定性上也做了大量设计。Ironwood 使用了第三代液冷技术,采用多重循环系统以保证冷却板不被杂质堵塞。这种基础设施改进虽然并不显眼,却体现了谷歌对硬件全生命周期可靠性的重视。

此外,系统还配备了平滑功率波动的软硬件手段,减少负载骤变对电网的冲击,从而让兆瓦级集群能够以相对平稳的方式运行。

可靠性、可用性和可维护性(RAS)被谷歌反复强调。

Ironwood 集成了安全启动、信任根、自检和静默数据损坏捕获等功能。这些机制在传统高性能计算领域已较为常见,但谷歌将其引入 TPU 的原因,是因为云端推理对服务连续性和数据正确性有极高要求。

相比训练任务,推理通常直接面向终端用户,其错误更可能带来应用层面的故障,因此这一代 TPU 不仅是速度的追求,更是面向实际运营需求的完整系统优化。

谷歌在 Ironwood 的设计和生产过程中大量引入 AI 技术,包括利用 AI 辅助设计 ALU 电路与优化布局规划。这种“AI 造『芯片』”的方式,说明了算力需求与工具演化之间的互促关系,也为未来计算体系的演进提供了新的方向。

小结

Ironwood 是谷歌在推理时代抢占先机的战略举措,大模型的应用逐渐从实验室走向产业落地,推理算力的规模化与可持续性成为关键问题。

谷歌通过 Ironwood 是『芯片』层面的改进,更是从『芯片』、互连到冷却、电力控制,再到安全与可靠性的全链条系统思维。

特别声明:[谷歌在推理时代的架构Ironwood TPU | HotChips2025(谷歌在推理时代的应用)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『周也』出征巴黎『迪奥』大秀——毛绒领里的一抬眸,把“冬日晚霞”穿在了身上(『周也』 lv)

26日,『周也』在微博甩出一组“神图”九宫格,坐标巴黎,寒意未退的塞纳河畔瞬间升温——原来,美真的可以自带暖气。镜头定格第一秒:她裹着奶油白毛绒领外套🧥,领口蓬松到像把一团云披在肩上,衬得一张小脸只有巴掌大。 …

『周也』出征巴黎『迪奥』大秀——毛绒领里的一抬眸,把“冬日晚霞”穿在了身上(『周也』 lv)

童心未泯,萌力常伴!六桂福加菲快闪店赴约指南(童心未泯出自哪里)

这不仅是一场跨越次元的梦幻联动,更是一次向所有“长大成人的孩子”发出的邀请——带上你的童年好萌友,开启一场关于新奇、乐趣与永恒珍藏的探索之旅!那个总说“爱情来得快去得也快,只有猪肉卷是永恒的”的加菲,正以全新…

童心未泯,萌力常伴!六桂福加菲快闪店赴约指南(童心未泯出自哪里)

海鲜市场大量流出300元买12代N95笔记本📓,支持4K av1全格式硬解码(海鲜市场容量)

其实N100 N95这种处理器的笔记本📓基本上都是国产小品牌做的,比较少见大厂用这种U做笔记本📓的处理器。目前海鲜市场有大量这种配置的国产笔记本📓准系统,应该是内存硬盘涨价前就做好的,目前都是把内存硬盘拆了,就剩下…

海鲜市场大量流出300元买12代N95笔记本📓,支持4K av1全格式硬解码(海鲜市场容量)

少喝水可以减轻肾脏的负担吗?蚂蚁庄园2.5答案最新(少喝水可以减轻胃酸吗)

少喝水可以减轻肾脏的负担吗?这是2026年蚂蚁庄园2月5日庄园小课堂的问题,下面为大家详细介绍2026年2月5日今天蚂蚁庄园课堂小鸡饲料答案。蚂蚁庄园非常好玩,养鸡的同时还能做慈善,增长知识的同时还可以免费领取小鸡饲料。蚂蚁庄园课堂今天的问

少喝水可以减轻肾脏的负担吗?蚂蚁庄园2.5答案最新(少喝水可以减轻胃酸吗)

怎么治疗慢性肛管直肠炎(慢性肛裂的最佳治疗方法)

慢性肛管直肠炎的治疗方法包括药物治疗、饮食调整、物理治疗、中医调理和手术治疗。这种疾病通常与感染、免疫异常、长期便秘或腹泻等因素有关,建议在医生指导下制定个性化方案

怎么治疗慢性肛管直肠炎(慢性肛裂的最佳治疗方法)