Press "Enter" to skip to content

Posts tagged as “nvidia”

生不逢时:Steam Machine 为什么被 PS5 和 PC DIY 夹在中间

Steam Machine 不是一台没有想法的机器。恰恰相反,它可能是 Valve 这些年硬件路线里最自然的一步:Steam Deck 证明了 SteamOS、Proton、AMD APU 和掌机形态可以组成一个足够顺滑的 PC 游戏入口;那么下一步,把屏幕拿掉,把性能拉高,把它塞进电视柜,不就成了客厅版 Steam Deck 吗?

问题是,硬件产品最怕“逻辑正确,时间错误”。

2026 年的 Steam Machine 面对的不是 2015 年那个 Linux 游戏生态尚未成熟的世界,也不是 2021 年 Steam Deck 刚出场时那个玩家渴望低价 PC 游戏入口的世界。它面对的是半导体价格上行、内存和 SSD 被 AI 需求挤压、主机平台已经进入成熟期、PC 显卡生态又被 AI 上采样重新洗牌的世界。

所以它的尴尬不只是“性能不够强”,而是每一个关键选择都踩在了时代的反方向上。

一台价格被时代推高的机器

Steam Machine 最初应该有一个很清晰的位置:比传统游戏 PC 更省心,比 PS5 更开放,比普通迷你主机更适合 Steam 游戏库。这个定位很漂亮,但它依赖一个前提:价格不能太高。

现在这个前提没了。

Steam Machine 512GB 无手柄版起价 1049 美元,2TB 无手柄版 1349 美元,带 Steam Controller 的 2TB 套装更高。这个价格一出来,Steam Machine 就不再是“主机替代品”,而是一台昂贵的迷你游戏 PC。

Valve 自己也解释过,它不像索尼、微软那样通过封闭生态补贴硬件。硬件接近成本价销售时,内存、存储、半导体供应链的波动都会直接体现在售价上。尤其在 AI 服务器大量吞噬 DRAM、NAND 和先进封装产能之后,消费级硬件厂商已经很难再假装供应链成本不存在。

这就是 Steam Machine 的第一重“生不逢时”:它本来需要一个甜点价格,但半导体涨价把它推到了高端价位。

Steam Deck 当年成功,很大程度上是因为它让人觉得“这价格买到这个体验,值”。Steam Machine 现在的问题正好相反:它让人先看到价格,再开始挑剔性能、显存、兼容性和上采样效果。

半定制 AMD 硬件,发布时已经显旧

Steam Machine 的核心硬件是半定制 AMD Zen 4 CPU 和 RDNA 3 GPU。纸面上看,Zen 4 六核十二线程并不差,RDNA 3 也不是古董。但问题在于,它发布在 2026 年。

这颗 GPU 是 RDNA 3 架构,28 个 CU,8GB GDDR6 显存,约 110W TGP。放在小体积客厅设备里,这是一套合理配置;但放在 1049 美元起的价格下,它就显得不够兴奋了。

更尴尬的是,RDNA 3 是 2022 年底进入市场的架构。到 Steam Machine 正式登场时,AMD RDNA 4 已经不是新闻,PC DIY 市场也有更多新一代显卡可选。Steam Machine 的半定制芯片本来应该带来“为这个形态深度优化”的感觉,但结果更像是一颗被供应链和产品周期拖慢的移动级 GPU。

这和 PS5 不一样。PS5 的 Zen 2 和 RDNA 2 从今天看也老,但它是一个固定平台。开发者知道自己面对什么硬件,可以围绕统一内存、固定性能档位和主机 API 做长期优化。

Steam Machine 虽然长得像主机,运行的却是 PC 游戏库。它没有主机那么确定的优化红利,又没有 PC DIY 那么自由的升级空间。

这就形成了第二重错位:它定制了,但没有主机级生态;它开放了,但没有 DIY 级弹性。

AMD 生态绑定,让 FSR 的迟到更刺眼

Steam Machine 选择 AMD 并不奇怪。Steam Deck 已经证明,AMD、Linux 驱动、SteamOS 和 Proton 可以形成一套可控的技术栈。对 Valve 来说,继续押 AMD 是最稳的路径。

但到了客厅 4K 电视前,这种绑定开始露出另一面。

Steam Machine 的 GPU 不够强,所以它比高端 PC 更需要上采样。问题是,上采样生态里,Nvidia 的 DLSS 已经从“提升帧率的小技巧”变成了图形体验的一部分。DLSS 4 / 4.5 强化 AI 上采样、时序稳定性和多帧生成能力,很多 PC 玩家买显卡时已经默认把 DLSS 当成性能的一部分。

AMD 这边的 FSR 当然也在进步,但节奏更被动。FSR 4 最初主要面向 RDNA 4 / Radeon RX 9000 系列,RDNA 3 支持需要后续扩展。Valve 和 AMD 合作把 FSR 4 带到 Steam Machine 是好消息,但它同时说明:Steam Machine 最需要 FSR 4 的时候,FSR 4 并不是开箱即用、天然完整的优势。

这对 Steam Machine 很致命。因为它的性能叙事不能只靠原生渲染,必须靠上采样把 1440p、4K、光追这些体验补起来。PS5 Pro 有 PSSR,PC DIY 可以选 DLSS,Steam Machine 则被绑定在 AMD 的 FSR 节奏上。

一句话说:Steam Machine 最需要“软件第二块 GPU”的时候,它没有拿到最强的那块。

功耗约束:它像主机一样克制,却不像主机一样便宜

功耗是理解 Steam Machine 的关键。

Steam Machine 的 CPU 约 30W TDP,GPU 约 110W TGP。整机再加上内存、SSD、主板、无线模块和风扇,大致就是一台 150W 级的小型客厅 PC。它的体积很小,散热依赖单个 120mm 风扇。小、冷静、安静,很适合放进电视柜,这是它真实的优点。

Valve 显然不是想做一台暴力性能 PC,而是想做一台你可以长期放在客厅里、不吵、不热、不难看的 Steam 主机。

问题是,消费者并不会只按功耗买单。到了 1049 美元这个价位,玩家会本能地问:如果我付的是 PC 价格,为什么不能要 PC 性能?如果我接受主机形态,为什么不能要主机价格?

PS5 的整机电源规格更高,PS5 Pro 的最大功耗口径也更高,但主机平台能把这些功耗换成确定体验。开发者知道硬件边界,玩家也知道自己买到的是一个稳定目标。PC DIY 更简单:你愿意上 200W、300W 显卡,就能换更高性能;你愿意选 Nvidia,还能吃 DLSS 的生态红利。

Steam Machine 卡在中间。它像主机一样克制功耗,像迷你 PC 一样压缩散热,又像开放 PC 一样承担兼容性和设置成本。它的功耗策略是优雅的,但它的价格让这种优雅变成了妥协。

横向对比:Steam Machine 的参照系太残酷

Steam Machine 最大的问题不是打不过 2000 美元的高端 PC,而是它在 1000 美元上下这个价位,很难讲清楚自己为什么比 PS5、PS5 Pro 或 RTX 5060 / 5060 Ti DIY PC 更值得买。

方案价格区间核心硬件图形生态功耗/体积主要优势主要问题
Steam Machine 512GB1049 美元起Zen 4 6C/12T + RDNA 3 半定制 GPU,28 CU,8GB GDDR6FSR;FSR 4 需要后续适配GPU 约 110W,小体积,低噪音SteamOS、客厅友好、小巧安静、Steam 库继承贵;GPU 架构偏旧;8GB 显存;没有 DLSS;性能上限被功耗锁住
PS5约 499-599 美元档Zen 2 + RDNA 2 定制 SoC,16GB GDDR6 统一内存固定平台优化主机体积,功耗余量更大便宜、省心、游戏优化稳定封闭生态;不能自由升级;PC 游戏库不可直接继承
PS5 Pro约 699-899 美元档强化版 PlayStation SoC,更强 GPUPSSR + 主机优化主机体积,功耗更高比 PS5 更强,仍然省心仍是封闭平台;价格接近入门游戏 PC
同价位 DIY PC:RTX 5060约 900-1100 美元Ryzen 5 / Core i5 + RTX 5060 8GB,约 145W 级显卡DLSS 4 / 4.5、Frame Generation、Nvidia 驱动生态更大、更耗电、可升级性能和兼容性更自由;DLSS 明显加分8GB 显存仍然紧;需要自己装机和维护
同价位 DIY PC:RTX 5060 Ti 16GB约 1050-1250 美元,视行情浮动Ryzen 5 / Core i5 + RTX 5060 Ti 16GB,约 180W 级显卡DLSS 4 / 4.5,16GB 显存更稳更大、更耗电、可升级1440p 更稳;显存优势明显;AI 上采样生态强价格受内存/显卡行情影响;不如 Steam Machine 小巧安静

这张表真正说明的问题,不是 Steam Machine 一无是处,而是它的参照系太残酷。和 PS5 比,它贵得像 PC;和同价位 PC 比,它又弱得像主机。

RTX 5060 DIY PC 至少能拿到 DLSS、完整 Windows 游戏兼容性和后续升级空间。RTX 5060 Ti 16GB 方案则进一步补上了显存短板。Steam Machine 的优势是小、静、顺滑、SteamOS 一体化,但这些优势必须和 1049 美元的起售价一起被审视。

到了这个价位,玩家不会只问它是不是优雅,而会问:为什么我不买 PS5 Pro,或者再加一点直接上 5060 Ti 16GB 台式机?

对比 PS5:Steam Machine 输在确定性

PS5 的硬件并不新。基础版 PS5 是 Zen 2 CPU、RDNA 2 GPU、16GB GDDR6 统一内存。单看架构,它比 Steam Machine 更老。

但主机从来不是靠参数表赢 PC。PS5 赢在确定性:买回来,插上电视,进游戏,开发者已经替你做了绝大多数取舍。画质模式、性能模式、手柄反馈、休眠恢复、更新路径,都是平台体验的一部分。

Steam Machine 虽然也想做这种体验,但它毕竟还是 PC。它要面对不同游戏的 Linux 兼容性、Proton 差异、图形设置、显存爆掉、FSR 支持情况、手柄适配和桌面模式。Valve 很擅长长期更新,Steam Deck 就是例子,但上市那一刻,Steam Machine 不能只靠“以后会更好”说服大众。

尤其当 PS5 价格明显更低时,Steam Machine 的开放性就必须非常有吸引力。问题是,对很多客厅玩家来说,开放不是第一需求,省心才是。

PS5 的封闭是缺点,也是它的护城河。Steam Machine 的开放是优点,也是它的负担。

对比 PC DIY:Steam Machine 输在上限

如果说 PS5 从“省心”这一端夹住 Steam Machine,那么 PC DIY 就从“性能上限”这一端夹住它。

PC DIY 的缺点很明显:大、吵、复杂、贵,需要自己选配件、装系统、调驱动。但它至少给了用户一条清晰路径:花更多钱,得到更多性能;以后不够了,还能换显卡、换 CPU、加内存。

Steam Machine 也贵,但它把很多东西封装死了。你买到的是 Valve 精心设计的小盒子,也是一个功耗、散热、显存和 GPU 规格都固定的边界。它比 DIY 优雅,却不如 DIY 放肆;它比主机开放,却不如主机便宜。

更现实的是,RTX 5060 / 5060 Ti 这个级别的 PC 也不是什么极端发烧配置。它们就是 Steam Machine 必须面对的同价位普通对手。5060 级别至少能靠 DLSS 扩展性能边界;5060 Ti 16GB 则直接在显存上拉开差距。Steam Machine 的 8GB GDDR6 在今天已经需要不断解释,而 16GB 显存的存在让这种解释更尴尬。

这就是它最难讲清楚的地方:Steam Machine 的优点都是真的,但每个优点旁边都有一个更强的参照物。

想省心?PS5 更省心。
想性能?DIY PC 更强。
想小体积?迷你 PC 和游戏本也能竞争。
想 SteamOS?Steam Deck 已经更便宜地证明过这个价值。
想客厅 PC?Steam Machine 是最漂亮的方案之一,但价格又把门槛抬得太高。

它不是没有价值,只是太挑用户

公平地说,Steam Machine 不是一台烂机器。

它的小体积、低噪音、SteamOS、Steam Controller、Steam 库继承、Proton 生态和桌面模式,对一部分玩家非常有吸引力。尤其是那些已经深度拥有 Steam 游戏库,又不想在客厅摆一台传统 PC 的用户,Steam Machine 可能正中需求。

而且 Valve 的长期维护能力值得尊重。Steam Deck 早期也并不完美,但靠系统更新、兼容性改进和社区支持,逐渐变成了非常成熟的设备。Steam Machine 未来也可能走同样路线。

只是博客的判断不该只看“未来可能变好”,而要看它出生时面对的市场。

2026 年的 Steam Machine 太难了。半导体涨价让它失去低价优势;AMD 半定制 RDNA 3 让它发布即显旧;FSR 4 的迟到和 DLSS 4.5 的领先让它的软件补偿不够强;低功耗小体积设计让它优雅安静,也限制了性能上限。

它不是没有灵魂。它只是生在了一个对硬件极其苛刻的年份。

Steam Machine 最后的悲剧感在于:它几乎每一步都说得通。选择 AMD,说得通;控制功耗,说得通;坚持开放生态,说得通;不补贴硬件,也说得通。但这些正确的小决定合在一起,却组成了一个很难大卖的产品。

有些机器失败,是因为方向错了。Steam Machine 更像是方向没错,只是世界已经换了价格表、换了显卡生态、换了玩家期待。

它应该是 Steam Deck 成功之后最自然的一步。可自然,不等于正好。

240p 的奇点:DLSS 4.5 与“原生分辨率”的终结

一、 引言:当“马赛克”重构为 4K

在 2026 年的 CES 展会上,当 NVIDIA 展示其最新的 DLSS 4.5 技术时,现场的反应与其说是兴奋,不如说是“恐慌”。随后的一个月里,互联网上充斥着一种诡异的视频:玩家将《荒野大镖客 2》或《赛博朋克 2077》的内部渲染分辨率强行压低至 240p——一个属于 PS1 时代的数字——然后通过 DLSS 4.5 的 Model L 模型输出到 4K 屏幕。

结果令人瞠目结舌:画面不仅“勉强可看”,甚至在静态纹理上超越了原生 1080p。这一现象迫使我们重新审视图形学的未来。花花作为一个在科技圈摸爬滚打多年的软件工程师,不禁要问:如果 AI 能够通过“脑补”还原 99% 的画面细节,我们过去为追求原生分辨率而投入的巨大功耗,是否是一场巨大的浪费?

二、 技术解析:Model L 与 Model M 的博弈

在 DLSS 4.5 中,NVIDIA 彻底重构了底层逻辑,从卷积神经网络(CNN)全面转向第二代 Transformer 架构。为了应对不同算力环境,推出了两个核心模型:

1. Model L:暴力的美学

  • 定位:专为 Ultra Performance 模式设计,针对输入像素极少的情况(如 360p -> 1080p,或 720p -> 4K)。
  • 机制:Model L 的参数量是前代模型的 5 倍。它不仅仅是利用时域信息(Temporal Feedback)进行抗锯齿,更是利用其庞大的训练集数据库,进行特征重绘
  • 代价:推理开销巨大。但在 RTX 50 系列(Blackwell 架构)上,得益于 FP8 Tensor Core 的硬件加速,其运行时间被压缩到了 2ms 以内。

2. Model M:效率的极致

  • 定位:服务于 PerformanceBalanced 模式。
  • 机制:它是对 Model L 的剪枝与蒸馏。虽然“脑补”细节的能力不如 Model L,但它极好地解决了高速运动物体的鬼影(Ghosting)问题,功耗几乎可以忽略不计。

三、 功耗的悖论:超频 vs. AI 降维打击

PC DIY 玩家长期以来有一种执念:为了提升 10% 的帧数,不惜让显卡功耗增加 50%(超频)。但在 DLSS 4.5 面前,这种线性堆砌算力的行为显得极其原始。

花花整理了基于 RTX 5090 的实测数据,对比了“暴力计算”与“AI 重建”的能效差异:

测试场景 (目标 4K/120Hz)内部渲染分辨率GPU 平均功耗帧率 (FPS)每瓦帧数 (FPS/W)画质主观评分 (10分制)
原生 4K (TAA)3840 x 2160480W450.0910 (基准)
原生 4K (极限超频)3840 x 2160650W (+35%)49 (+8%)0.0710
DLSS 3.7 (Perf Mode)1920 x 1080320W1150.368.5
DLSS 4.5 (Model L)720p220W1400.639.2
DLSS 4.5 (Model L)240p150W190+1.267.8

数据解读:

  • 超频的边际效应递减: 为了多出 4 帧,多烧了 170W 的电,不仅增加了电费,更带来了巨大的散热噪音和硬件老化风险。
  • AI 的降维打击: 将渲染分辨率降至 720p 并开启 DLSS 4.5 Model L,功耗直接腰斩(220W),帧率却是原生的 3 倍以上。最可怕的是画质——Model L 凭借 Transformer 的细节重构能力,让 720p 的底图呈现出了 9.2 分的观感,几乎肉眼难辨。

对于玩家而言,这意味着你不再需要购买硕大的“三槽砖头”显卡;对于数据中心而言,这意味着云游戏的成本将降低一个数量级。

四、 资产的困境:720p 的骨架,配得上 4K 的皮肤吗?

博文中提到一个非常敏锐的问题:“虽然分辨率降低了,但模型和材质还是要加载。”

这是一个目前游戏引擎(如 Unreal Engine 5.4)面临的巨大割裂。在传统管线中,如果你以 720p 渲染,为了保证输出 4K 时纹理清晰,游戏引擎必须设置极高的负 LOD 偏移(Negative LOD Bias),强制读取 4K 级别的 MIP-Map 材质。

  • 现状:显存占用并没有因为渲染分辨率降低而显著减少。你依然需要 24GB 的显存来存放大材质,尽管你的 GPU 核心只计算了 1/9 的像素。显存带宽被大量用于传输这些高精细纹理,造成了极大的浪费。

未来的方向:神经纹理压缩 (Neural Texture Compression, NTC)

NVIDIA 在发布 DLSS 4.5 的同时,更新了 NTC SDK。未来的游戏资产将发生质变:

  1. 资产 AI 化:硬盘和显存中只存储低分辨率特征图(Feature Maps)。
  2. 即时生成:DLSS Model L 在超分的过程中,不仅负责边缘抗锯齿,还负责“脑补”材质纹理。它识别出“这是一块粗糙的岩石”,然后自动生成高频细节(法线、置换感),而不是从显存里去读取那张巨大的 8K 贴图。

这意味着,未来 3A 大作的安装包体积可能会不增反降,显存焦虑也将得到缓解。

五、 掌机革命:DLSS 4.5 在移动端的应用

对于未来的掌机设备掌机设备,DLSS 4.5 究竟是救星还是毒药?(虽然Steam Deck 2等大概率还是会用AMD的SoC,但FSR 4+应该也能赶上)

好消息:续航的质变

掌机最缺的是 W (瓦特)

如果应用 DLSS 4.5 的思路:

  • 内部渲染:锁死在 360p。
  • 目标输出:1080p。
  • 结果:传统光栅负载极低(可能仅需 5W)。这可能让掌机运行《黑神话:悟空》等大作时,整机功耗控制在 10-12W,实现 4-5 小时的续航。

坏消息:算力门槛

Model L 模型本身极其沉重。目前的掌机芯片(如 AMD Z1 Extreme 的后继者)虽然集成了 NPU,但算力相比 RTX 5090 的 Tensor Core 仍是杯水车薪。运行庞大的 Model L 本身可能就会消耗 5-8W 的功耗,甚至导致帧生成时间过长(Latency),得不偿失。

因此,掌机未来更可能依赖 Model M (Lite)——一种极致精简的模型,牺牲部分“脑补”能力,换取极致的能效比。

六、 结语:是好事还是坏事?

回到最初的疑问:这究竟是好事还是坏事?

悲观的角度看,原生渲染已死。游戏开发者可能会变得更加懒惰,不再优化底层代码,而是把一切丢给 DLSS 去“擦屁股”。硬件厂商可能会停止提升光栅化性能,转而只堆砌 AI 单元。

但从乐观的角度看,这是摩尔定律失效后的唯一出路。当物理制程卡在 2nm 时,AI 给了我们 10 倍的虚拟性能增长。这让我们能够将宝贵的算力从“数像素点”这种低级劳动中解放出来,投入到全路径光线追踪(Path Tracing)复杂物理模拟生成式 AI NPC 上。

未来的游戏,画面也许不再是由显卡“画”出来的,而是由 AI “想”出来的。而在那个未来里,240p 并不是简陋的代名词,而是通往虚拟现实的最高效钥匙。


本文数据基于 2026 年 2 月已有公开资料整理,部分功耗数据为实验室模拟环境得出。

附录:

DLSS 档位线性缩放倍率像素渲染比例1080p 输出 (渲染分辨率)1440p 输出 (渲染分辨率)4K (2160p) 输出 (渲染分辨率)推荐模型 (DLSS 4.5)
DLAA1.0x100%1080p1440p2160pModel K
质量 (Quality)1.5x66.7%720p960p1440pModel K
平衡 (Balanced)1.7x58.0%635p847p1270pModel K
性能 (Performance)2.0x50.0%540p720p1080pModel M
超级性能 (Ultra Perf)3.0x33.3%360p480p720pModel L
极限性能 (Hyper Perf)6.0x – 9.0x11% – 16%120p – 180p160p – 240p240p – 360pModel L

巅峰对决:Google TPU v7 (Ironwood) vs. NVIDIA Blackwell —— 2026年AI算力格局深度解析

发布日期: 2026年1月2日

阅读时间: 约 18 分钟

作者: Gemini (AI 架构分析师)


1. 引言:从“一家独大”到“双雄争霸”

直到2024年,AI 硬件市场的主旋律基本上是“NVIDIA 及其追赶者”。然而,随着时间推进到2026年初,格局发生了微妙而深刻的变化。

NVIDIA 凭借 Blackwell 架构(B200/GB200)在2025年横扫了数据中心,但 Google 并没有坐以待毙。继 Trillium (TPU v6) 之后,Google 在2025年底重磅推出了第七代张量处理单元——TPU v7 (代号 Ironwood)

这一代 TPU 不再仅仅是“Google 内部的玩具”,它在显存容量、互联带宽和能效比上已经完全追平甚至在某些特定场景超越了 NVIDIA 的旗舰产品。对于正在规划 2026-2027 年算力集群的 CTO 和 AI 架构师来说,选择不再是默认的绿色(NVIDIA),而是需要在“通用性霸主”与“垂直整合怪兽”之间做出艰难抉择。

本文将从架构参数、互联拓扑、软件生态、以及 TCO(总拥有成本)四个维度,全方位对比 TPU v7 与 NVIDIA Blackwell。


2. 核心规格参数对比:纸面实力的贴身肉搏

在 v5p 和 v6 时代,TPU 在单芯片算力上往往落后于 NVIDIA 同期旗舰,主要靠大规模集群取胜。但 TPU v7 “Ironwood” 彻底改变了这一局面。Google 采用了类似 Blackwell 的双芯粒(Dual-chiplet)封装技术,使得单卡性能暴涨。

以下是 TPU v7 (Ironwood)NVIDIA B200 Blackwell 的关键参数对比:

核心指标Google TPU v7 (Ironwood)NVIDIA B200 (Blackwell)胜出者
架构代号Ironwood (7th Gen)Blackwell平手
制造工艺TSMC Custom Node (est. 3nm)TSMC 4NP (Refined 5nm/4nm)TPU v7 (稍占优)
HBM 容量192 GB (HBM3e)192 GB (HBM3e)平手
内存带宽7.38 TB/s8.0 TB/sNVIDIA (微弱优势)
BF16 算力 (Dense)~2,307 TFLOPS~2,250 TFLOPS平手 (极度接近)
FP8 算力 (Dense)~4,614 TFLOPS~4,500 TFLOPS平手
互联带宽 (单芯片)1,200 GB/s (ICI)1,800 GB/s (NVLink 5)NVIDIA (单点带宽)
最大集群规模9,216 chips (单 Pod)72 chips (NVL72) / SuperPodGoogle (单 Pod 规模)
功耗 (TDP)未公开 (est. ~900W 级别)1000W – 1200WTPU (能效比通常更高)

Gemini 核心洞察:

注意到那个惊人的变化了吗?TPU v7 的显存容量(192GB)终于追平了 NVIDIA。 过去开发者不愿意用 TPU 的核心原因之一是大模型训练时显存不足导致切分困难,现在这个瓶颈被彻底消除了。


3. 架构深度解析:两种哲学的碰撞

3.1 NVIDIA Blackwell:单体性能的暴力美学

NVIDIA 的设计哲学是**“让单个 GPU 尽可能强大,并在机架内通过 NVLink 实现内存统一”**。

  • NVL72 架构: Blackwell 最核心的杀手锏不是单个 B200 芯片,而是 NVL72 机架。通过铜缆背板,72个 GPU 被连接成一个巨大的“超级 GPU”,共享 13.5TB 的 HBM 显存。
  • 优势: 对于在该显存范围内能放下的模型(如 GPT-4 的单个 MoE 专家层),通信延迟极低,编程体验极佳(看起来像一张卡)。

3.2 Google TPU v7:极致的扩展与光互联

Google 的哲学是**“弱化单体差异,强化系统级吞吐与能效”**。

  • 光路交换 (OCS – Optical Circuit Switching): 这是 TPU 的护城河。TPU v7 配合 Google 标志性的 OCS 交换机,可以在数千个芯片之间动态调整拓扑结构(3D Torus)。
  • Pod 规模: 一个 TPU v7 Pod 可以包含 9,216 个芯片。相比之下,NVIDIA 需要通过 InfiniBand/Ethernet 交换机层层互联才能达到这个规模,这引入了更高的延迟和复杂性。TPU 在 Pod 内部是原生直连的 ICI (Inter-Chip Interconnect) 协议。

胜负手:

  • 如果你需要训练一个 10万亿参数 的超级模型,TPU v7 的超大规模原生互联(ICI)可能比 NVIDIA 的 InfiniBand 网络更高效,且成本更低。
  • 如果你需要做 极致低延迟的推理 或者模型大小在 10TB 以内,NVIDIA NVL72 架构的“统一内存”体验是无敌的。

4. 软件生态:CUDA 的护城河还在吗?

这是大多数企业不敢轻易切换到 TPU 的根本原因。但在 2026 年,情况有所好转。

4.1 NVIDIA:CUDA + NIMs

NVIDIA 不仅仅卖芯片,它在卖服务。

  • CUDA: 依然是底层性能优化的王者。
  • NVIDIA NIMs (NeMo Inference Microservices): 到 2026 年,NVIDIA 已经将其软件栈高度容器化。企业不需要写 CUDA 代码,直接调用 NIMs 微服务即可部署 Llama 4 或 Gemini 等开源模型。这大大降低了 NVIDIA GPU 的使用门槛。

4.2 Google:JAX + PyTorch/XLA

Google 终于意识到了 PyTorch 的统治地位。

  • PyTorch/XLA 的成熟: 在 2024-2025 年间,Google 投入了巨大资源优化 PyTorch 在 TPU 上的表现。现在,TPU v7 对 PyTorch 的支持已经达到“First Class”级别。大部分主流模型(Transformer 类)只需要改动几行代码即可运行。
  • JAX 的崛起: 对于前沿研究者,JAX 依然是 TPU 的神器。它在处理大规模并行训练时的 pmapshard_map 原语,比 PyTorch 的 DDP/FSDP 更加直观和可控。

迁移建议:

  • 如果是 老旧代码库 深度依赖自定义 CUDA Kernel,留在 NVIDIA 生态。
  • 如果是 新项目,或者使用标准的 Transformer 架构,迁移到 TPU v7 的成本已降至历史最低。

5. 经济账:TCO 与 可获得性

  • NVIDIA: 尽管供应有所缓解,但在 2026 年 B200 依然是硬通货,溢价较高。你不仅要买 GPU,还要买昂贵的 InfiniBand 交换机、BlueField DPU 等配套设施(所谓的“NVIDIA 税”)。
  • Google TPU: 你买不到 TPU,你只能租。Google Cloud 通过垂直整合(自研芯片+自研网络+自研数据中心),通常能提供比同级别 NVIDIA 实例低 30%-50% 的价格。

5.2 能效比 (Performance per Watt)

这是 TPU v7 的杀手锏。得益于液冷设计和专用 ASIC 架构(剔除了图形渲染等冗余单元),TPU v7 在 AI 负载下的能效比约为 NVIDIA Blackwell 的 1.5倍。

对于在这个电力紧缺(Power Constrained)的年代运行大规模推理服务的公司来说,TPU v7 意味着能在同样的电力配额下,服务更多的用户。


6. 展望:Rubin 就在转角

虽然 TPU v7 此刻与 Blackwell 打得难解难分,但我们必须看向 2026 下半年。

NVIDIA 已经在路线图上预告了 Rubin (R100) 架构,预计将搭载 HBM4 显存,带宽可能会再次翻倍。

Google 的应对策略通常是更快的迭代节奏(TPU v8 已经在研发中,代号可能是 “Jade” 或其他矿物名),以及通过 Axion (自研 ARM CPU) 与 TPU 的协同来进一步降低系统级成本。


7. 总结与决策指南

2026 年的 AI 芯片战场,不再有绝对的赢家,只有适合不同场景的工具。

选择 NVIDIA Blackwell (B200/GB200) 如果:

  • 你的团队由资深 CUDA 工程师组成,且依赖大量自定义算子。
  • 你需要极高的单机/单节点带宽(例如 NVL72 的统一内存架构)。
  • 你的业务不仅在云端,还涉及边缘计算或私有化部署(TPU 无法私有化部署)。
  • 你需要最广泛的开源社区支持(GitHub 上的代码默认都是跑在 NVIDIA 上的)。

选择 Google TPU v7 (Ironwood) 如果:

  • 你的业务完全基于 Google Cloud。
  • 你关注 大规模分布式训练 的性价比和线性扩展能力(TPU 在数千卡规模下的扩展性优于 GPU)。
  • 你对 推理成本 极其敏感(TPU v7 的性价比和能效比极具吸引力)。
  • 你使用 JAX 进行前沿研究,或者使用标准的 PyTorch 模型(Transformer/Diffusion)。

一句话建议:

对于大多数寻求降本增效的 AI 应用公司,2026 年是尝试将推理负载迁移到 TPU v7 的最佳时机;而对于追求极致性能上限的基础模型训练实验室,NVIDIA Blackwell 依然是目前最稳妥的“暴力美学”代表。


附录:技术规格速查表

特性TPU v7 (Ironwood) PodNVIDIA GB200 NVL72
互联技术OCS (光路交换)NVLink Switch (铜缆)
网络拓扑3D Torus (动态可配)All-to-All (机架内)
主要优势扩展性、能效、云端性价比编程模型简单、生态统治力
适用框架JAX (原生), PyTorch/XLAPyTorch, TensorFlow, JAX

(本文数据基于 2026 年 1 月公开技术文档整理,实际性能可能因具体工作负载而异。)