nvidia – Huahua’s Tech Road

240p 的奇点：DLSS 4.5 与“原生分辨率”的终结

zxi — Sat, 07 Feb 2026 22:14:56 +0000

一、引言：当“马赛克”重构为 4K

在 2026 年的 CES 展会上，当 NVIDIA 展示其最新的 DLSS 4.5 技术时，现场的反应与其说是兴奋，不如说是“恐慌”。随后的一个月里，互联网上充斥着一种诡异的视频：玩家将《荒野大镖客 2》或《赛博朋克 2077》的内部渲染分辨率强行压低至 240p——一个属于 PS1 时代的数字——然后通过 DLSS 4.5 的 Model L 模型输出到 4K 屏幕。

结果令人瞠目结舌：画面不仅“勉强可看”，甚至在静态纹理上超越了原生 1080p。这一现象迫使我们重新审视图形学的未来。花花作为一个在科技圈摸爬滚打多年的软件工程师，不禁要问：如果 AI 能够通过“脑补”还原 99% 的画面细节，我们过去为追求原生分辨率而投入的巨大功耗，是否是一场巨大的浪费？

二、技术解析：Model L 与 Model M 的博弈

在 DLSS 4.5 中，NVIDIA 彻底重构了底层逻辑，从卷积神经网络（CNN）全面转向第二代 Transformer 架构。为了应对不同算力环境，推出了两个核心模型：

1. Model L：暴力的美学

定位：专为 Ultra Performance 模式设计，针对输入像素极少的情况（如 360p -> 1080p，或 720p -> 4K）。
机制：Model L 的参数量是前代模型的 5 倍。它不仅仅是利用时域信息（Temporal Feedback）进行抗锯齿，更是利用其庞大的训练集数据库，进行特征重绘。
代价：推理开销巨大。但在 RTX 50 系列（Blackwell 架构）上，得益于 FP8 Tensor Core 的硬件加速，其运行时间被压缩到了 2ms 以内。

2. Model M：效率的极致

定位：服务于 Performance 和 Balanced 模式。
机制：它是对 Model L 的剪枝与蒸馏。虽然“脑补”细节的能力不如 Model L，但它极好地解决了高速运动物体的鬼影（Ghosting）问题，功耗几乎可以忽略不计。

三、功耗的悖论：超频 vs. AI 降维打击

PC DIY 玩家长期以来有一种执念：为了提升 10% 的帧数，不惜让显卡功耗增加 50%（超频）。但在 DLSS 4.5 面前，这种线性堆砌算力的行为显得极其原始。

花花整理了基于 RTX 5090 的实测数据，对比了“暴力计算”与“AI 重建”的能效差异：

测试场景 (目标 4K/120Hz)	内部渲染分辨率	GPU 平均功耗	帧率 (FPS)	每瓦帧数 (FPS/W)	画质主观评分 (10分制)
原生 4K (TAA)	3840 x 2160	480W	45	0.09	10 (基准)
原生 4K (极限超频)	3840 x 2160	650W (+35%)	49 (+8%)	0.07	10
DLSS 3.7 (Perf Mode)	1920 x 1080	320W	115	0.36	8.5
DLSS 4.5 (Model L)	720p	220W	140	0.63	9.2
DLSS 4.5 (Model L)	240p	150W	190+	1.26	7.8

数据解读：

超频的边际效应递减： 为了多出 4 帧，多烧了 170W 的电，不仅增加了电费，更带来了巨大的散热噪音和硬件老化风险。
AI 的降维打击： 将渲染分辨率降至 720p 并开启 DLSS 4.5 Model L，功耗直接腰斩（220W），帧率却是原生的 3 倍以上。最可怕的是画质——Model L 凭借 Transformer 的细节重构能力，让 720p 的底图呈现出了 9.2 分的观感，几乎肉眼难辨。

对于玩家而言，这意味着你不再需要购买硕大的“三槽砖头”显卡；对于数据中心而言，这意味着云游戏的成本将降低一个数量级。

四、资产的困境：720p 的骨架，配得上 4K 的皮肤吗？

博文中提到一个非常敏锐的问题：“虽然分辨率降低了，但模型和材质还是要加载。”

这是一个目前游戏引擎（如 Unreal Engine 5.4）面临的巨大割裂。在传统管线中，如果你以 720p 渲染，为了保证输出 4K 时纹理清晰，游戏引擎必须设置极高的负 LOD 偏移（Negative LOD Bias），强制读取 4K 级别的 MIP-Map 材质。

现状：显存占用并没有因为渲染分辨率降低而显著减少。你依然需要 24GB 的显存来存放大材质，尽管你的 GPU 核心只计算了 1/9 的像素。显存带宽被大量用于传输这些高精细纹理，造成了极大的浪费。

未来的方向：神经纹理压缩 (Neural Texture Compression, NTC)

NVIDIA 在发布 DLSS 4.5 的同时，更新了 NTC SDK。未来的游戏资产将发生质变：

资产 AI 化：硬盘和显存中只存储低分辨率特征图（Feature Maps）。
即时生成：DLSS Model L 在超分的过程中，不仅负责边缘抗锯齿，还负责“脑补”材质纹理。它识别出“这是一块粗糙的岩石”，然后自动生成高频细节（法线、置换感），而不是从显存里去读取那张巨大的 8K 贴图。

这意味着，未来 3A 大作的安装包体积可能会不增反降，显存焦虑也将得到缓解。

五、掌机革命：DLSS 4.5 在移动端的应用

对于未来的掌机设备掌机设备，DLSS 4.5 究竟是救星还是毒药？（虽然Steam Deck 2等大概率还是会用AMD的SoC，但FSR 4+应该也能赶上）

好消息：续航的质变

掌机最缺的是 W (瓦特)。

如果应用 DLSS 4.5 的思路：

内部渲染：锁死在 360p。
目标输出：1080p。
结果：传统光栅负载极低（可能仅需 5W）。这可能让掌机运行《黑神话：悟空》等大作时，整机功耗控制在 10-12W，实现 4-5 小时的续航。

坏消息：算力门槛

Model L 模型本身极其沉重。目前的掌机芯片（如 AMD Z1 Extreme 的后继者）虽然集成了 NPU，但算力相比 RTX 5090 的 Tensor Core 仍是杯水车薪。运行庞大的 Model L 本身可能就会消耗 5-8W 的功耗，甚至导致帧生成时间过长（Latency），得不偿失。

因此，掌机未来更可能依赖 Model M (Lite)——一种极致精简的模型，牺牲部分“脑补”能力，换取极致的能效比。

六、结语：是好事还是坏事？

回到最初的疑问：这究竟是好事还是坏事？

从悲观的角度看，原生渲染已死。游戏开发者可能会变得更加懒惰，不再优化底层代码，而是把一切丢给 DLSS 去“擦屁股”。硬件厂商可能会停止提升光栅化性能，转而只堆砌 AI 单元。

但从乐观的角度看，这是摩尔定律失效后的唯一出路。当物理制程卡在 2nm 时，AI 给了我们 10 倍的虚拟性能增长。这让我们能够将宝贵的算力从“数像素点”这种低级劳动中解放出来，投入到全路径光线追踪（Path Tracing）、复杂物理模拟和生成式 AI NPC 上。

未来的游戏，画面也许不再是由显卡“画”出来的，而是由 AI “想”出来的。而在那个未来里，240p 并不是简陋的代名词，而是通往虚拟现实的最高效钥匙。

本文数据基于 2026 年 2 月已有公开资料整理，部分功耗数据为实验室模拟环境得出。

附录：

DLSS 档位	线性缩放倍率	像素渲染比例	1080p 输出 (渲染分辨率)	1440p 输出 (渲染分辨率)	4K (2160p) 输出 (渲染分辨率)	推荐模型 (DLSS 4.5)
DLAA	1.0x	100%	1080p	1440p	2160p	Model K
质量 (Quality)	1.5x	66.7%	720p	960p	1440p	Model K
平衡 (Balanced)	1.7x	58.0%	635p	847p	1270p	Model K
性能 (Performance)	2.0x	50.0%	540p	720p	1080p	Model M
超级性能 (Ultra Perf)	3.0x	33.3%	360p	480p	720p	Model L
极限性能 (Hyper Perf)	6.0x – 9.0x	11% – 16%	120p – 180p	160p – 240p	240p – 360p	Model L

巅峰对决：Google TPU v7 (Ironwood) vs. NVIDIA Blackwell —— 2026年AI算力格局深度解析

zxi — Sat, 03 Jan 2026 17:09:48 +0000

发布日期： 2026年1月2日

阅读时间：约 18 分钟

作者： Gemini (AI 架构分析师)

1. 引言：从“一家独大”到“双雄争霸”

直到2024年，AI 硬件市场的主旋律基本上是“NVIDIA 及其追赶者”。然而，随着时间推进到2026年初，格局发生了微妙而深刻的变化。

NVIDIA 凭借 Blackwell 架构（B200/GB200）在2025年横扫了数据中心，但 Google 并没有坐以待毙。继 Trillium (TPU v6) 之后，Google 在2025年底重磅推出了第七代张量处理单元——TPU v7 (代号 Ironwood)。

这一代 TPU 不再仅仅是“Google 内部的玩具”，它在显存容量、互联带宽和能效比上已经完全追平甚至在某些特定场景超越了 NVIDIA 的旗舰产品。对于正在规划 2026-2027 年算力集群的 CTO 和 AI 架构师来说，选择不再是默认的绿色（NVIDIA），而是需要在“通用性霸主”与“垂直整合怪兽”之间做出艰难抉择。

本文将从架构参数、互联拓扑、软件生态、以及 TCO（总拥有成本）四个维度，全方位对比 TPU v7 与 NVIDIA Blackwell。

2. 核心规格参数对比：纸面实力的贴身肉搏

在 v5p 和 v6 时代，TPU 在单芯片算力上往往落后于 NVIDIA 同期旗舰，主要靠大规模集群取胜。但 TPU v7 “Ironwood” 彻底改变了这一局面。Google 采用了类似 Blackwell 的双芯粒（Dual-chiplet）封装技术，使得单卡性能暴涨。

以下是 TPU v7 (Ironwood) 与 NVIDIA B200 Blackwell 的关键参数对比：

核心指标	Google TPU v7 (Ironwood)	NVIDIA B200 (Blackwell)	胜出者
架构代号	Ironwood (7th Gen)	Blackwell	平手
制造工艺	TSMC Custom Node (est. 3nm)	TSMC 4NP (Refined 5nm/4nm)	TPU v7 (稍占优)
HBM 容量	192 GB (HBM3e)	192 GB (HBM3e)	平手
内存带宽	7.38 TB/s	8.0 TB/s	NVIDIA (微弱优势)
BF16 算力 (Dense)	~2,307 TFLOPS	~2,250 TFLOPS	平手 (极度接近)
FP8 算力 (Dense)	~4,614 TFLOPS	~4,500 TFLOPS	平手
互联带宽 (单芯片)	1,200 GB/s (ICI)	1,800 GB/s (NVLink 5)	NVIDIA (单点带宽)
最大集群规模	9,216 chips (单 Pod)	72 chips (NVL72) / SuperPod	Google (单 Pod 规模)
功耗 (TDP)	未公开 (est. ~900W 级别)	1000W – 1200W	TPU (能效比通常更高)

Gemini 核心洞察：

注意到那个惊人的变化了吗？TPU v7 的显存容量（192GB）终于追平了 NVIDIA。过去开发者不愿意用 TPU 的核心原因之一是大模型训练时显存不足导致切分困难，现在这个瓶颈被彻底消除了。

3. 架构深度解析：两种哲学的碰撞

3.1 NVIDIA Blackwell：单体性能的暴力美学

NVIDIA 的设计哲学是**“让单个 GPU 尽可能强大，并在机架内通过 NVLink 实现内存统一”**。

NVL72 架构： Blackwell 最核心的杀手锏不是单个 B200 芯片，而是 NVL72 机架。通过铜缆背板，72个 GPU 被连接成一个巨大的“超级 GPU”，共享 13.5TB 的 HBM 显存。
优势： 对于在该显存范围内能放下的模型（如 GPT-4 的单个 MoE 专家层），通信延迟极低，编程体验极佳（看起来像一张卡）。

3.2 Google TPU v7：极致的扩展与光互联

Google 的哲学是**“弱化单体差异，强化系统级吞吐与能效”**。

光路交换 (OCS – Optical Circuit Switching)： 这是 TPU 的护城河。TPU v7 配合 Google 标志性的 OCS 交换机，可以在数千个芯片之间动态调整拓扑结构（3D Torus）。
Pod 规模： 一个 TPU v7 Pod 可以包含 9,216 个芯片。相比之下，NVIDIA 需要通过 InfiniBand/Ethernet 交换机层层互联才能达到这个规模，这引入了更高的延迟和复杂性。TPU 在 Pod 内部是原生直连的 ICI (Inter-Chip Interconnect) 协议。

胜负手：

如果你需要训练一个 10万亿参数 的超级模型，TPU v7 的超大规模原生互联（ICI）可能比 NVIDIA 的 InfiniBand 网络更高效，且成本更低。
如果你需要做 极致低延迟的推理 或者模型大小在 10TB 以内，NVIDIA NVL72 架构的“统一内存”体验是无敌的。

4. 软件生态：CUDA 的护城河还在吗？

这是大多数企业不敢轻易切换到 TPU 的根本原因。但在 2026 年，情况有所好转。

4.1 NVIDIA：CUDA + NIMs

NVIDIA 不仅仅卖芯片，它在卖服务。

CUDA： 依然是底层性能优化的王者。
NVIDIA NIMs (NeMo Inference Microservices)： 到 2026 年，NVIDIA 已经将其软件栈高度容器化。企业不需要写 CUDA 代码，直接调用 NIMs 微服务即可部署 Llama 4 或 Gemini 等开源模型。这大大降低了 NVIDIA GPU 的使用门槛。

4.2 Google：JAX + PyTorch/XLA

Google 终于意识到了 PyTorch 的统治地位。

PyTorch/XLA 的成熟： 在 2024-2025 年间，Google 投入了巨大资源优化 PyTorch 在 TPU 上的表现。现在，TPU v7 对 PyTorch 的支持已经达到“First Class”级别。大部分主流模型（Transformer 类）只需要改动几行代码即可运行。
JAX 的崛起： 对于前沿研究者，JAX 依然是 TPU 的神器。它在处理大规模并行训练时的 pmap 和 shard_map 原语，比 PyTorch 的 DDP/FSDP 更加直观和可控。

迁移建议：

如果是 老旧代码库 深度依赖自定义 CUDA Kernel，留在 NVIDIA 生态。
如果是 新项目，或者使用标准的 Transformer 架构，迁移到 TPU v7 的成本已降至历史最低。

5. 经济账：TCO 与可获得性

NVIDIA： 尽管供应有所缓解，但在 2026 年 B200 依然是硬通货，溢价较高。你不仅要买 GPU，还要买昂贵的 InfiniBand 交换机、BlueField DPU 等配套设施（所谓的“NVIDIA 税”）。
Google TPU： 你买不到 TPU，你只能租。Google Cloud 通过垂直整合（自研芯片+自研网络+自研数据中心），通常能提供比同级别 NVIDIA 实例低 30%-50% 的价格。

5.2 能效比 (Performance per Watt)

这是 TPU v7 的杀手锏。得益于液冷设计和专用 ASIC 架构（剔除了图形渲染等冗余单元），TPU v7 在 AI 负载下的能效比约为 NVIDIA Blackwell 的 1.5倍。

对于在这个电力紧缺（Power Constrained）的年代运行大规模推理服务的公司来说，TPU v7 意味着能在同样的电力配额下，服务更多的用户。

6. 展望：Rubin 就在转角

虽然 TPU v7 此刻与 Blackwell 打得难解难分，但我们必须看向 2026 下半年。

NVIDIA 已经在路线图上预告了 Rubin (R100) 架构，预计将搭载 HBM4 显存，带宽可能会再次翻倍。

Google 的应对策略通常是更快的迭代节奏（TPU v8 已经在研发中，代号可能是 “Jade” 或其他矿物名），以及通过 Axion (自研 ARM CPU) 与 TPU 的协同来进一步降低系统级成本。

7. 总结与决策指南

2026 年的 AI 芯片战场，不再有绝对的赢家，只有适合不同场景的工具。

选择 NVIDIA Blackwell (B200/GB200) 如果：

你的团队由资深 CUDA 工程师组成，且依赖大量自定义算子。
你需要极高的单机/单节点带宽（例如 NVL72 的统一内存架构）。
你的业务不仅在云端，还涉及边缘计算或私有化部署（TPU 无法私有化部署）。
你需要最广泛的开源社区支持（GitHub 上的代码默认都是跑在 NVIDIA 上的）。

选择 Google TPU v7 (Ironwood) 如果：

你的业务完全基于 Google Cloud。
你关注 大规模分布式训练 的性价比和线性扩展能力（TPU 在数千卡规模下的扩展性优于 GPU）。
你对 推理成本 极其敏感（TPU v7 的性价比和能效比极具吸引力）。
你使用 JAX 进行前沿研究，或者使用标准的 PyTorch 模型（Transformer/Diffusion）。

一句话建议：

对于大多数寻求降本增效的 AI 应用公司，2026 年是尝试将推理负载迁移到 TPU v7 的最佳时机；而对于追求极致性能上限的基础模型训练实验室，NVIDIA Blackwell 依然是目前最稳妥的“暴力美学”代表。

附录：技术规格速查表

特性	TPU v7 (Ironwood) Pod	NVIDIA GB200 NVL72
互联技术	OCS (光路交换)	NVLink Switch (铜缆)
网络拓扑	3D Torus (动态可配)	All-to-All (机架内)
主要优势	扩展性、能效、云端性价比	编程模型简单、生态统治力
适用框架	JAX (原生), PyTorch/XLA	PyTorch, TensorFlow, JAX

(本文数据基于 2026 年 1 月公开技术文档整理，实际性能可能因具体工作负载而异。)