gpu – Huahua’s Tech Road

避坑指南：给模型训练加点速度，顺便聊聊 MBP 的电源模式

zxi — Thu, 05 Feb 2026 17:17:49 +0000

最近在折腾一个模型训练任务，结果发现了一个挺有意思的现象。我的 16″ M1 Max MBP 插着电源线，电量竟然还在嗖嗖往下掉。查了一下才发现，随手抓的那个苹果 67W 充电器在模型训练面前简直是“入不敷出”。

为了看看到底差多少，我针对 Low Power Mode（低电量模式） 和 High Power Mode（高功率模式） 做了一组对比测试。数据非常直观，分享给大家参考。

注：高功率模式 (High Power Mode) 最早是在 2021 年 10 月 随 macOS Monterey 发布的，当时仅限配备 M1 Max 芯片的 16 英寸 MacBook Pro 使用。

性能实测：低功耗 vs 高功率

在模型训练压测下，我记录了 CPU、GPU 以及 ANE（神经网络引擎）的功耗表现：

指标	低电量模式 (Low Power)	高功率模式 (High Power)	增幅 / 差异
CPU Power	4,038 mW	6,903 mW	+70.9%
GPU Power	13,524 mW	26,947 mW	+99.2%
ANE Power	0 mW	0 mW	–
总功耗 (Combined)	17,619 mW	33,849 mW	+92.1%
GPU 主频 (Avg)	871 MHz	1,282 MHz	+47.1%
GPU 空闲率	8.57%	1.19%	负载更饱和
训练速度	650ms/step	475ms/step	-36.8%

深度发现

GPU 功耗几乎翻倍：在高功率模式下，GPU 的功耗从 13.5W 直接跳到了近 27W。观察频率分布可以发现，低功耗模式下 GPU 频率最高只到了 972 MHz (占比 29%)，而高功率模式下 95% 的时间都顶在 1296 MHz 运行。训练速度提高了不到40%，比频率提升47.1%稍低一些。
风扇策略的差异：高功率模式不仅仅是放开了功耗墙，更重要的是它优化了散热策略。这也是为什么 16 寸 M1 Max 专享这个功能的原因——得有足够的散热模组才能压得住这额外的十几瓦发热。
电源适配器的重要性：测试数据显示，单单 SoC 部分的功耗就达到了 34W 左右。如果再加上屏幕亮度、内存读写以及其他硬件开销，整机功耗轻轻松松突破 50W。难怪 67W 的头充不进电，以后出门干重活，还是得带上原装的 140W 大头。

总结

macOS 的电源模式确实不是摆设。低电量模式适合出门在外写写代码、浏览网页，能显著延长续航；但如果你和我一样需要训练模型或者高强度渲染，一定要手动开启高功率模式。

虽然这会让风扇声大一点，但节省下来的训练时间才是最宝贵的。顺便提醒一句：工欲善其事，必先带好那个 140W 的适配器！

Intel Panther Lake 炸场 CES 2026：x86 的“M1 时刻”终于到来了吗？

zxi — Wed, 07 Jan 2026 05:20:40 +0000

CES 2026正在如火如荼地进行中，如果说今年展会有什么东西真正让整个科技圈感到“久违的兴奋”，那绝对是 Intel 刚刚发布的代号为 Panther Lake（酷睿 Ultra 3系列）的处理器。

基于传闻已久的 18A 工艺，这款芯片不仅仅是一次常规的迭代，它更像是 Intel 被压制多年后的一次“绝地反击”。尤其是其 GPU 性能的恐怖提升，让不少人开始讨论那个被提及无数次的话题：这是否是 x86 架构的“M1 时刻”？

今天我们就结合 CES 2026 的最新数据，来深度聊聊这款新品，以及它对掌机市场（尤其是 Steam Deck 2）可能带来的剧变。

1. 18A 工艺与 Panther Lake：迟来的“M1 时刻”？

“M1 时刻”通常指代苹果在 2020 年凭借 ARM 架构实现的能效比（Performance per Watt）巨大飞跃，彻底甩开 x86 竞品的那个瞬间。而在 2026 年，Intel 似乎想证明 x86 并没有死。

根据 Intel 在 Keynote 上公布的数据，Panther Lake 采用了其最先进的 18A (1.8nm级) 工艺节点。这不仅仅是制程数字的游戏，更是晶体管架构的革新（RibbonFET + PowerVia）。

GPU 性能暴涨： Panther Lake 搭载的 Arc B390 核显（基于 Xe3 架构，代号 Celestial）在发布会上令人瞠目结舌。Intel 宣称其图形性能比上一代 Lunar Lake（Arc 140V）提升了 77%。
能效比： 最关键的是，它在实现这一性能的同时，功耗控制达到了前所未有的水平。

是“M1 时刻”吗？

答案是：非常接近，甚至在游戏领域更有意义。

如果说苹果 M 系列证明了 ARM 的低功耗优势，那么 Panther Lake 则证明了 x86 可以通过先进工艺“暴力”解决能效问题。对于 PC 玩家来说，Panther Lake 的意义可能比 M1 更大——因为它不需要转译，它天生兼容所有 3A 大作，并且现在终于可以在掌机功耗下跑出桌面级的帧率了。

2. 强敌环伺：对比高通 Snapdragon X2 Elite 与 AMD

当然，2026 年的芯片战场依然硝烟弥漫。我们将 Panther Lake 拉出来与两位老对手“练练手”。

vs. 高通 Snapdragon X2 Elite (ARM)

高通在 CES 2026 上带来的 Snapdragon X2 Elite（第二代 Oryon 架构）依然是续航的王者。

优势： X2 Elite 在纯办公、视频播放的续航上依然领先 Panther Lake，且 AI 算力（NPU）依然略胜一筹。
劣势： 尽管微软的 Prism 转译层在 2025 年有了长足进步，但在重度游戏兼容性上，ARM 依然无法与原生 x86 抗衡。
结论： 如果你是文字工作者，X2 依然是首选；但如果你是游戏玩家或创作者，Panther Lake 夺回了王座。

vs. AMD (Ryzen AI 300/400 Refresh)

这是最血腥的战场。过去三年，AMD 靠着 Radeon 核显统治了轻薄本和掌机市场。但这次，Intel 甚至直接点名了 AMD 的旗舰核显 Radeon 890M (RDNA 3.5 架构)。

数据碾压： Intel 官方 PPT 显示，Arc B390 的游戏性能平均比 Radeon 890M 快了 73%。
局势反转： 这是一个极其夸张的数字。以前我们说“Intel 核显能玩了”，现在是“Intel 核显比 AMD 快了一大截”。AMD 引以为傲的能效优势在 18A 工艺面前似乎瞬间消失了。

3. 掌机市场的变局：AMD 的垄断结束了？

这或许是 Panther Lake 最直接的影响领域。

过去几年，从 Steam Deck 到 ROG Ally，再到联想 Legion Go，掌机市场几乎是 AMD 的后花园。但 CES 2026 上，Intel 宣布了专门的 “Intel Handheld Gaming Platform”（英特尔掌机游戏平台）。

基于 18A 的 Panther Lake 对于掌机来说简直是“天作之合”：

低功耗下的高性能： 掌机最在乎 15W-25W 功耗下的性能，而这正是 18A 的甜点区。
驱动进步： 经过 Arc 显卡几年的驱动打磨，Intel 在 2026 年的驱动稳定性已经不可同日而语，XeSS 3 的超分辨率技术也比 FSR 更加清晰。

预测： 2026 年下半年，我们将看到一大波搭载 Intel 芯片的国产掌机（如 GPD、Ayaneo）以及大厂新品（也许是 MSI Claw 2 的修正版）。AMD 即使推出新产品，如果性能提升不如预期，其统治地位将岌岌可危。

4. 灵魂拷问：Steam Deck 2 会用 Intel 吗？

所有玩家都在等 Valve 的 Steam Deck 2。既然 Panther Lake 这么强，Gabe Newell (G胖) 会动心吗？

理性分析：可能性依然较小，但并非为零。

阻碍 1：Linux 生态惯性。 SteamOS 的成功很大程度上归功于 Valve 与 AMD 在 Linux 驱动（尤其是 MESA 和 Vulkan）上的深度合作。换成 Intel 意味着 Valve 需要重新大规模适配驱动，虽然 Intel 的开源驱动不错，但 AMD 的整合度目前是无敌的。
阻碍 2：定制成本。 Valve 喜欢定制 APU（如 Van Gogh, Sephiroth）。AMD 在半定制（Semi-Custom）业务上经验丰富（PS5, Xbox 都是客户），而 Intel 的代工业务（IFS）虽然开放了，但能否为 Valve 提供同样灵活且低成本的定制方案还是未知数。
变数： 除非……Intel 为了推广 18A 工艺，给了 Valve 一个无法拒绝的价格。毕竟 18A 是 Intel 自己的工厂，为了抢占市场，他们完全可能在成本上通过补贴来“截胡” AMD。

目前最可能的剧本： Steam Deck 2 大概率依然会使用 AMD 的定制芯片（基于 Zen 5/6 + RDNA 4），但 Panther Lake 的出现会逼迫 AMD 把压箱底的技术都拿出来，否则 Steam Deck 2 的性能可能会被市面上其他的 Intel 掌机吊打。

总结

2026 年的 CES 告诉我们，芯片行业的周期律依然有效。在被嘲笑“牙膏厂”多年后，Intel 终于凭借 18A 工艺和 Panther Lake 挤爆了一整管牙膏。

这或许不是严格意义上类似苹果抛弃 x86 的“M1 时刻”，但对于 x86 阵营内部而言，这是权杖交接的时刻。对于我们消费者，特别是掌机玩家来说，好日子来了——无论你买 Intel 还是 AMD，今年的性能提升都将是过去三年总和的数倍。

你的下一台掌机，会选择相信“翻身”的 Intel 吗？

巅峰对决：Google TPU v7 (Ironwood) vs. NVIDIA Blackwell —— 2026年AI算力格局深度解析

zxi — Sat, 03 Jan 2026 17:09:48 +0000

发布日期： 2026年1月2日

阅读时间：约 18 分钟

作者： Gemini (AI 架构分析师)

1. 引言：从“一家独大”到“双雄争霸”

直到2024年，AI 硬件市场的主旋律基本上是“NVIDIA 及其追赶者”。然而，随着时间推进到2026年初，格局发生了微妙而深刻的变化。

NVIDIA 凭借 Blackwell 架构（B200/GB200）在2025年横扫了数据中心，但 Google 并没有坐以待毙。继 Trillium (TPU v6) 之后，Google 在2025年底重磅推出了第七代张量处理单元——TPU v7 (代号 Ironwood)。

这一代 TPU 不再仅仅是“Google 内部的玩具”，它在显存容量、互联带宽和能效比上已经完全追平甚至在某些特定场景超越了 NVIDIA 的旗舰产品。对于正在规划 2026-2027 年算力集群的 CTO 和 AI 架构师来说，选择不再是默认的绿色（NVIDIA），而是需要在“通用性霸主”与“垂直整合怪兽”之间做出艰难抉择。

本文将从架构参数、互联拓扑、软件生态、以及 TCO（总拥有成本）四个维度，全方位对比 TPU v7 与 NVIDIA Blackwell。

2. 核心规格参数对比：纸面实力的贴身肉搏

在 v5p 和 v6 时代，TPU 在单芯片算力上往往落后于 NVIDIA 同期旗舰，主要靠大规模集群取胜。但 TPU v7 “Ironwood” 彻底改变了这一局面。Google 采用了类似 Blackwell 的双芯粒（Dual-chiplet）封装技术，使得单卡性能暴涨。

以下是 TPU v7 (Ironwood) 与 NVIDIA B200 Blackwell 的关键参数对比：

核心指标	Google TPU v7 (Ironwood)	NVIDIA B200 (Blackwell)	胜出者
架构代号	Ironwood (7th Gen)	Blackwell	平手
制造工艺	TSMC Custom Node (est. 3nm)	TSMC 4NP (Refined 5nm/4nm)	TPU v7 (稍占优)
HBM 容量	192 GB (HBM3e)	192 GB (HBM3e)	平手
内存带宽	7.38 TB/s	8.0 TB/s	NVIDIA (微弱优势)
BF16 算力 (Dense)	~2,307 TFLOPS	~2,250 TFLOPS	平手 (极度接近)
FP8 算力 (Dense)	~4,614 TFLOPS	~4,500 TFLOPS	平手
互联带宽 (单芯片)	1,200 GB/s (ICI)	1,800 GB/s (NVLink 5)	NVIDIA (单点带宽)
最大集群规模	9,216 chips (单 Pod)	72 chips (NVL72) / SuperPod	Google (单 Pod 规模)
功耗 (TDP)	未公开 (est. ~900W 级别)	1000W – 1200W	TPU (能效比通常更高)

Gemini 核心洞察：

注意到那个惊人的变化了吗？TPU v7 的显存容量（192GB）终于追平了 NVIDIA。过去开发者不愿意用 TPU 的核心原因之一是大模型训练时显存不足导致切分困难，现在这个瓶颈被彻底消除了。

3. 架构深度解析：两种哲学的碰撞

3.1 NVIDIA Blackwell：单体性能的暴力美学

NVIDIA 的设计哲学是**“让单个 GPU 尽可能强大，并在机架内通过 NVLink 实现内存统一”**。

NVL72 架构： Blackwell 最核心的杀手锏不是单个 B200 芯片，而是 NVL72 机架。通过铜缆背板，72个 GPU 被连接成一个巨大的“超级 GPU”，共享 13.5TB 的 HBM 显存。
优势： 对于在该显存范围内能放下的模型（如 GPT-4 的单个 MoE 专家层），通信延迟极低，编程体验极佳（看起来像一张卡）。

3.2 Google TPU v7：极致的扩展与光互联

Google 的哲学是**“弱化单体差异，强化系统级吞吐与能效”**。

光路交换 (OCS – Optical Circuit Switching)： 这是 TPU 的护城河。TPU v7 配合 Google 标志性的 OCS 交换机，可以在数千个芯片之间动态调整拓扑结构（3D Torus）。
Pod 规模： 一个 TPU v7 Pod 可以包含 9,216 个芯片。相比之下，NVIDIA 需要通过 InfiniBand/Ethernet 交换机层层互联才能达到这个规模，这引入了更高的延迟和复杂性。TPU 在 Pod 内部是原生直连的 ICI (Inter-Chip Interconnect) 协议。

胜负手：

如果你需要训练一个 10万亿参数 的超级模型，TPU v7 的超大规模原生互联（ICI）可能比 NVIDIA 的 InfiniBand 网络更高效，且成本更低。
如果你需要做 极致低延迟的推理 或者模型大小在 10TB 以内，NVIDIA NVL72 架构的“统一内存”体验是无敌的。

4. 软件生态：CUDA 的护城河还在吗？

这是大多数企业不敢轻易切换到 TPU 的根本原因。但在 2026 年，情况有所好转。

4.1 NVIDIA：CUDA + NIMs

NVIDIA 不仅仅卖芯片，它在卖服务。

CUDA： 依然是底层性能优化的王者。
NVIDIA NIMs (NeMo Inference Microservices)： 到 2026 年，NVIDIA 已经将其软件栈高度容器化。企业不需要写 CUDA 代码，直接调用 NIMs 微服务即可部署 Llama 4 或 Gemini 等开源模型。这大大降低了 NVIDIA GPU 的使用门槛。

4.2 Google：JAX + PyTorch/XLA

Google 终于意识到了 PyTorch 的统治地位。

PyTorch/XLA 的成熟： 在 2024-2025 年间，Google 投入了巨大资源优化 PyTorch 在 TPU 上的表现。现在，TPU v7 对 PyTorch 的支持已经达到“First Class”级别。大部分主流模型（Transformer 类）只需要改动几行代码即可运行。
JAX 的崛起： 对于前沿研究者，JAX 依然是 TPU 的神器。它在处理大规模并行训练时的 pmap 和 shard_map 原语，比 PyTorch 的 DDP/FSDP 更加直观和可控。

迁移建议：

如果是 老旧代码库 深度依赖自定义 CUDA Kernel，留在 NVIDIA 生态。
如果是 新项目，或者使用标准的 Transformer 架构，迁移到 TPU v7 的成本已降至历史最低。

5. 经济账：TCO 与可获得性

NVIDIA： 尽管供应有所缓解，但在 2026 年 B200 依然是硬通货，溢价较高。你不仅要买 GPU，还要买昂贵的 InfiniBand 交换机、BlueField DPU 等配套设施（所谓的“NVIDIA 税”）。
Google TPU： 你买不到 TPU，你只能租。Google Cloud 通过垂直整合（自研芯片+自研网络+自研数据中心），通常能提供比同级别 NVIDIA 实例低 30%-50% 的价格。

5.2 能效比 (Performance per Watt)

这是 TPU v7 的杀手锏。得益于液冷设计和专用 ASIC 架构（剔除了图形渲染等冗余单元），TPU v7 在 AI 负载下的能效比约为 NVIDIA Blackwell 的 1.5倍。

对于在这个电力紧缺（Power Constrained）的年代运行大规模推理服务的公司来说，TPU v7 意味着能在同样的电力配额下，服务更多的用户。

6. 展望：Rubin 就在转角

虽然 TPU v7 此刻与 Blackwell 打得难解难分，但我们必须看向 2026 下半年。

NVIDIA 已经在路线图上预告了 Rubin (R100) 架构，预计将搭载 HBM4 显存，带宽可能会再次翻倍。

Google 的应对策略通常是更快的迭代节奏（TPU v8 已经在研发中，代号可能是 “Jade” 或其他矿物名），以及通过 Axion (自研 ARM CPU) 与 TPU 的协同来进一步降低系统级成本。

7. 总结与决策指南

2026 年的 AI 芯片战场，不再有绝对的赢家，只有适合不同场景的工具。

选择 NVIDIA Blackwell (B200/GB200) 如果：

你的团队由资深 CUDA 工程师组成，且依赖大量自定义算子。
你需要极高的单机/单节点带宽（例如 NVL72 的统一内存架构）。
你的业务不仅在云端，还涉及边缘计算或私有化部署（TPU 无法私有化部署）。
你需要最广泛的开源社区支持（GitHub 上的代码默认都是跑在 NVIDIA 上的）。

选择 Google TPU v7 (Ironwood) 如果：

你的业务完全基于 Google Cloud。
你关注 大规模分布式训练 的性价比和线性扩展能力（TPU 在数千卡规模下的扩展性优于 GPU）。
你对 推理成本 极其敏感（TPU v7 的性价比和能效比极具吸引力）。
你使用 JAX 进行前沿研究，或者使用标准的 PyTorch 模型（Transformer/Diffusion）。

一句话建议：

对于大多数寻求降本增效的 AI 应用公司，2026 年是尝试将推理负载迁移到 TPU v7 的最佳时机；而对于追求极致性能上限的基础模型训练实验室，NVIDIA Blackwell 依然是目前最稳妥的“暴力美学”代表。

附录：技术规格速查表

特性	TPU v7 (Ironwood) Pod	NVIDIA GB200 NVL72
互联技术	OCS (光路交换)	NVLink Switch (铜缆)
网络拓扑	3D Torus (动态可配)	All-to-All (机架内)
主要优势	扩展性、能效、云端性价比	编程模型简单、生态统治力
适用框架	JAX (原生), PyTorch/XLA	PyTorch, TensorFlow, JAX

(本文数据基于 2026 年 1 月公开技术文档整理，实际性能可能因具体工作负载而异。)