GDDRHammer：GPU 显存里的比特翻转，如何让攻击者接管整台主机

2026 年 4 月，两支独立的安全研究团队在同一周内公布了针对 NVIDIA GPU 的 Rowhammer 攻击。不同于过去十年针对 CPU DRAM 的 Rowhammer 研究，这一次攻击发生在 GPU 的 GDDR6 显存中——然后跨越了 PCIe 总线，夺取了主机 CPU 的完整控制权。

什么是 Rowhammer，为什么 GPU 上更危险

Rowhammer 是 2014 年 Google Project Zero 首次公开披露的 DRAM 物理漏洞：反复激活（hammer）DRAM 中的某一行（row），会导致相邻行的比特发生翻转（bit flip）。在 CPU 侧，十年来的防御措施——ECC 校验、Target Row Refresh (TRR)、地址空间随机化——已经形成了多层防线。

但 GPU 侧几乎是一片空白：

维度	CPU DRAM	GPU GDDR6
ECC 覆盖	服务器标配	消费级 GPU 无 ECC
刷新策略	TRR 已部署多代	GDDR6 无标准化 TRR
IOMMU 保护	通常启用	BIOS 默认关闭
攻击面	需本地代码执行	任何 CUDA/OpenCL 程序即可触发

关键差异在于最后一行：GPU 的编程模型天然允许用户态程序高速、重复地访问显存地址——这正是 Rowhammer 所需要的。

三把钥匙：GDDRHammer、GeForge 与第三攻击

GDDRHammer：从显存到系统内存的跨界跳跃

第一篇论文 “Greatly Disturbing DRAM Rows — Cross-Component Rowhammer Attacks from Modern GPUs”（Andrew Kwong 等）提出了 GDDRHammer 攻击：

诱导比特翻转：在 RTX 3060 上成功触发 1,171 次比特翻转，RTX 6000 上触发 202 次
攻击目标：GPU 的末级页表（last-level page table）存储在 GDDR6 中
跨界升级：通过篡改页表映射，攻击者获得对 所有 CPU 物理内存 的任意读写能力
前提条件：IOMMU 处于关闭状态（这是绝大多数 BIOS 的默认配置）

GeForge：锻造 GPU 页表的另一条路径

第二篇论文 “Hammering GDDR Memory to Forge GPU Page Tables for Fun and Profit” 则攻击了末级页目录（page directory），而非页表本身。研究者在 RTX 3060 上演示了完整的攻击链：从一个普通用户权限的 CUDA 程序，一路打穿到 root shell。

第三攻击：IOMMU 也挡不住

2026 年 4 月 3 日披露的第三个变种更为严峻——它针对 RTX A6000，即使启用 IOMMU 也能实现提权。这意味着过去十年里被视为硬件级安全边界的 IOMMU，在 GPU Rowhammer 场景下被彻底绕过。

威胁模型：谁应该紧张

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
攻击链路:

  恶意 CUDA 程序
       |
       v
  GDDR6 Rowhammer -> 比特翻转
       |
       v
  GPU 页表/页目录被篡改
       |
       v
  GPU 获得 CPU 物理内存任意读写
       |
       v
  Root Shell / 完整系统控制

最直接的受害者是多租户 GPU 云。在 AWS、Azure、GCP 等提供 GPU 实例的环境中，如果同一物理 GPU 被多个租户共享（通过 MIG 或 vGPU），恶意租户理论上可以通过 Rowhammer 逃逸隔离边界。虽然主流云厂商通常为 GPU 实例启用了 IOMMU，但第三个攻击变种表明这道防线并不可靠。

对 AI 训练集群的影响同样不可忽视。大规模训练任务中的 静默数据损坏（silent data corruption, SDC） 本身就是已知问题——Meta 在 2023 年的论文中报告了 GPU 级 SDC 导致训练发散的案例。Rowhammer 将这一问题从概率性故障升级为可被主动利用的攻击向量。

防御困境

防御手段	有效性	代价
启用 IOMMU	挡住前两种攻击，挡不住第三种	约 5-10% GPU 性能损失
GDDR6 ECC	理论有效，但消费级 GPU 不支持	需要硬件更新换代
GDDR6 TRR	JEDEC 尚未标准化	需要 DRAM 厂商协同
限制 CUDA 内存访问模式	可检测部分 hammer 模式	影响合法高性能计算
硬件隔离（SR-IOV）	增强但不能根治	已部署于数据中心 GPU

核心矛盾在于：GPU 的设计哲学是 最大化内存带宽利用率，而 Rowhammer 防御需要 限制内存访问模式。这两者在架构层面存在根本冲突。

行业影响与判断

短期（6-12 个月）：NVIDIA 大概率会发布驱动层面的缓解措施，例如检测异常 hammer 模式并终止进程。云厂商将强制启用 IOMMU 并部署额外的运行时监控。

中期（1-3 年）：GDDR7 标准需要纳入类似 TRR 的行级刷新机制。JEDEC 的 GDDR7 规范（预计 2027 年量产）是否会包含这些安全特性，将决定下一代 GPU 是否继续暴露在 Rowhammer 风险之下。

长期判断：GPU 安全正在经历 CPU 安全在 2018 年 Spectre/Meltdown 之后的相同觉醒。区别在于 GPU 的攻击面更大（任何 CUDA 程序即可触发），而防御工具更少（缺乏成熟的硬件安全研究基础设施）。GDDR Rowhammer 有可能成为 GPU 安全领域的 Spectre 时刻。

参考资料：

GDDRHammer 论文 - Andrew Kwong 等
GeForge 论文 - GPU 页表伪造攻击
Schneier on Security - Rowhammer Attack Against NVIDIA Chips
Ars Technica - New rowhammer attacks give complete control of machines running Nvidia GPUs
研究项目主页

Jiayun's Blog