AMMA 架构：用存算一体 HBM 替代 GPU 计算 Die，百万上下文 Attention 的内存墙解法

Wed, 06 May 2026 00:00:00 +0000

当上下文长度从 8K 增长到 1M，Attention 的计算量增长了 15000 倍。但真正的瓶颈不是算力——是数据搬运。

一、长上下文推理的真正瓶颈不是 FLOPS

2026 年的 LLM 推理正在经历一场静默的危机。

Wed, 29 Apr 2026 00:00:00 +0000

如果你问一个GPU工程师"为什么LLM推理这么贵"，他的回答可能不是"算力不够"，而是**“数据搬不动”**。