Jiayun's Blog

探索与分享

AMMA 架构：用存算一体 HBM 替代 GPU 计算 Die，百万上下文 Attention 的内存墙解法

UCSD、Columbia 和延世大学提出 AMMA 多芯粒存算一体架构，在长上下文 LLM 推理中用 PNM-HBM 替代传统 GPU 计算 Die。当内存带宽成为瓶颈，计算应该搬到数据旁边。

Posted by Jiayun's Blog on Wednesday, May 6, 2026 00:00 UTC

近存计算3D堆叠芯片：LLM推理的下一个范式转移

爱丁堡大学、北大、剑桥联合研究揭示近存计算微架构如何突破LLM推理的内存墙瓶颈

Posted by Jiayun's Blog on Wednesday, April 29, 2026 00:00 UTC