Jiayun's Blog

探索与分享

AMMA 架构:用存算一体 HBM 替代 GPU 计算 Die,百万上下文 Attention 的内存墙解法

UCSD、Columbia 和延世大学提出 AMMA 多芯粒存算一体架构,在长上下文 LLM 推理中用 PNM-HBM 替代传统 GPU 计算 Die。当内存带宽成为瓶颈,计算应该搬到数据旁边。

近存计算3D堆叠芯片:LLM推理的下一个范式转移

爱丁堡大学、北大、剑桥联合研究揭示近存计算微架构如何突破LLM推理的内存墙瓶颈