<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>芯片架构 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/%E8%8A%AF%E7%89%87%E6%9E%B6%E6%9E%84/</link><description>Recent content in 芯片架构 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Wed, 06 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/%E8%8A%AF%E7%89%87%E6%9E%B6%E6%9E%84/index.xml" rel="self" type="application/rss+xml"/><item><title>AMMA 架构：用存算一体 HBM 替代 GPU 计算 Die，百万上下文 Attention 的内存墙解法</title><link>https://xiejiayun.github.io/post/pnm-hbm-replace-gpu-compute-die-attention-2026/</link><pubDate>Wed, 06 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/pnm-hbm-replace-gpu-compute-die-attention-2026/</guid><description>&lt;blockquote>
&lt;p>当上下文长度从 8K 增长到 1M，Attention 的计算量增长了 15000 倍。但真正的瓶颈不是算力——是数据搬运。&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="一长上下文推理的真正瓶颈不是-flops">一、长上下文推理的真正瓶颈不是 FLOPS&lt;/h2>
&lt;p>2026 年的 LLM 推理正在经历一场静默的危机。&lt;/p></description></item><item><title>近存计算3D堆叠芯片：LLM推理的下一个范式转移</title><link>https://xiejiayun.github.io/post/near-memory-3d-stacked-llm-chips-2026/</link><pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/near-memory-3d-stacked-llm-chips-2026/</guid><description>&lt;h2 id="llm推理的真正瓶颈不是算力是搬数据">LLM推理的真正瓶颈：不是算力，是搬数据&lt;/h2>
&lt;p>如果你问一个GPU工程师&amp;quot;为什么LLM推理这么贵&amp;quot;，他的回答可能不是&amp;quot;算力不够&amp;quot;，而是**&amp;ldquo;数据搬不动&amp;rdquo;**。&lt;/p></description></item></channel></rss>