Jiayun's Blog

探索与分享

【好文共赏】把"一分钟世界"塞进一块 H100:NVIDIA SANA-WM 用混合线性注意力,把世界模型从 14B 砍到 2.6B

SANA-WM 用 Frame-wise Gated DeltaNet × Softmax 的杂交注意力、Plücker × UCPE 的双轨相机控制,把一分钟 720p 可控视频从「8 卡 14B」压成「单卡 2.6B」——一篇关于世界模型如何降本三个数量级的技术拆解。

【好文共赏】别回答第一个问题:Perfetto 团队的 Lalit Maganti 把"工程支持"做成了一门读心术

Google Perfetto 资深工程师 Lalit Maganti 用一篇 1600 词的随笔,把工具维护者每天都在做的"用户提问诊断"提炼成四种结局:你是缺哲学,还是没找到入口,还是真的该改产品。

【好文共赏】当 part 数从 30k 涨到 160k:Cloudflare 用三个补丁,把 ClickHouse 查询规划器从一把互斥锁里救出来

Cloudflare 工程师 James Morrison 和 Christian Endres 写了一篇教科书级的 OLAP 性能调优实录:账单流水线突然变慢,I/O、内存、行数都正常,flame graph 从 CPU 切到 Real 才暴露真凶——MergeTreeData 的一把独占互斥锁。从 shared_lock 到 deferred copy 再到 binary search,三步上游 PR,把 8x 加速带回 ClickHouse 社区。

【好文共赏】第三个难题:Roman Kashitsyn 把"树映射"提升为继命名与缓存失效之后的计算机科学第三难

mmapped.blog 的 Roman Kashitsyn 写了一篇横跨文件系统、写作、城市规划、生物分类与 Rust 借用检查器的元论文,把"把一个图嵌入到一棵树"这件每天都在悄悄折磨我们的事——命名为 tree mapping,与 Phil Karlton 的命名和缓存失效并列,封为第三个 hard problem。

【好文共赏】禁欲计算:Dave Gauer 把 Thoreau、Flaubert、OpenBSD 拼在同一张配置文件里——"为了禁欲,我选择不要这一行"

ratfactor 写了一篇 5000 字的长文,从 'I opted to do without this for ascetic reasons' 这条注释出发,把计算实践重新拆成三条原则:道德、FOMO、闪亮物。这是一份反 minimalism、亲 maximalism 的禁欲手册。

【好文共赏】浏览器源码里那张藏起来的"大客户名单":Den Odell 把 Quirks.cpp 摊开,发现整个 Web 标准其实只是 Chrome 的脚注

Safari 在源码里硬编码了 149 个域名,Firefox 维护着 372 份 site intervention JSON——Chrome 没有这个文件夹。Canva Staff Engineer Den Odell 通过两份公开仓库的源码考古,把'Chrome 即标准'这个时代特征写成了一份证据档案。

【论文导读】Chinchilla 的『出生缺陷』:为什么 80% 的 scaling law 论文其实拟不出可信系数

拆解 arXiv 2605.08541:Syracuse + Amazon AGI Foundations 用一份 Gauss-Newton 分析证明——只要训练 grid 全在一条 D=kN 直线上、且 α≈β,scaling law 的尺度系数就是统计上不可识别的。Chinchilla 经典 17×、Kaplan 经典 53× 的置信区间膨胀,全部源于 Jacobian 几何而非数据噪声。配一份 1,900 个 LLM 的实证:non-collinear 设计在留出集上以 97.3% 胜率击败 collinear 设计。

【论文导读】MinT:把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

拆解 arXiv 2605.13779——Macaron AI 旗下 Mind Lab 的 27 页技术报告,第一份把 LoRA RL 推到 Kimi K2 1.04T、把百万级 LoRA 政策做成一个有 catalog/CPU/GPU 三层 cache 的服务系统,并给出 8.5× 加载、18.3× 切换、1.77× 并发 GRPO 等可复现的工程数据。

【论文导读】MoE 时代的 μP:MSSP 如何修复 μP 在稀疏专家网络上的失败

拆解 arXiv 2605.14200:UCL Gatsby + Tübingen 团队用 DMFT 证明 μP 在细粒度 MoE 上不收敛,并给出三种 scaling 区制下的『最大尺度稳定参数化』MSSP,实测在 2.5B GPT-MoE 上恢复学习率迁移与单调改进。这可能是 2026 年最重要的一份『可直接落地』的 MoE 训练 recipe。

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token:UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

拆解 arXiv 2605.15514:Yufeng Du 等把 RoPE product 当作正态随机变量来研究,证明 4 个失败模式(位置反转 / 位置混叠 / token 反转 / token 混叠)的概率都随上下文长度 M 单调上升、最终趋近 0.5;并在 Llama 3.1-8B、Qwen3-8B、DeepSeek-V3.1、Kimi-K2.5、gpt-oss-120B 上做了简单到不能再简单的「查 list」实验,所有模型在 4K-8K 之内就掉到随机猜。如果你信这套理论,那么『更长 context』这条路只能靠新机制,不能靠堆数据。