性能优化 on Jiayun's Blog

【好文共赏】把 Swift 推到 1.1 Tflop/s：Matt Gallagher 用十种实现，在 M3 Max 上手写 LLM 训练，把矩阵乘法跑出 382 倍提升

Fri, 15 May 2026 00:00:00 +0000

📌 好文共赏 · Editor’s Pick

原文：Training an LLM in Swift, Part 1: Taking matrix multiplication from Gflop/s to Tflop/s

作者：Matt Gallagher（Cocoa with Love 主理人，iOS/macOS 资深独立开发者）

发布时间：2026 年 4 月 18 日

阅读时长：约 35 分钟（含代码与汇编片段）

多模评分：Opus 9.0 / Sonnet 8.8 / Gemini 8.7 — 综合 8.85 / 10

一句话推荐：一次极少有人能写出来的"全栈"性能讲座——不是 PyTorch 算子优化的高谈阔论，而是一个独立开发者用十个版本、上百行汇编、若干被 Apple 刻意藏起来的指令，把 Swift 训练 GPT-2 的速度推到比纯 C 快 30 倍、比单线程 OpenMP 快 30 倍、最终冲过 1 Tflop/s 的门槛。

一、为什么值得读

这篇文章在 Hacker News 上拿到 260+ 分，但和大多数 HN 头条不同的是：它不是观点文，不是公司公告，也不是市场分析——它是一份可复现、可量化、可单步演进的工程笔记。Matt Gallagher 不是在告诉你"Apple Silicon 多厉害"，而是把同一份 matmul_forward（GPT-2 124M 模型里那条贯穿前向反向的矩阵乘法）写了十遍，每次只改一个变量，每次都给出 tokens/s 和训练迭代/s 的实测，每次都贴出对应的 ARM64 汇编片段，让读者亲眼看到 Swift 编译器做了什么、漏了什么、需要被怎样"哄"才能吐出和 C 同样紧凑的指令流。

谁还在用 jemalloc？2026 年内存分配器的文艺复兴

Thu, 07 May 2026 00:00:00 +0000

一个被忽视的性能杠杆

在大多数程序员的认知里，内存分配器是一个「透明」的存在。你调用 malloc，系统给你一块内存；你调用 free，系统把它收回去。就这么简单。

但如果你运营过一个日均处理数十亿请求的数据库、一个需要在 64 核机器上榨干每一纳秒的存储引擎、或者一个在移动设备上要把 RSS 压到极致的浏览器——你就会知道，内存分配器是整个系统里最隐蔽、却也最有杠杆效应的性能旋钮之一。

Python 3.15的JIT革命与Rust入侵：编程语言进化的双螺旋

Fri, 24 Apr 2026 00:00:00 +0000

Python社区在2026年4月迎来了两个看似独立实则深度关联的里程碑：Python 3.15的JIT编译器终于"回到正轨"，以及Rust for CPython项目发布了最新进展报告。这两条线索编织在一起，勾勒出的是编程语言演进的一个根本性转向：动态语言的性能天花板正在被系统级语言从底层击穿。