Jiayun's Blog

探索与分享

【好文共赏】把 Swift 推到 1.1 Tflop/s:Matt Gallagher 用十种实现,在 M3 Max 上手写 LLM 训练,把矩阵乘法跑出 382 倍提升

Cocoa with Love 主理人 Matt Gallagher 不用任何框架库,从 plain C 到 Metal,演示 Swift 矩阵乘法十种实现的全栈优化之路:MutableSpan、Relaxed.multiplyAdd、InlineArray、DispatchQueue.concurrentPerform、保密的 AMX 协处理器、Metal tiled kernel——一篇真正具体到汇编指令的 Apple Silicon 性能编年史。

谁还在用 jemalloc?2026 年内存分配器的文艺复兴

从 Redis 到 ClickHouse,从 Rust 生态到 CPython 3.15,jemalloc 正经历一场'调优复兴'。Phil Eaton 的调研揭示了基础软件领域一个被忽视的性能杠杆。

Python 3.15的JIT革命与Rust入侵:编程语言进化的双螺旋

从CPython JIT编译器回归正轨到Rust组件深度集成,解析Python生态的底层变革