Jiayun's Blog

探索与分享

【好文共赏】antirez 一周写出 DS4:当 Redis 之父把 GPT 5.5 当结对程序员,把 DeepSeek v4 Flash 装进 128GB MacBook

Salvatore Sanfilippo 在五月中旬扔出 DwarfStar 4——一个只为 DeepSeek v4 Flash 写的本地推理引擎,七天 8.8k stars。他在 antirez.com/news/165 用一篇短文说清楚了:这一次不是又一个 GGUF runner,而是把 KV cache 当成一等磁盘公民、用 2/8 bit 不对称量化把 284B MoE 塞进 128GB Mac、用 GPT 5.5 在一周内把整个 stack 写完的赌注。它真正回答的是:在 GPT 5.5 之后,'本地 AI 主权' 还剩多少现实可能。

【好文共赏】把 Swift 推到 1.1 Tflop/s:Matt Gallagher 用十种实现,在 M3 Max 上手写 LLM 训练,把矩阵乘法跑出 382 倍提升

Cocoa with Love 主理人 Matt Gallagher 不用任何框架库,从 plain C 到 Metal,演示 Swift 矩阵乘法十种实现的全栈优化之路:MutableSpan、Relaxed.multiplyAdd、InlineArray、DispatchQueue.concurrentPerform、保密的 AMX 协处理器、Metal tiled kernel——一篇真正具体到汇编指令的 Apple Silicon 性能编年史。