Jiayun's Blog

探索与分享

【好文共赏】262,715 个正则问题里藏着的算法债:一位 PhD 用 859,351,734 次浏览量证明 lookahead 不是 AND

Ian Erik Varatalu 把 106 GB 的 Stack Overflow 数据集翻出来,对 262,715 个 regex 标签问题做了一次定量考古,然后用他自己的 RE# 引擎一组组打回去:tempered greedy token 比真正的补集慢 152x,密码校验的链式 lookahead 比真正的交集慢 17x,Java 的可变长 lookbehind 在 58 KB 输入上要跑 6.87 秒。这不是又一篇 RIIR,而是一篇用 60 年前 Brzozowski 微分理论 + 当代符号自动机重构整个 regex 抽象的研究笔记。

【好文共赏】Rust 的边界在哪里:Black Hat Rust 作者 Kerkour 写给所有"想抄 Cloudflare 作业"的团队一封劝退信

Sylvain Kerkour(Black Hat Rust 作者)在 2026 年 5 月发表逆主流长文,论证 Amazon/Cloudflare/Discord 那条 Rust 化路径不适合大多数团队。本文拆解他的 4 类反对论点(async 难、版本腐化、std lib 贫血、生态碎片),整理 5 个真正适合 Rust 的场景,并与本站 io_uring 异步运行时分裂分析、TanStack 供应链事故、Linux kernel copyfail 等旧文交叉对照。

【好文共赏】GGUF 不只是权重:一个本地推理引擎作者眼里,单文件模型格式还缺什么

GGUF 把 chat template、特殊 token、sampler 链塞进一个文件,是 llama.cpp 生态最大的 ergonomics 胜利之一。但 NobodyWho 团队从 Rust 引擎实现者的视角,指出它还差四块拼图:tool calling 语法、think token、projection model、feature flag——每一块都揭示了'本地大模型'与'托管 API'之间真正的工程鸿沟。

【好文共赏】把 3 GB SQLite 压成 10 MB:一位芬兰语词典作者重新发现 FST 的周末

Andrew Quinn 周末用 Rust 把 3 GB 的 SQLite 字典塞进 10 MB 二进制,300x 压缩比的背后是 finite-state transducer 这一被 Lucene 和 ripgrep 作者反复验证、却在主流 CRUD 思维里隐身了 20 年的数据结构。本文沿着他的路径,重读 BurntSushi 那篇 2015 年的经典《Index 1.6 billion keys》,把 trie、DAFSA、FST 三层迭代一次讲清楚。

【好文共赏】当"空闲"不是空闲:Cloudflare 一次 14ms 的 CUBIC 死亡螺旋,与跨越十年的网络协议时间债

Cloudflare 工程师 Esteban Carisimo 与 Antonio Vicente 写下了一篇教科书级的根因分析:QUIC 拥塞控制器在 cwnd 跌到最小后陷入每 14ms 一次的状态翻转、连续 999 次仍爬不出来——而这个 bug 的种子,是 2017 年 Linux 内核里一段被 port 到 user-space 的代码,外加一个被错过的 follow-up 补丁。

Rust 正式进入 CPython:Python 3.16 将迎来 36 年来最大的底层语言变革

从 JIT 编译器到 Rust 重写核心模块,CPython 正在经历自诞生以来最激进的性能与安全革命。这不只是换一门语言的事。

Rust 异步生态的分裂与重聚:io_uring、Tokio 单极、和一个迟到的标准

Rust async 是当代系统编程最成功也最分裂的实验。Tokio 事实上垄断、async-std 退场、glommio/monoio 用 io_uring 另起炉灶,而标准库的 Future 半成品躺了七年。本文剖析这场分裂背后的工程取舍与未来路径。

Python 3.15的JIT革命与Rust入侵:编程语言进化的双螺旋

从CPython JIT编译器回归正轨到Rust组件深度集成,解析Python生态的底层变革

C++26反射与内存安全、投机执行的硅片浪费:编程语言和芯片架构正在同步进化

C++26引入反射、内存安全和合约机制,SemiWiki揭示投机执行浪费了大量晶体管,新异步模型对标Rust——从语言到硅片,一场关于效率的革命正在两个层次同时展开。