分布式系统 on Jiayun's Blog

PolitePaxos 与 SysMoBench：分布式共识的'第三波'，与 AI 写形式化模型的真实水平

Fri, 15 May 2026 00:00:00 +0000

核心观点：分布式共识研究在过去 25 年（Paxos 1998 → Raft 2014 → 各种变体）形成了一套相对稳定的范式。Murat Demirbas 团队 2026 年提出的 PolitePaxos 把一个长期被忽视的角度 —— “proposer 不强行获取多数派承诺，而是先礼貌询问” —— 重新挖出来，在某些 workload 下有可观的延迟收益。但更有意思的是同一团队的 SysMoBench：他们把"用 AI 帮人类做 TLA+ / 形式化建模"这件事第一次系统性地评测了。结果是：今天最强的 AI 在系统建模上只是"中等本科生水平"，但这条赛道是未来 5 年最值得跟踪的"AI 进入硬科学"指标之一。

DeepMind Decoupled DiLoCo：把'同步'从分布式训练里剥离出来，AI 大模型预训练的容错革命

Thu, 14 May 2026 00:00:00 +0000

引子：训练 10 万卡的最大瓶颈，是"等"

如果你跟在 Meta、OpenAI、Anthropic、Google 任何一家公司里训练前沿模型的工程师聊，你会听到同一种抱怨——不是 GPU 不够、不是内存不够、不是带宽不够，是"同步"。

AI Agent 正在压垮整个开发者基础设施：从 GitHub 故障到 'Be Right' 时代

Fri, 01 May 2026 00:00:00 +0000

一个被忽视的事实：AI 正在压垮整个软件工程的"地基"

2026 年 10 月底，GitHub 经历了一次罕见的多小时大规模降级：仓库 clone 超时、Actions 排队、API 限流到肉眼可见。事后官方更新说得很克制——“availability incident”。但 The Pragmatic Engineer 对此追问出了一个更尖锐的问题：为什么 GitHub 比 GitLab、Bitbucket、Codeberg 更容易在 AI 浪潮中崩溃？