<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>SRE on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/sre/</link><description>Recent content in SRE on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Thu, 07 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/sre/index.xml" rel="self" type="application/rss+xml"/><item><title>Cloudflare 'Code Orange' 实践全解析：如何用 18 个月将 P0 事故降低 73%</title><link>https://xiejiayun.github.io/post/cloudflare-code-orange-fail-small-resilience-2026/</link><pubDate>Thu, 07 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/cloudflare-code-orange-fail-small-resilience-2026/</guid><description>&lt;h2 id="引言一场宕机催生的工程革命">引言：一场宕机催生的工程革命&lt;/h2>
&lt;p>2024 年 11 月，Cloudflare 经历了一次持续 47 分钟的全球性服务中断。这次事故影响了全球约 20% 的互联网流量，直接导致了数百万美元的损失。对于一家承诺 99.999% 可用性的基础设施公司来说，这是不可接受的。&lt;/p></description></item><item><title>AI Agent 正在压垮整个开发者基础设施：从 GitHub 故障到 'Be Right' 时代</title><link>https://xiejiayun.github.io/post/ai-agent-load-breaks-dev-infrastructure/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/ai-agent-load-breaks-dev-infrastructure/</guid><description>&lt;h2 id="一个被忽视的事实ai-正在压垮整个软件工程的地基">一个被忽视的事实：AI 正在压垮整个软件工程的&amp;quot;地基&amp;quot;&lt;/h2>
&lt;p>2026 年 10 月底，GitHub 经历了一次罕见的多小时大规模降级：仓库 clone 超时、Actions 排队、API 限流到肉眼可见。事后官方更新说得很克制——&amp;ldquo;availability incident&amp;rdquo;。但 The Pragmatic Engineer 对此追问出了一个更尖锐的问题：&lt;strong>为什么 GitHub 比 GitLab、Bitbucket、Codeberg 更容易在 AI 浪潮中崩溃？&lt;/strong>&lt;/p></description></item></channel></rss>