Jiayun's Blog

探索与分享

📌 好文共赏 | Editor’s Pick

原文:Don’t Outsource the Learning — Addy Osmani,2026-05-16,阅读约 12 分钟

多模评分:Opus 9.0 / Sonnet 8.7 / Gemini 8.6(综合 8.77 / 10)

一句话推荐:当 Google Chrome 工程主管把三项独立研究放进同一只漏斗,过滤出的不是"AI 让人变笨"这种廉价口号,而是一份可以贴在每天 Pull Request 上的"学习/出货"双指标问卷。

1. 为什么这篇值得读

过去一年关于"AI 让程序员变笨"的论战大多停留在两类极端:要么是 Stack Overflow 那一类宏观就业数据——“junior 工程师就业岗位掉了 20%"——要么是某位资深架构师在 X 上甩出的"我看到的所有实习生连断点都不会下"的轶事。两类都很难落地。

Addy Osmani 的《Don’t Outsource the Learning》之所以值得读,是因为它做了三件别人没做的事:

  1. 把三个独立的、来自不同学科的实验摆到了同一根坐标轴上——Anthropic 2026 年 1 月的随机对照试验(学 Python 库)、MIT Media Lab 2025 年的 EEG 实验(写论文)、CHI 2026 一篇关于"LLM 接触顺序"的论文。三个实验的方法学、样本、衡量指标全不一样,但收敛到了同一个结论:差异不在于工具,而在于姿势(posture)
  2. 给"姿势"找到了可操作的颗粒度。Addy 没有停在"要批判性思考"这种废话层面,而是把姿势拆成六条具体动作(先写假设、先要解释再要代码、把 Learning Mode 当成生产工具、像审 junior PR 一样审 AI、定期手写复现一次、让模型解释它刚才做了什么)。
  3. 重新定义了"工程师的两个指标”。原文最后那句"Did I learn anything today, or did I just close tickets?"——我今天学到了什么,还是只是关了几张工单?——把整个 AI 工程文化里最棘手的"短期产出 vs 长期能力"矛盾,压缩进了一个可以每天问自己一次的问题。

这文章短,但密度极高。它不是又一篇"AI 焦虑大字报",而是一份面向 2026 年程序员的认知卫生学手册——和我们之前推过的《教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则"》在哲学底色上完全互文:教 AI 的关键不是给动作,是给原则;教自己也一样。

2. 三个实验、一根针

Addy 这篇文章最聪明的地方是它的"叙述杠杆"——他没有自己做实验,但他把三项 2026 年前后的研究串成一根针,缝合出一个比任何一项单独研究都更可信的结论。

2.1 Anthropic 的随机对照试验:17% 的真相

原文:On a quiz that covered concepts they’d used just a few minutes before, participants in the AI group scored 17% lower than those who coded by hand, or the equivalent of nearly two letter grades.

Anthropic 在 2026 年 1 月 29 日发布的研究 “How AI assistance impacts the formation of coding skills”,是这篇文章的"压舱石"。研究招了 52 位(绝大多数 junior)每周用 Python 至少一次、对 Trio(一个异步并发库)完全不熟的工程师,随机分两组:一半允许在编辑器侧边栏使用 AI 助手,一半只能手写。

任务结束后立即考核一份混合"debug / 读代码 / 写代码 / 概念题"的小测验。结果很冷酷:

  • AI 组完成任务平均快约 2 分钟(统计不显著);
  • AI 组测验平均分 50%,手写组 67%(统计极显著,Cohen’s d=0.738);
  • 真正决定测验分数的是怎么用 AI:把 AI 用于"问概念、问 tradeoff"的人能拿到 65+,把 AI 用于"直接生成贴进去"的人掉到 40 以下。

Addy 把这一组数据切成了那句被反复转发的金句:

原文:“The tool didn’t determine the outcome. The posture did."(工具没有决定结果,姿势才有。)

这句话不是修辞,是从 17% vs 25 个百分点的两个差距里抠出来的——前者是"AI vs 手写"的组间差,后者是"AI 组内部,怎么用 AI"的组内差。组内差比组间差大,这意味着真正决定你长不长能力的不是用不用 AI,而是用 AI 的姿势。

2.2 MIT Your Brain on ChatGPT:脑电图给"认知债"开了张账单

第二条线是 MIT Media Lab 的 Nataliya Kos’myna 团队 在 2025 年 6 月发表的 “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task”(arXiv:2506.08872)。这个实验把 54 个被试分三组写 SAT 风格论文:纯人脑、用搜索引擎、用 ChatGPT,前后做四次。

实验的"剑走偏锋"在于它给被试戴了 EEG。结果用神经数据画了一张非常难以反驳的曲线:

  • 脑区连接强度随着外部工具数量的增加而单调下降——纯人脑组 alpha/beta 频段连接最强、网络最分布;搜索引擎组中等;LLM 组最弱;
  • 83% 的 LLM 组被试在交卷后无法准确引用自己刚写的任何一句话
  • 第四次 session 把"LLM-to-Brain”(之前用 LLM,现在拿掉)的被试反过来——他们的脑区连接仍然处于压抑状态,alpha/beta 都更低。换句话说,AI 不只是"用的时候不动脑",是"用过之后短期内不动脑"。

研究者把这个现象命名为 cognitive debt(认知债务)——和 Ward Cunningham 的 technical debt 是同一个比喻系统:短期省力,长期复利偿付。

Addy 在文章里没有解释 EEG 频段,他只用了这一句话:

原文:“cognitive debt: saving mental effort today, paying for it in critical thinking tomorrow."(认知债:今天省下的脑力,明天用批判性思维去还。)

但他做了一件更重要的事——他把这条"债务曲线"接到了 Anthropic 的"17% 测验差"上,让两个互不相干的实验在他的文章里互相加持。

2.3 CHI 2026 的"先来者效应”:顺序比数量更要命

第三条线是 CHI 2026 的一篇论文(arXiv:2603.08849),主题是"LLM 接触的顺序如何影响人类决策质量"。这篇文章被引用次数远不如前两项,但 Addy 单独把它拎出来是有道理的——它解释了为什么"我只是用 AI 帮忙起个头"这种自我安慰也站不住脚:

研究发现,只要被试在任务一开始接触到 LLM 输出,整个问题的"框架"就被 LLM 锚定了。哪怕后面 90% 的工作都是人自己做的,最终决策质量也会显著低于一开始就靠自己思考、最后才查 AI 的对照组。

Addy 把这一发现总结成一个很反直觉的命题:The order of operations mattered more than the total amount of AI used.(操作顺序比 AI 用量更重要。)

这一点和我们之前在《资深开发者为何"说不清"自己的价值:Speed 与 Scale 的两个循环》里讨论过的"Scale 循环必须由人启动"在更微观的层面上汇合了——资深工程师值钱的部分不是写代码的速度,而是在问题进入工具之前就完成的那一段框架化工作。一旦框架化外包了,剩下的所有"速度提升"都是在错误的题面上加速。

2.4 三角形如何收敛

把三项实验放在一起,Addy 描出了一个非常清晰的三角形:

实验来源衡量层主要发现
Anthropic(行为层)测验分数用 AI"问概念"的人保住能力;用 AI"贴代码"的人掉了 17%
MIT(神经层)EEG 连接强度工具越多脑活动越弱;83% 想不起自己写过什么
CHI 2026(认知顺序层)决策质量LLM 触达顺序决定最终决策,不是总用量

三个层面的数据都指向同一个落点:AI 没有自动让任何人变笨,也没有自动让任何人变强;它是一个放大器,放大的是你在打开 prompt 之前那一秒钟的姿势。

3. 为什么默认 UX 会把你推向"出货优化"

Addy 这篇文章里最容易被忽视、但最重要的一节叫 “The tools default to shipping, not teaching”。他指出了一件几乎从来没人写在工具评测里的事:

原文:“If you fire up a coding agent and stick to the defaults, everything is tuned for one metric: getting the task done."(如果你打开任何一个 AI 编程 Agent,跟着默认设置走,所有的产品 UX 都在为一个目标调优:把这个任务关掉。)

这不是阴谋论。Cursor、Copilot、Claude Code、Devin、Codex CLI——这些产品的 North Star Metric 全部是"merged change / closed ticket / time-to-PR”。没有任何一个产品的 OKR 是"让用户半年后比现在更强"。这不是产品经理坏,是 UX 引力:

  • 用户喜欢"按 Tab 就接受"——所以默认是接受;
  • 用户喜欢"不被打断"——所以 Socratic 模式从来不是默认;
  • 投资人看 DAU/MAU——所以工具优化"今天再用一次"而不是"明年还在用一次"。

这点和我们在《当 AI 不再等你说完:Thinking Machines 把"实时交互"写进了模型权重》里讨论的"交互模型"问题是同一枚硬币的两面——模型层在用"更快响应"换"更浅理解",工具层在用"更短回路"换"更弱姿势"。

Addy 给的反向指令也很简单:把"学生功能"——Claude Learning Mode、ChatGPT Study Mode、Gemini Guided Learning——拿来当生产工具。它们的默认效果在第一周里会让你觉得"慢"。这就是它们的工作原理:

原文:“Yes, it feels slower. That’s the point."(是的,它感觉更慢。那正是它的设计意图。)

这正是我们在《把"金门大桥 Claude"的开关递给你:Sean Goedecke 谈 LLM Steering》里讨论的"用户终于可以触碰模型旋钮"的镜像——用户也终于可以触碰自己脑子的旋钮,但默认配置永远不会替你拧。

4. 哪些活儿可以放心外包,哪些不能

Addy 没有走"什么都不能交给 AI"的怀旧路线。他列了一个清单——什么可以纯外包,什么外包以后会反咬你一口。

可以纯外包的(学习成本不值):

  • 样板代码(boilerplate)
  • 胶水脚本、一次性 CI
  • 你这辈子不会再看一眼的脚本
  • YAML、Dockerfile 这类语法记忆任务

不能外包的五个临界点:

  1. 当东西坏了时(When something breaks):AI 写的代码不会少 crash。生产 incident 凌晨 3 点报警,“反正是 Agent 写的"不是个可执行的诊断策略。团队里得有人理解架构。
  2. 当 AI 自信地错了时(When it’s confidently wrong):LLM 会一本正经地胡说八道。识别这种 plausible-looking incorrect answer 的唯一防线,是你自己的领域知识。和我们在《curl 之父亲测 Mythos:5 个"确认漏洞"最后只剩 1 个》看到的局面完全一致——AI 给出的"5 个发现"里只有 1 个是真的,能区分的不是更好的 prompt,是更深的人。
  3. 当地基变了时(When the foundation changes):框架升级、安全审计要求重构、合规改了——这些是"重新 prompt 一遍"解决不了的。它们要求工程师能从第一性原理重建系统。
  4. 当你离开了平均值时(When you leave the median):LLM 在"GitHub 上被解决过一百万次"的问题上无敌;越远离这个均值,越接近你的雇主真正花钱雇你解决的那类问题。
  5. 当市场重新定价时(When the market adjusts):那 20% 的 junior 就业下滑 不是巧合。市场正在重新定价"只在有 AI 时才能交付的工程师"和"没 AI 也能交付的工程师”——后者的溢价正在变大。

这五条在我看来还可以再压缩成一个判断:当问题离 GitHub 的 mean 越远,AI 的边际产能下降越快;而你的职业溢价就长在 mean 的远端。

5. 六条"姿势补丁”:把同一个 Cursor 用成两种工程师

Addy 给的可操作补丁非常具体——不是改工具,是改 prompt 顺序:

  1. 先假设,再问 AI:写 PR 之前先用两三句话写下"我以为问题是什么",然后用 AI 的回答验证你的假设,而不是替代它。
  2. 先要解释,再要代码:在不熟悉的领域,第一条 prompt 不应该是 “fix this”,而应该是 “explain how X works, what the alternatives are, what the tradeoffs are. Don’t give me code yet.”
  3. 打开 Learning Mode 用于生产:Claude Learning Mode / ChatGPT Study Mode / Gemini Guided Learning。当你在陌生领域时使用,强迫模型用苏格拉底反问而不是给你代码。
  4. 把 AI 输出当成 junior PR 来审:如果一个新员工提交了这个 PR,仅仅因为测试通过你会 merge 吗?如果不会,那这里也不该 merge。
  5. 定期手动复现:找一段一个月前 AI 替你写的代码,关掉所有 AI,看你能不能从空白文件重写出来。这是你对自己"认知债余额"的一次月度对账。
  6. 让 AI 解释它刚才做了什么:在 AI 写完一个聪明的函数后,加一条 prompt:解释你用了哪些概念,我应该读哪些资料才能理解这个设计选择。

这六条里我个人最看重的是第 5 条——re-derive things by hand once in a while。这是唯一不可外包给 AI 的步骤,因为它衡量的就是"在没有 AI 时你还剩多少"。

这条"月度对账"和《Julia Evans 把 Tailwind 拆成九个抽屉:八年之后,她终于敢说 CSS 是一门技术》里 Julia 反复强调的"理解层叠机制,而不是只会调类名"是同一种纪律——你能不能在抽离了所有抽象之后回到原始概念,这是一种可以被时间稀释、也可以被时间增厚的资本。

6. 编辑延伸思考:这不是"反 AI",是"反姿势漂移"

读完整篇文章,我想说几个 Addy 没有明说但其实贯穿全文的判断。

第一,“两个指标,不是一个"是这一代工程师管理者最重要的一条心法。

原文:“Ship and learn are two separate metrics. Your manager and your customers will only ever ask about the first one. The second is on you.”

你的经理一辈子都只会问你"这周交付了什么”。这是经理的工作。但让自己保持可雇佣性是你的工作。Addy 没有要求每个工程师变成苦行僧——他只要求你每周/每月对自己问一次第二个指标。这件事工作流程不会替你做,工具不会替你做,模型更不会。这是一份纯私人合同。

第二,“姿势"这个词被低估了。

英文里"posture"本来是工程文化里的小众词,更常见的是 “mindset”、“discipline”、“workflow”。Addy 选 posture 而不是 mindset 是有讲究的——

  • Mindset 是认知层,是想什么;
  • Workflow 是流程层,是怎么排;
  • Posture 是身体层,是你在打开 prompt 那一刻的肌肉记忆。

这和《matklad:Conway 定律才是软件架构的母题》 里 matklad 谈"架构是组织自然发酵的产物"是同一种洞察的不同层面——架构由组织自然形成,能力由姿势自然形成。你可以一天改一次 mindset,但 posture 是上千次微小动作的累积。AI 提供的便利会以每天 100 次的频率冲刷你的 posture——如果你不主动调整,半年后你自己都不知道自己已经站歪了。

第三,“junior 就业下滑 20%“不是数字游戏。

Addy 在文章末尾扔了一句很重的判断:

原文:“Engineers who can only ship with AI, and not without it, are entering a labor pool that is already re-pricing what expertise is worth.”

我把这句话翻译成更尖锐的版本:市场正在分裂为两类工程师——“有 AI 时能交付,没 AI 时也能交付"和"只有 AI 时能交付”。前者的价格在涨,后者的价格在塌。

这个分化和我们在《CTF 场景已死:澳洲安全工程师写给那条被 Frontier AI 蒸发掉的成长阶梯》 里看到的"成长阶梯被蒸发"是同一个故事——年轻工程师无法在新阶梯上爬,因为旧阶梯被 AI 自动化掉了,而新阶梯还没建好。Addy 的答案不是"等新阶梯”,而是"在每天的工作里偷偷给自己造一架小型脚手架”——六条姿势补丁就是这架脚手架。

第四,这篇文章对管理者也是一份隐藏检查清单。

如果你管理一个 5+ 人的工程团队,Addy 这篇文章其实在隐含地问你:

  • 你的团队 OKR 里有没有一条是"learn"而不是 “ship”?
  • 你的 1-on-1 里问没问过"上周你学到了什么”——不是"上周你做了什么"?
  • 你的 PR review 文化奖励的是"快速 merge",还是"留下学习痕迹的注释"?
  • 你团队的 AI 工具默认配置是不是从来没人审过?

这些问题没有出现在原文里,但它们是 Addy 的论点逻辑必然导出的管理推论。

7. 延伸阅读图谱

Addy Osmani 的"AI 工程认知三部曲"

  1. Comprehension Debt(2025)—— 一个团队里"代码量"和"任何人真正理解的代码量"之间的鸿沟,是 AI 时代工程债务的新形式。
  2. Cognitive Surrender(2026-05-05)—— 把 Wharton 论文里 1,372 人的实验数据接到软件工程语境:cognitive offloading 是"代办",cognitive surrender 是"接管"。73% 的时候 AI 错了人也跟着错,是因为人没有形成自己的独立答案。
  3. Don’t Outsource the Learning(2026-05-16)—— 本文。

三篇文章其实是一个递进:先识别问题(comprehension debt)→ 解剖机制(cognitive surrender)→ 给出处方(don’t outsource learning)。

原文引用的三项研究

  • Anthropic How AI assistance impacts the formation of coding skills研究页 / arXiv:2601.20245)—— 52 名工程师学 Trio 库,AI 组测验低 17%。
  • MIT Media Lab Your Brain on ChatGPT论文页 / arXiv:2506.08872)—— 54 名被试 EEG 实验,cognitive debt 概念诞生地。
  • CHI 2026 LLM Anchoring under Time Constraints(arXiv:2603.08849)—— “顺序 > 总量"的关键证据。

反方与辅助观点

  • Anthropic Learning Mode 上线engadget 报道)—— 厂商终于开始把 “教学"作为产品维度,但用户接受度仍低。
  • Stack Overflow: AI vs Gen Z原文)—— Junior 工程师就业岗位 2022 至 2025 下滑 20% 的原始数据来源。
  • Microsoft Research: AI Critical Thinking SurveyPDF)—— 微软自己的研究也指向同一方向:AI 用户在批判性思维任务上"努力度"下降。

站内交叉阅读

8. 配套资料导览

本篇配套:

  • cover.svg —— 封面图,深色背景,主题:Posture > Tool
  • mindmap.svg —— 全文知识地图(三大实验 + 五个不可外包临界点 + 六条姿势补丁)
  • concept-cards.md —— 12 张关键概念卡(Posture、Cognitive Debt、Cognitive Surrender、Comprehension Debt 等)
  • glossary.md —— 32 条中英对照术语表

9. 谁应该读这篇

你是谁读完会得到什么
个人开发者六条姿势补丁可以从今晚的下一条 prompt 开始用
Tech Lead / 工程经理一份隐藏的"团队 AI 文化"检查清单(OKR、PR review、1-on-1)
Junior 工程师一份对抗"成长阶梯蒸发"的私人手册
资深工程师一份用来定期自查"我是不是已经站歪了"的月度对账模板
CTO / VP Eng一个把"learn"和"ship"分成两个指标的合法理由
AI 工具产品经理一份"为什么默认 UX 是出货优化、为什么这是个产品空间"的论证

最后引一下 Addy 的那句结语,作为这篇导读的关门钉子——

原文:“You don’t have to choose between using AI and learning. You do have to choose a workflow that does both, because the defaults won’t choose it for you."(你不必在"用 AI"和"学习"之间二选一。但你必须主动选择一个让两者同时发生的工作流,因为默认设置不会替你选。)


本文为「好文共赏」深度导读。所有观点解读、对比映射、延伸推论由编辑独立完成;原文引用严格控制在合理使用范围内(< 10%,单段 ≤ 3 句,均以 blockquote 标注"原文”)。强烈推荐配合三项原始研究和 Addy 自己的"认知三部曲"前两篇一起阅读。