📌 好文共赏 | Editor’s Pick
原文:Don’t Outsource the Learning — Addy Osmani,2026-05-16,阅读约 12 分钟
多模评分:Opus 9.0 / Sonnet 8.7 / Gemini 8.6(综合 8.77 / 10)
一句话推荐:当 Google Chrome 工程主管把三项独立研究放进同一只漏斗,过滤出的不是"AI 让人变笨"这种廉价口号,而是一份可以贴在每天 Pull Request 上的"学习/出货"双指标问卷。
1. 为什么这篇值得读
过去一年关于"AI 让程序员变笨"的论战大多停留在两类极端:要么是 Stack Overflow 那一类宏观就业数据——“junior 工程师就业岗位掉了 20%"——要么是某位资深架构师在 X 上甩出的"我看到的所有实习生连断点都不会下"的轶事。两类都很难落地。
Addy Osmani 的《Don’t Outsource the Learning》之所以值得读,是因为它做了三件别人没做的事:
- 把三个独立的、来自不同学科的实验摆到了同一根坐标轴上——Anthropic 2026 年 1 月的随机对照试验(学 Python 库)、MIT Media Lab 2025 年的 EEG 实验(写论文)、CHI 2026 一篇关于"LLM 接触顺序"的论文。三个实验的方法学、样本、衡量指标全不一样,但收敛到了同一个结论:差异不在于工具,而在于姿势(posture)。
- 给"姿势"找到了可操作的颗粒度。Addy 没有停在"要批判性思考"这种废话层面,而是把姿势拆成六条具体动作(先写假设、先要解释再要代码、把 Learning Mode 当成生产工具、像审 junior PR 一样审 AI、定期手写复现一次、让模型解释它刚才做了什么)。
- 重新定义了"工程师的两个指标”。原文最后那句"Did I learn anything today, or did I just close tickets?"——我今天学到了什么,还是只是关了几张工单?——把整个 AI 工程文化里最棘手的"短期产出 vs 长期能力"矛盾,压缩进了一个可以每天问自己一次的问题。
这文章短,但密度极高。它不是又一篇"AI 焦虑大字报",而是一份面向 2026 年程序员的认知卫生学手册——和我们之前推过的《教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则"》在哲学底色上完全互文:教 AI 的关键不是给动作,是给原则;教自己也一样。
2. 三个实验、一根针
Addy 这篇文章最聪明的地方是它的"叙述杠杆"——他没有自己做实验,但他把三项 2026 年前后的研究串成一根针,缝合出一个比任何一项单独研究都更可信的结论。
2.1 Anthropic 的随机对照试验:17% 的真相
原文:On a quiz that covered concepts they’d used just a few minutes before, participants in the AI group scored 17% lower than those who coded by hand, or the equivalent of nearly two letter grades.
Anthropic 在 2026 年 1 月 29 日发布的研究 “How AI assistance impacts the formation of coding skills”,是这篇文章的"压舱石"。研究招了 52 位(绝大多数 junior)每周用 Python 至少一次、对 Trio(一个异步并发库)完全不熟的工程师,随机分两组:一半允许在编辑器侧边栏使用 AI 助手,一半只能手写。
任务结束后立即考核一份混合"debug / 读代码 / 写代码 / 概念题"的小测验。结果很冷酷:
- AI 组完成任务平均快约 2 分钟(统计不显著);
- AI 组测验平均分 50%,手写组 67%(统计极显著,Cohen’s d=0.738);
- 真正决定测验分数的是怎么用 AI:把 AI 用于"问概念、问 tradeoff"的人能拿到 65+,把 AI 用于"直接生成贴进去"的人掉到 40 以下。
Addy 把这一组数据切成了那句被反复转发的金句:
原文:“The tool didn’t determine the outcome. The posture did."(工具没有决定结果,姿势才有。)
这句话不是修辞,是从 17% vs 25 个百分点的两个差距里抠出来的——前者是"AI vs 手写"的组间差,后者是"AI 组内部,怎么用 AI"的组内差。组内差比组间差大,这意味着真正决定你长不长能力的不是用不用 AI,而是用 AI 的姿势。
2.2 MIT Your Brain on ChatGPT:脑电图给"认知债"开了张账单
第二条线是 MIT Media Lab 的 Nataliya Kos’myna 团队 在 2025 年 6 月发表的 “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task”(arXiv:2506.08872)。这个实验把 54 个被试分三组写 SAT 风格论文:纯人脑、用搜索引擎、用 ChatGPT,前后做四次。
实验的"剑走偏锋"在于它给被试戴了 EEG。结果用神经数据画了一张非常难以反驳的曲线:
- 脑区连接强度随着外部工具数量的增加而单调下降——纯人脑组 alpha/beta 频段连接最强、网络最分布;搜索引擎组中等;LLM 组最弱;
- 83% 的 LLM 组被试在交卷后无法准确引用自己刚写的任何一句话;
- 第四次 session 把"LLM-to-Brain”(之前用 LLM,现在拿掉)的被试反过来——他们的脑区连接仍然处于压抑状态,alpha/beta 都更低。换句话说,AI 不只是"用的时候不动脑",是"用过之后短期内不动脑"。
研究者把这个现象命名为 cognitive debt(认知债务)——和 Ward Cunningham 的 technical debt 是同一个比喻系统:短期省力,长期复利偿付。
Addy 在文章里没有解释 EEG 频段,他只用了这一句话:
原文:“cognitive debt: saving mental effort today, paying for it in critical thinking tomorrow."(认知债:今天省下的脑力,明天用批判性思维去还。)
但他做了一件更重要的事——他把这条"债务曲线"接到了 Anthropic 的"17% 测验差"上,让两个互不相干的实验在他的文章里互相加持。
2.3 CHI 2026 的"先来者效应”:顺序比数量更要命
第三条线是 CHI 2026 的一篇论文(arXiv:2603.08849),主题是"LLM 接触的顺序如何影响人类决策质量"。这篇文章被引用次数远不如前两项,但 Addy 单独把它拎出来是有道理的——它解释了为什么"我只是用 AI 帮忙起个头"这种自我安慰也站不住脚:
研究发现,只要被试在任务一开始接触到 LLM 输出,整个问题的"框架"就被 LLM 锚定了。哪怕后面 90% 的工作都是人自己做的,最终决策质量也会显著低于一开始就靠自己思考、最后才查 AI 的对照组。
Addy 把这一发现总结成一个很反直觉的命题:The order of operations mattered more than the total amount of AI used.(操作顺序比 AI 用量更重要。)
这一点和我们之前在《资深开发者为何"说不清"自己的价值:Speed 与 Scale 的两个循环》里讨论过的"Scale 循环必须由人启动"在更微观的层面上汇合了——资深工程师值钱的部分不是写代码的速度,而是在问题进入工具之前就完成的那一段框架化工作。一旦框架化外包了,剩下的所有"速度提升"都是在错误的题面上加速。
2.4 三角形如何收敛
把三项实验放在一起,Addy 描出了一个非常清晰的三角形:
| 实验来源 | 衡量层 | 主要发现 |
|---|---|---|
| Anthropic(行为层) | 测验分数 | 用 AI"问概念"的人保住能力;用 AI"贴代码"的人掉了 17% |
| MIT(神经层) | EEG 连接强度 | 工具越多脑活动越弱;83% 想不起自己写过什么 |
| CHI 2026(认知顺序层) | 决策质量 | LLM 触达顺序决定最终决策,不是总用量 |
三个层面的数据都指向同一个落点:AI 没有自动让任何人变笨,也没有自动让任何人变强;它是一个放大器,放大的是你在打开 prompt 之前那一秒钟的姿势。
3. 为什么默认 UX 会把你推向"出货优化"
Addy 这篇文章里最容易被忽视、但最重要的一节叫 “The tools default to shipping, not teaching”。他指出了一件几乎从来没人写在工具评测里的事:
原文:“If you fire up a coding agent and stick to the defaults, everything is tuned for one metric: getting the task done."(如果你打开任何一个 AI 编程 Agent,跟着默认设置走,所有的产品 UX 都在为一个目标调优:把这个任务关掉。)
这不是阴谋论。Cursor、Copilot、Claude Code、Devin、Codex CLI——这些产品的 North Star Metric 全部是"merged change / closed ticket / time-to-PR”。没有任何一个产品的 OKR 是"让用户半年后比现在更强"。这不是产品经理坏,是 UX 引力:
- 用户喜欢"按 Tab 就接受"——所以默认是接受;
- 用户喜欢"不被打断"——所以 Socratic 模式从来不是默认;
- 投资人看 DAU/MAU——所以工具优化"今天再用一次"而不是"明年还在用一次"。
这点和我们在《当 AI 不再等你说完:Thinking Machines 把"实时交互"写进了模型权重》里讨论的"交互模型"问题是同一枚硬币的两面——模型层在用"更快响应"换"更浅理解",工具层在用"更短回路"换"更弱姿势"。
Addy 给的反向指令也很简单:把"学生功能"——Claude Learning Mode、ChatGPT Study Mode、Gemini Guided Learning——拿来当生产工具。它们的默认效果在第一周里会让你觉得"慢"。这就是它们的工作原理:
原文:“Yes, it feels slower. That’s the point."(是的,它感觉更慢。那正是它的设计意图。)
这正是我们在《把"金门大桥 Claude"的开关递给你:Sean Goedecke 谈 LLM Steering》里讨论的"用户终于可以触碰模型旋钮"的镜像——用户也终于可以触碰自己脑子的旋钮,但默认配置永远不会替你拧。
4. 哪些活儿可以放心外包,哪些不能
Addy 没有走"什么都不能交给 AI"的怀旧路线。他列了一个清单——什么可以纯外包,什么外包以后会反咬你一口。
可以纯外包的(学习成本不值):
- 样板代码(boilerplate)
- 胶水脚本、一次性 CI
- 你这辈子不会再看一眼的脚本
- YAML、Dockerfile 这类语法记忆任务
不能外包的五个临界点:
- 当东西坏了时(When something breaks):AI 写的代码不会少 crash。生产 incident 凌晨 3 点报警,“反正是 Agent 写的"不是个可执行的诊断策略。团队里得有人理解架构。
- 当 AI 自信地错了时(When it’s confidently wrong):LLM 会一本正经地胡说八道。识别这种 plausible-looking incorrect answer 的唯一防线,是你自己的领域知识。和我们在《curl 之父亲测 Mythos:5 个"确认漏洞"最后只剩 1 个》看到的局面完全一致——AI 给出的"5 个发现"里只有 1 个是真的,能区分的不是更好的 prompt,是更深的人。
- 当地基变了时(When the foundation changes):框架升级、安全审计要求重构、合规改了——这些是"重新 prompt 一遍"解决不了的。它们要求工程师能从第一性原理重建系统。
- 当你离开了平均值时(When you leave the median):LLM 在"GitHub 上被解决过一百万次"的问题上无敌;越远离这个均值,越接近你的雇主真正花钱雇你解决的那类问题。
- 当市场重新定价时(When the market adjusts):那 20% 的 junior 就业下滑 不是巧合。市场正在重新定价"只在有 AI 时才能交付的工程师"和"没 AI 也能交付的工程师”——后者的溢价正在变大。
这五条在我看来还可以再压缩成一个判断:当问题离 GitHub 的 mean 越远,AI 的边际产能下降越快;而你的职业溢价就长在 mean 的远端。
5. 六条"姿势补丁”:把同一个 Cursor 用成两种工程师
Addy 给的可操作补丁非常具体——不是改工具,是改 prompt 顺序:
- 先假设,再问 AI:写 PR 之前先用两三句话写下"我以为问题是什么",然后用 AI 的回答验证你的假设,而不是替代它。
- 先要解释,再要代码:在不熟悉的领域,第一条 prompt 不应该是 “fix this”,而应该是 “explain how X works, what the alternatives are, what the tradeoffs are. Don’t give me code yet.”
- 打开 Learning Mode 用于生产:Claude Learning Mode / ChatGPT Study Mode / Gemini Guided Learning。当你在陌生领域时使用,强迫模型用苏格拉底反问而不是给你代码。
- 把 AI 输出当成 junior PR 来审:如果一个新员工提交了这个 PR,仅仅因为测试通过你会 merge 吗?如果不会,那这里也不该 merge。
- 定期手动复现:找一段一个月前 AI 替你写的代码,关掉所有 AI,看你能不能从空白文件重写出来。这是你对自己"认知债余额"的一次月度对账。
- 让 AI 解释它刚才做了什么:在 AI 写完一个聪明的函数后,加一条 prompt:解释你用了哪些概念,我应该读哪些资料才能理解这个设计选择。
这六条里我个人最看重的是第 5 条——re-derive things by hand once in a while。这是唯一不可外包给 AI 的步骤,因为它衡量的就是"在没有 AI 时你还剩多少"。
这条"月度对账"和《Julia Evans 把 Tailwind 拆成九个抽屉:八年之后,她终于敢说 CSS 是一门技术》里 Julia 反复强调的"理解层叠机制,而不是只会调类名"是同一种纪律——你能不能在抽离了所有抽象之后回到原始概念,这是一种可以被时间稀释、也可以被时间增厚的资本。
6. 编辑延伸思考:这不是"反 AI",是"反姿势漂移"
读完整篇文章,我想说几个 Addy 没有明说但其实贯穿全文的判断。
第一,“两个指标,不是一个"是这一代工程师管理者最重要的一条心法。
原文:“Ship and learn are two separate metrics. Your manager and your customers will only ever ask about the first one. The second is on you.”
你的经理一辈子都只会问你"这周交付了什么”。这是经理的工作。但让自己保持可雇佣性是你的工作。Addy 没有要求每个工程师变成苦行僧——他只要求你每周/每月对自己问一次第二个指标。这件事工作流程不会替你做,工具不会替你做,模型更不会。这是一份纯私人合同。
第二,“姿势"这个词被低估了。
英文里"posture"本来是工程文化里的小众词,更常见的是 “mindset”、“discipline”、“workflow”。Addy 选 posture 而不是 mindset 是有讲究的——
- Mindset 是认知层,是想什么;
- Workflow 是流程层,是怎么排;
- Posture 是身体层,是你在打开 prompt 那一刻的肌肉记忆。
这和《matklad:Conway 定律才是软件架构的母题》 里 matklad 谈"架构是组织自然发酵的产物"是同一种洞察的不同层面——架构由组织自然形成,能力由姿势自然形成。你可以一天改一次 mindset,但 posture 是上千次微小动作的累积。AI 提供的便利会以每天 100 次的频率冲刷你的 posture——如果你不主动调整,半年后你自己都不知道自己已经站歪了。
第三,“junior 就业下滑 20%“不是数字游戏。
Addy 在文章末尾扔了一句很重的判断:
原文:“Engineers who can only ship with AI, and not without it, are entering a labor pool that is already re-pricing what expertise is worth.”
我把这句话翻译成更尖锐的版本:市场正在分裂为两类工程师——“有 AI 时能交付,没 AI 时也能交付"和"只有 AI 时能交付”。前者的价格在涨,后者的价格在塌。
这个分化和我们在《CTF 场景已死:澳洲安全工程师写给那条被 Frontier AI 蒸发掉的成长阶梯》 里看到的"成长阶梯被蒸发"是同一个故事——年轻工程师无法在新阶梯上爬,因为旧阶梯被 AI 自动化掉了,而新阶梯还没建好。Addy 的答案不是"等新阶梯”,而是"在每天的工作里偷偷给自己造一架小型脚手架”——六条姿势补丁就是这架脚手架。
第四,这篇文章对管理者也是一份隐藏检查清单。
如果你管理一个 5+ 人的工程团队,Addy 这篇文章其实在隐含地问你:
- 你的团队 OKR 里有没有一条是"learn"而不是 “ship”?
- 你的 1-on-1 里问没问过"上周你学到了什么”——不是"上周你做了什么"?
- 你的 PR review 文化奖励的是"快速 merge",还是"留下学习痕迹的注释"?
- 你团队的 AI 工具默认配置是不是从来没人审过?
这些问题没有出现在原文里,但它们是 Addy 的论点逻辑必然导出的管理推论。
7. 延伸阅读图谱
Addy Osmani 的"AI 工程认知三部曲"
- Comprehension Debt(2025)—— 一个团队里"代码量"和"任何人真正理解的代码量"之间的鸿沟,是 AI 时代工程债务的新形式。
- Cognitive Surrender(2026-05-05)—— 把 Wharton 论文里 1,372 人的实验数据接到软件工程语境:cognitive offloading 是"代办",cognitive surrender 是"接管"。73% 的时候 AI 错了人也跟着错,是因为人没有形成自己的独立答案。
- Don’t Outsource the Learning(2026-05-16)—— 本文。
三篇文章其实是一个递进:先识别问题(comprehension debt)→ 解剖机制(cognitive surrender)→ 给出处方(don’t outsource learning)。
原文引用的三项研究
- Anthropic How AI assistance impacts the formation of coding skills(研究页 / arXiv:2601.20245)—— 52 名工程师学 Trio 库,AI 组测验低 17%。
- MIT Media Lab Your Brain on ChatGPT(论文页 / arXiv:2506.08872)—— 54 名被试 EEG 实验,cognitive debt 概念诞生地。
- CHI 2026 LLM Anchoring under Time Constraints(arXiv:2603.08849)—— “顺序 > 总量"的关键证据。
反方与辅助观点
- Anthropic Learning Mode 上线(engadget 报道)—— 厂商终于开始把 “教学"作为产品维度,但用户接受度仍低。
- Stack Overflow: AI vs Gen Z(原文)—— Junior 工程师就业岗位 2022 至 2025 下滑 20% 的原始数据来源。
- Microsoft Research: AI Critical Thinking Survey(PDF)—— 微软自己的研究也指向同一方向:AI 用户在批判性思维任务上"努力度"下降。
站内交叉阅读
- 我之前推过的《教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则"》 —— 教 AI 与教自己是同一件事的两面。
- 《资深开发者为何"说不清"自己的价值:Speed 与 Scale 的两个循环》 —— Addy 这篇可以看作 Speed/Scale 循环的"个体微观版”。
- 《CTF 场景已死:澳洲安全工程师写给那条被 Frontier AI 蒸发掉的成长阶梯》 —— 行业新人成长阶梯的宏观侧。
- 《17 分钟一篇 PhD 章节:Fields 奖得主 Gowers 实测 ChatGPT 5.5 Pro》 —— 同样的工具,资深研究者 vs 学生的不同后果,是 Addy 三角形的极端案例。
- 《Emacs 化的软件世界:当 AI Agent 让每个人都能写自己的原生应用》 —— 工具会更加民主化,但"会用"的标准也会更高。
- 《把"金门大桥 Claude"的开关递给你:Sean Goedecke 谈 LLM Steering》 —— 用户开始能调模型,也终于该调自己。
8. 配套资料导览
本篇配套:
cover.svg—— 封面图,深色背景,主题:Posture > Toolmindmap.svg—— 全文知识地图(三大实验 + 五个不可外包临界点 + 六条姿势补丁)concept-cards.md—— 12 张关键概念卡(Posture、Cognitive Debt、Cognitive Surrender、Comprehension Debt 等)glossary.md—— 32 条中英对照术语表
9. 谁应该读这篇
| 你是谁 | 读完会得到什么 |
|---|---|
| 个人开发者 | 六条姿势补丁可以从今晚的下一条 prompt 开始用 |
| Tech Lead / 工程经理 | 一份隐藏的"团队 AI 文化"检查清单(OKR、PR review、1-on-1) |
| Junior 工程师 | 一份对抗"成长阶梯蒸发"的私人手册 |
| 资深工程师 | 一份用来定期自查"我是不是已经站歪了"的月度对账模板 |
| CTO / VP Eng | 一个把"learn"和"ship"分成两个指标的合法理由 |
| AI 工具产品经理 | 一份"为什么默认 UX 是出货优化、为什么这是个产品空间"的论证 |
最后引一下 Addy 的那句结语,作为这篇导读的关门钉子——
原文:“You don’t have to choose between using AI and learning. You do have to choose a workflow that does both, because the defaults won’t choose it for you."(你不必在"用 AI"和"学习"之间二选一。但你必须主动选择一个让两者同时发生的工作流,因为默认设置不会替你选。)
本文为「好文共赏」深度导读。所有观点解读、对比映射、延伸推论由编辑独立完成;原文引用严格控制在合理使用范围内(< 10%,单段 ≤ 3 句,均以 blockquote 标注"原文”)。强烈推荐配合三项原始研究和 Addy 自己的"认知三部曲"前两篇一起阅读。