📌 好文共赏 | Editor’s Pick
原文:Interaction Models: A Scalable Approach to Human-AI Collaboration 作者:Thinking Machines Lab(Connectionism 博客) | 发布于:2026-05-11 | 阅读时长:约 35–45 分钟(含视频 demo)
多模评分:Opus 9.2 / Sonnet 9.0 / Gemini 9.1 —— 综合 9.10 / 10
一句话推荐理由:Mira Murati 的 Thinking Machines Lab 把"音频/视频实时、低延迟、双向同步"的全套交互能力一次性放进了一个 276B MoE 模型里,并把这件事的方法论包装成了一个比模型本身更值得关注的判断——交互性必须和智力一起 scale,否则注定会被苦涩教训碾过去。这是 2026 年最值得收藏的一篇 release post。
为什么这篇文章值得读
如果你在 2024–2025 年关注过 AI 工业的演化,你会发现整个语境正在朝一个方向倾斜:autonomy is the new metric。从 Devin、Claude Code、Codex 到各种 multi-agent 框架,所有的 leaderboard 上都在比"长任务自主完成率"——METR 的长任务基准,Anthropic 自己的 model card 也直白地说:“hands-on-keyboard 模式下用户嫌我们的模型慢,autonomous agent harness 才真正榨出了模型的潜力”。
Thinking Machines 这篇 release post 站到了反方向。他们说:在大多数真正有价值的工作里,用户根本写不出能让 agent 跑走 1 小时再回来的完整 prompt——你必须在过程里持续 clarify、interject、纠正、给视觉反馈。今天的模型把人挤出了 loop,不是因为人不需要、而是因为接口里没人位置。
这个判断已经够辛辣了。但博客真正的分量在第二步:它把"实时交互"从一个 UX 问题,提升成了一个 scaling law 问题。Sutton 2019 那篇《苦涩教训》(Bitter Lesson)告诉我们——手工编排的特征工程最终会被通用方法 + 算力击败。Thinking Machines 把这个论断顺延到了 2026 年的实时语音/视频系统上:你今天靠 VAD + ASR + TTS + LLM 拼出来的"实时 ChatGPT",本质就是手工特征工程,注定会被一个 end-to-end 训出来的 interaction model 替代。
第三层分量在工程:博客没有停留在愿景,而是真的把一个 276B 总参 / 12B active 的 MoE 训了出来,跑出了在 turn-taking latency(0.40s vs GPT-realtime 1.18s)、FD-bench(77.8 vs 46.8)、Audio MultiChallenge(43.4 vs 37.6)上同时击败 GPT-realtime-2.0 和 Gemini-3.1-flash-live 的成绩。它配套的工程细节——dMel 音频表征、200ms streaming sessions、batch-invariant kernel、NVLS 通信、Split-KV 一致顺序——每一条都是可以单独写成一篇 paper 的硬货。
最后,它是 Thinking Machines Lab 第一次拿出真材实料。这家公司估值 120 亿美元、Mira Murati 牵头、John Schulman 在场、Horace He 在写 kernel——它的第一个公开作品不是又一个 frontier reasoning model,而是定义了一个新赛道。这个赛道选择本身就值得读懂。
核心观点深度解读
1. “协作瓶颈”:作者把社会学家请到了 release post 里
博客开篇定义了一个新名词——协作瓶颈(collaboration bottleneck)。他们说,今天的模型即使在最聪明的时刻,能流过用户和模型之间的"带宽"也极其有限:
原文:「Picture trying to resolve a crucial disagreement over email rather than in person.」
这是 2026 年 5 月我读过最朴素也最准确的隐喻:用 email 解决一场重要的吵架。所有现在所谓 “Voice Mode” 的产品,本质都是这样的 email 链——你说一段、它回一段,看起来"实时",但中间隔着 VAD 延迟、隔着 turn boundary、隔着两边都不能在对方说话时改变主意的尴尬。
值得注意的是博客做了一个少见的修辞动作——它把三位社会学家/经济学家请进了脚注:
- Clark & Brennan(1991, “Grounding in Communication”):好的协作需要三种属性:copresence(共同在场)、contemporality(同时性)、simultaneity(同时收发)。
- F. A. Hayek(1945):“the knowledge of the particular circumstances of time and place” —— 那些没法事先编码的、属于具体时空的局部知识。
- James C. Scott(1998, Seeing like a State):métis —— 那种依赖经验、随机应变的实践智慧。
这是个非常聪明的修辞:把"让 AI 实时跟你协作"从工程命题升格成了认识论命题——用户脑子里那些没法事先编码、必须在过程中流出来的知识,turn-based 模型在结构上吃不到。
2. 苦涩教训的第二章:交互性也必须 scale
整篇博客最锋利的一句话:
原文:「For interactivity to scale with intelligence, it must be part of the model itself.」
Sutton 2019 的原版 Bitter Lesson 说的是:人类用领域知识做的特征工程,会被"通用方法 + 算力"反复击败。Thinking Machines 把这个论断从 representation learning 顺延到了交互层:
- 你今天用 VAD(voice activity detection)判断用户说完没有 —— 它是手工 feature。
- 你用 turn-detection 决定该不该让模型开口 —— 它是手工 feature。
- 你用 ASR → LLM → TTS 三段式拼出"语音 ChatGPT" —— 整套 pipeline 都是手工 feature。
Sutton 的论断告诉你:所有这些 hand-crafted 组件,最终会被 end-to-end 训练的大模型本身的能力击败。TML 的赌注是:他们要赌得早一点。这一段在 HN 的讨论里被 swyx 等多位 ML 工程师反复强调:“simply waiting is a posttrain thing”——能"在该闭嘴时闭嘴"听起来很简单,但要做到 production 规模的 full-duplex,是从模型架构、训练数据到 inference engine 全栈的重做。
这个判断和我之前在《Cursor 五百亿 tokenmaxxing》 那篇里讨论过的"什么该 RL、什么该 prompt"完全对位:当一件事变得 mission-critical,你最后会发现它必须进入权重,而不是停留在工程包装里。
3. 200ms 微轮次:把"轮次"砍碎到人类感知阈值之下
技术核心一句话:模型每 200ms 处理一次 200ms 输入 + 生成 200ms 输出。听 / 说不再是"两个模式",而是同一条流水线上的相邻槽位。
为什么是 200ms?
- 跨语言对话研究(Stivers, Levinson et al.)显示:人类对话的 turn 间隔中位数 ~200ms 左右。
- 短于 100ms:prefill/decode 的 overhead 会吃掉所有时间,且超过人类感知阈值的边际收益快速衰减。
- 长于 500ms:用户会感觉到"卡顿",对话变成 walkie-talkie。
这个选择有一个非常优雅的副作用:所有以前需要专门 harness 才能做到的事情,现在变成了"它能不能学会"的问题:
- 用户没说完但内容已经够明显——模型可以提前 interject(“先别继续,你这里有 bug”)
- 用户在做动作 + 说话——模型可以盯着视频流主动开口(“你做到第 12 个俯卧撑了”)
- 同声传译——模型 listening 和 speaking 在不同语言间持续切换
- 直播解说——视觉输入持续产生输出,没有 turn
这是博客视频 demo 中最让人惊艳的部分。其中一段 vessenes 在 HN 上写道:“a woman says: ‘I’m going to tell you a story,’ and then pauses for a long, luxurious sip from a cup of coffee, and the model … does nothing, just waits. Take my money.” —— “什么都不做"反而是模型的能力,因为它在每 200ms 都重新决定是否开口。
4. 双模型架构:用前台秘书 + 后台研究员解决"实时 = 必须蠢"的悖论
但这里有个明显的矛盾:200ms 一拍意味着模型必须能在 200ms 内 decode 完一段有意义的输出——这要求它必须够小。可"够小"就意味着不够聪明,没法做长链推理、工具调用、agentic 任务。
TML 的解法是 Interaction Model + Background Model 双模型架构:
- 前台(Interaction):12B active 的 MoE,永远在场,听 / 说 / 看,维持对话上下文。
- 后台(Background):一个完整的 frontier-grade 推理模型,异步跑,做重思考、工具调用、长任务。
前台需要做长链推理时,把整段对话作为 “rich context package” 一次性传给后台。后台流式吐结果,前台在合适的时机把结论插入对话——不是粗暴打断,而是像 Slack 上 “回头看一眼” 那种自然衔接。
这种 split 在概念上非常 Hayek + Scott + Schulman 的混合:
- Hayek 的局部知识进前台(实时、不可言说、与场景绑定)
- Scott 的 métis 也在前台(随机应变、经验直觉)
- 后台负责符号化、可推理、可验证的那部分智慧
Sean Goedecke 在他的配套评论里指出了一个真实的问题:「bolting on a strong reasoning model」最容易被批评为"benchmark gaming”——BigBench Audio 上 75.7% → 96.5% 的跃升完全靠后台模型。但他也承认:“a model fast enough for realtime conversation will have to have some way to punt hard tasks to a slower, smarter model. Both of those things are probably true.” 这是辩证的:方法学上正确,benchmark 上确实容易让人误读。
5. 工程极客的最佳礼包:dMel、streaming sessions、batch-invariant kernel
如果你是 ML systems 工程师,这篇博客的脚注密度比正文还高,每一条都是 production-grade 的硬货:
Encoder-free early fusion:不再用独立的 Whisper-like 音频 encoder 或 TTS-like decoder。音频用 dMel(Bai et al. 2024 的离散梅尔特征)经过轻量 embedding 直接进 transformer;图像切 40×40 patch 后用 hMLP(Touvron et al. 2022)处理;音频输出用 flow head(Lipman et al. 2022)。所有组件和 transformer 联合从头训练,没有 “translation tax”。
Streaming sessions:问题是 200ms chunk 意味着 prefill/decode 极频繁,每次都 reallocate GPU memory + 重算 metadata 会把延迟吃光。TML 的解法是把每个 200ms chunk 当独立 HTTP request,推理服务器维护一个 persistent sequence in GPU memory,把 chunk append 进去就行。这一招已经 upstream 进 SGLang,是 inference engine 设计上的一次重要转向——从 batched generation 走向 continuous streaming。
MoE kernel 优化:把标准 grouped GEMM 换成 gather + GEMV 策略,对小 batch decode 友好——这点呼应了我之前在《Speculative Decoding 与块级验证》 里讨论过的"小 batch 推理是被 prefill 主导的批处理优化忽视的角落"。
Trainer-sampler 比特级一致:训练和推理跑在不同 parallelism 策略上时,small numerical drift 会 destabilize RLHF。TML 用 batch-invariant kernel(开销 <5%)+ NVLS 通信原语(在 Blackwell 上的确定性 all-reduce)+ left-aligned Split-KV(让 prefill 和 decode 用相同累加顺序)三招组合,做到了 bit-wise 对齐。这是他们前作 Defeating Nondeterminism in LLM Inference 在 Horace He 主导下的延续。
原文:「Funnily enough, for some period of time using the batch-invariant kernels was actually faster e2e, due to the custom communication kernels which were not only batch-invariant but also much lower latency.」
这个脚注非常有他们的"研究室幽默":性能优化的副作用居然反向贡献了正确性。
6. 新的评测维度:让 benchmark 也 scale with capability
TML 这次最聪明的事情之一是为自己造了三类新 benchmark——因为现有 benchmark 根本测不到他们关心的能力。这不是 cherry-pick,而是诚实地承认"我们做的事现有指标管不到":
TimeSpeak:能不能在用户指定时间点主动开口?
- 例:“我要练习呼吸,请你每 4 秒提醒我吸气和呼气”
- 评判:时间窗 + 语义都对才得分
CueSpeak:能不能在该和用户同时开口的时候开口?
- 例:“每次我 code-switch,请用原语言告诉我对应的词”
- 强制评测 simultaneous speech
Visual Proactivity(RepCount-A / ProactiveVideoQA / Charades 三个改编):
- “请数我做了多少个俯卧撑” / “看到 X 动作开始时说 start,结束时说 stop”
- 当前所有商用 API 都得 0 分或 25 分 baseline(即"保持沉默"那条线)
这一点很重要:在 2026 年的 AI 领域,“造一个 benchmark 让自己赢"是个常见的批评,但这里 TML 是在定义一个之前不存在的能力维度——所有竞品在这个维度上不是"分数低”,而是"根本做不了任务"。这和 SWE-Bench 早期出现时只有 GPT-4 能勉强做出几道题是同一类时刻。
7. 它没说,但很重要的事:商业模式与 frontier 玩家的反应
vessenes 在 HN 上提出了一个尖锐问题:“They’ve published a fair amount about their architecture - enough that I imagine frontier labs could implement. Patents? Trade secrets? It’s hard for me to understand how you’d be able to beat that training compute and knowhow at Anthropic/GOOG/oAI/Meta without some sort of legal protection.”
swyx 的回答很重要:“i think the real ones know this is the tip of the iceberg? hparam tuning, data recipes, data collection, custom kernels, rl/eval infra, all immensely deep topics that would condense multiple decades of phd lifetimes to produce SOTA performance.”
这是一个 ML 产业内的共识:架构是冰山一角,真正的护城河是训练数据 + 调参积累 + 工程基建。但这个共识在投资人那里讲不通——Thinking Machines 的 120 亿美元估值需要兑现"OAI 之外的另一条路径",而这条路径如果只是 voice UX 的一次升级,撑不起 frontier-model 级别的估值。
我的判断(这点和 Sean Goedecke 接近):这篇博客是 Thinking Machines 的"定义新赛道"宣言。他们不打算在 frontier intelligence 上和 OAI/Anthropic 拼,而是要把"AI 协作"这条线推到 Anthropic/OAI 来不及做(或者刻意没做)的深度。OpenAI 当然有 Realtime API,但是把 “interactivity is the core” 作为公司战略写进定位的,目前只有 TML 一家。
8. 它没说,但你必须警惕的事:长会话、网络、安全
博客自己列了 5 个 limitations,每一条都不是小事:
- 长会话:连续音视频流上下文增长极快,“streaming-session 处理短/中等会话够用,长会话还需要 careful context management”。这意味着今天它做不了一整天的 always-on 助手。
- 网络可靠性:实时音视频 + 低延迟意味着对连接质量非常敏感,弱网下体验会"显著退化"。这是 TML 没法用更多 GPU 解决的根本约束。
- Alignment / Safety:real-time interface 的 attack surface 和 turn-based 完全不同。“用 TTS 生成 refusal 训练数据” 这种做法看起来 reasonable,但 long-horizon adversarial speech 的 red-teaming 还在路上。
- 模型规模:他们承认现有更大的 pretrained 模型现阶段"too slow to serve"。这是工程现实:interaction-grade latency 倒过来限制了模型大小。
- 背景 agent:当前前台 + 后台协作只是"scratch the surface"。
第 1、4 两点是同一件事的两面——实时性把你的模型大小、上下文长度都限死了。这是 architectural trade-off,不是工程问题。
延伸阅读图谱
Thinking Machines Lab 自己的前序作品
这家公司在 2025 年下半年悄悄发了 4 篇研究博客,每篇都是一根独立的技术线,到 Interaction Models 这里被汇成一束。
- On-Policy Distillation(Kevin Lu, 2025-10-27):用在线学到的 policy 蒸馏出小模型,可能就是 12B active 那块的训练手法。
- LoRA Without Regret(John Schulman, 2025-09-29):LoRA 在 RL 训练里的稳定化,对接 Tinker 工具链。
- Modular Manifolds(Jeremy Bernstein, 2025-09-26):参数空间的几何视角,间接服务于 trainer-sampler 对齐。
- Defeating Nondeterminism in LLM Inference(Horace He, 2025-09-10):Interaction Models 里 NVLS / Split-KV 那一节的前作。
现有 Full-duplex / 实时语音的代表作
- Moshi(Kyutai Labs, 2024):开源 full-duplex 先驱,7B 量级,证明 micro-turn 可行。
- PersonaPlex / Nemotron VoiceChat(NVIDIA, 2025):小规模实时音频系统,工程模板。
- GPT-Realtime-2.0(OpenAI):商业基线,turn-based + harness 路线。
- Gemini Flash Live(Google):另一条商业基线,同样依赖 VAD harness。
视觉主动相关的研究 prototype(被 TML 引用为 closest works)
- StreamBridge / Streamo / StreamingVLM / MMDuet2:研究式 prototype,text-out streaming。
- AURA:最接近 TML 的工作——用 VideoLLM 包了 ASR/TTS demo,但仍是 cascaded,不是 speech-native。
反方 / 批判视角
- Sean Goedecke: “Thinking Machines and interaction models”:本期推荐的最佳辅读评论。指出 “delegate reasoning” 在某些 benchmark 上是 unfair comparison。
- Sutton: The Bitter Lesson:2019 原文,理解 TML 的论证根基。
- HN 讨论 #48100524:328 票 52 评论,swyx、vessenes 等评论都值得读,覆盖商业、技术、产品三个角度。
我之前写过的相关导读(可对照阅读)
- 《【好文共赏】资深开发者为何"说不清"自己的价值:Speed 与 Scale 的两个循环》:另一篇关于"那些没法言说的实践智慧"。
- 《【好文共赏】Emacs 化的软件世界》:与本篇互为镜像——一个说 AI 让协作变 native,一个说 AI 让每个人都能写自己的工具。
- 《Cursor 五百亿:tokenmaxxing 的边界》:把"什么该进权重、什么留在 prompt"的辩论同样适用于这里。
- 《Speculative Decoding 与块级验证》:与 TML 的 streaming session / gather+GEMV 优化在同一频道。
- 《AI Coding Agents 的架构》:autonomous agent 路径的代表,是 TML “interactive” 路径的对立面。
编辑延伸思考:实时交互能否撼动 autonomy 的霸权?
读完这篇博客,我想了三个问题,没法在原文里找到答案,但希望帮读者把它放进更大的图景:
第一,autonomy 和 interactivity 是 zero-sum 吗?
我不这么认为。Anthropic 自己的 model card 里那句被 TML 引用的话——「hands-on-keyboard 模式下用户嫌我们的模型慢」——其实暗示了一个未来:频谱的两端都需要被服务。简单、有先验的任务(写一个 50 行的 React 组件)适合 fire-and-forget;复杂、有 tacit knowledge 的任务(设计一个产品上 onboarding flow)必须实时协作。Claude Code 的 autonomous agent 模式和 TML 的 interaction model 是两端,会逐渐合二为一——一个能在"我可以独立跑 30 分钟"和"我每 200ms 都问你一次"之间无缝切换的系统,才是终态。
但短期内(2026–2027),这两条路线会争夺同一笔基础设施投资——你不能同时把推理 cluster 调成 batch-maximizing 和 latency-minimizing 两套配置。所以谁先拿到一个杀手级 demo,谁就拿到下一轮基建投资。TML 这次显然是冲着这件事去的。
第二,TML 的赌注成立的前提是什么?
我的答案是:用户必须真的愿意为 “AI 在我说话时同时在思考” 付钱。这听起来是显然的,但其实是个开放问题。今天大量用户用 ChatGPT 语音模式的方式是——通勤路上单向问问题。这种用法下 turn-based 完全够用,TML 的优势全部白费。
真正能 unlock TML 优势的场景,目前看:
- 远程教学 / 一对一辅导(视觉反馈 + 实时打断)
- 临床问诊 / 心理咨询(沉默和节奏本身是信息)
- 工程协作(screen sharing + 实时 code review)
- 语言学习(同时朗读 + 纠正发音)
- 现场翻译
这些都是"高粘性、高客单价、但用户基数不大"的场景。TML 要么找到一个能跑量的 killer use case,要么甘心做 enterprise 高端产品。这是商业战略上他们必须很快回答的问题。
第三,对中国 AI 工业的意义?
中国 LLM 厂商在过去 18 个月主要在 frontier intelligence 和长上下文上发力(DeepSeek V4、Qwen 3.5、Kimi K2 等等),实时音视频是相对薄弱的一块——只有阿里和字节有完整的端到端工具链。Interaction Models 这条路线对中国厂商是个非常 actionable 的方向:
- 它不需要绝对最大的预训练规模——12B active 在中国厂商的现有算力下完全可达。
- 它需要的是工程深度——streaming inference、kernel 优化、trainer-sampler alignment,这些都是中国团队(DeepSeek、阿里 PAI、字节 ByteIR)已经在做的事。
- 它自带场景——直播、在线教育、电商客服、医院问诊,中国市场对实时多模态有真实需求。
如果有团队在 2026 下半年放出第二个 production-grade interaction model,很可能来自中国而不是硅谷。这是我会在 6–9 个月后回来检查的预测。
配套资料导览
本文同目录下还放了三份延伸材料,强烈建议作为辅读使用:
concept-cards.md:12 张概念卡片,把 23,000 字博客的核心拆成可独立阅读的单元。包含双模型架构图、200ms 微轮次原理、NVLS / Split-KV 的工程细节、TimeSpeak / CueSpeak benchmark 设计、5 条 limitations 等。glossary.md:40 条英中术语对照表,覆盖 Interaction Model / VAD / Bitter Lesson / Encoder-free Early Fusion / dMel / hMLP / Flow head / NVLS / Métis 等关键词。mindmap.svg:8 个分支节点的思维导图,从「协作瓶颈」「双模型架构」「200ms 微轮次」「工程细节」「benchmark 王座」「Bitter Lesson v2」「交互范式之争」「现有玩家」八个方向梳理。cover.svg:封面图,把 200ms 微轮次的"双流时序"可视化,配合双模型架构示意。
谁应该读
- AI Infra / Inference engine 工程师:streaming sessions、SGLang upstream、NVLS、Split-KV 这一节是 2026 年低延迟推理设计的 reference text。
- 多模态模型研究者:encoder-free early fusion + 联合训练的成功是个反默认的数据点。
- LLM 产品经理 / UX 设计师:Clark & Brennan 的三性(copresence / contemporality / simultaneity)应该写进每个 voice 产品的需求文档。
- AI 战略 / 投资人:Thinking Machines 选择"interactivity 而非 frontier intelligence"作为切入点的逻辑,是 2026 年最值得 study 的赛道分化案例。
- 关心 Sutton 与 Bitter Lesson 的人:这是一篇用 release post 的形式写出来的哲学论证,把 2019 那篇文章在 2026 年继续推了一步。
- 不关心技术细节但想看清 AI 工业方向的人:跳过工程章节,直接读「协作瓶颈」和「编辑延伸思考」三个问题就够了。
本期评分依据 多模评分:Opus(编辑主评)9.2 / Sonnet(副评)9.0 / Gemini(三评)9.1,综合 9.10 / 10。扣分主要来自:(a) 部分 benchmark(特别是 BigBench Audio)的 76% → 96.5% 跃升靠开启 background reasoning,引发 Sean Goedecke 的 unfair comparison 质疑;(b) 大部分 demo 视频是精心挑选的最佳样例,real-world 边界情况未公开;(c) 真正能验证它的"有限访问"还在路上,目前所有体验依赖博客 + 视频。即便如此,作为一篇 release post,它在原创度、技术深度、议程设定能力三个维度上都达到了行业 2026 年的顶峰——这是我们今天必须收藏的一篇。