Jiayun's Blog

探索与分享

📌 好文共赏 | Editor’s Pick

原文:Interaction Models: A Scalable Approach to Human-AI Collaboration 作者:Thinking Machines Lab(Connectionism 博客) | 发布于:2026-05-11 | 阅读时长:约 35–45 分钟(含视频 demo)

多模评分:Opus 9.2 / Sonnet 9.0 / Gemini 9.1 —— 综合 9.10 / 10

一句话推荐理由:Mira Murati 的 Thinking Machines Lab 把"音频/视频实时、低延迟、双向同步"的全套交互能力一次性放进了一个 276B MoE 模型里,并把这件事的方法论包装成了一个比模型本身更值得关注的判断——交互性必须和智力一起 scale,否则注定会被苦涩教训碾过去。这是 2026 年最值得收藏的一篇 release post。

为什么这篇文章值得读

如果你在 2024–2025 年关注过 AI 工业的演化,你会发现整个语境正在朝一个方向倾斜:autonomy is the new metric。从 Devin、Claude Code、Codex 到各种 multi-agent 框架,所有的 leaderboard 上都在比"长任务自主完成率"——METR 的长任务基准,Anthropic 自己的 model card 也直白地说:“hands-on-keyboard 模式下用户嫌我们的模型慢,autonomous agent harness 才真正榨出了模型的潜力”。

Thinking Machines 这篇 release post 站到了反方向。他们说:在大多数真正有价值的工作里,用户根本写不出能让 agent 跑走 1 小时再回来的完整 prompt——你必须在过程里持续 clarify、interject、纠正、给视觉反馈。今天的模型把人挤出了 loop,不是因为人不需要、而是因为接口里没人位置

这个判断已经够辛辣了。但博客真正的分量在第二步:它把"实时交互"从一个 UX 问题,提升成了一个 scaling law 问题。Sutton 2019 那篇《苦涩教训》(Bitter Lesson)告诉我们——手工编排的特征工程最终会被通用方法 + 算力击败。Thinking Machines 把这个论断顺延到了 2026 年的实时语音/视频系统上:你今天靠 VAD + ASR + TTS + LLM 拼出来的"实时 ChatGPT",本质就是手工特征工程,注定会被一个 end-to-end 训出来的 interaction model 替代。

第三层分量在工程:博客没有停留在愿景,而是真的把一个 276B 总参 / 12B active 的 MoE 训了出来,跑出了在 turn-taking latency(0.40s vs GPT-realtime 1.18s)、FD-bench(77.8 vs 46.8)、Audio MultiChallenge(43.4 vs 37.6)上同时击败 GPT-realtime-2.0 和 Gemini-3.1-flash-live 的成绩。它配套的工程细节——dMel 音频表征、200ms streaming sessions、batch-invariant kernel、NVLS 通信、Split-KV 一致顺序——每一条都是可以单独写成一篇 paper 的硬货。

最后,它是 Thinking Machines Lab 第一次拿出真材实料。这家公司估值 120 亿美元、Mira Murati 牵头、John Schulman 在场、Horace He 在写 kernel——它的第一个公开作品不是又一个 frontier reasoning model,而是定义了一个新赛道。这个赛道选择本身就值得读懂。

核心观点深度解读

1. “协作瓶颈”:作者把社会学家请到了 release post 里

博客开篇定义了一个新名词——协作瓶颈(collaboration bottleneck)。他们说,今天的模型即使在最聪明的时刻,能流过用户和模型之间的"带宽"也极其有限:

原文:「Picture trying to resolve a crucial disagreement over email rather than in person.」

这是 2026 年 5 月我读过最朴素也最准确的隐喻:用 email 解决一场重要的吵架。所有现在所谓 “Voice Mode” 的产品,本质都是这样的 email 链——你说一段、它回一段,看起来"实时",但中间隔着 VAD 延迟、隔着 turn boundary、隔着两边都不能在对方说话时改变主意的尴尬。

值得注意的是博客做了一个少见的修辞动作——它把三位社会学家/经济学家请进了脚注:

  • Clark & Brennan(1991, “Grounding in Communication”):好的协作需要三种属性:copresence(共同在场)、contemporality(同时性)、simultaneity(同时收发)。
  • F. A. Hayek(1945):“the knowledge of the particular circumstances of time and place” —— 那些没法事先编码的、属于具体时空的局部知识。
  • James C. Scott(1998, Seeing like a State):métis —— 那种依赖经验、随机应变的实践智慧。

这是个非常聪明的修辞:把"让 AI 实时跟你协作"从工程命题升格成了认识论命题——用户脑子里那些没法事先编码、必须在过程中流出来的知识,turn-based 模型在结构上吃不到

2. 苦涩教训的第二章:交互性也必须 scale

整篇博客最锋利的一句话:

原文:「For interactivity to scale with intelligence, it must be part of the model itself.」

Sutton 2019 的原版 Bitter Lesson 说的是:人类用领域知识做的特征工程,会被"通用方法 + 算力"反复击败。Thinking Machines 把这个论断从 representation learning 顺延到了交互层:

  • 你今天用 VAD(voice activity detection)判断用户说完没有 —— 它是手工 feature
  • 你用 turn-detection 决定该不该让模型开口 —— 它是手工 feature
  • 你用 ASR → LLM → TTS 三段式拼出"语音 ChatGPT" —— 整套 pipeline 都是手工 feature

Sutton 的论断告诉你:所有这些 hand-crafted 组件,最终会被 end-to-end 训练的大模型本身的能力击败。TML 的赌注是:他们要赌得早一点。这一段在 HN 的讨论里被 swyx 等多位 ML 工程师反复强调:“simply waiting is a posttrain thing”——能"在该闭嘴时闭嘴"听起来很简单,但要做到 production 规模的 full-duplex,是从模型架构、训练数据到 inference engine 全栈的重做。

这个判断和我之前在《Cursor 五百亿 tokenmaxxing》 那篇里讨论过的"什么该 RL、什么该 prompt"完全对位:当一件事变得 mission-critical,你最后会发现它必须进入权重,而不是停留在工程包装里。

3. 200ms 微轮次:把"轮次"砍碎到人类感知阈值之下

技术核心一句话:模型每 200ms 处理一次 200ms 输入 + 生成 200ms 输出。听 / 说不再是"两个模式",而是同一条流水线上的相邻槽位

为什么是 200ms?

  • 跨语言对话研究(Stivers, Levinson et al.)显示:人类对话的 turn 间隔中位数 ~200ms 左右。
  • 短于 100ms:prefill/decode 的 overhead 会吃掉所有时间,且超过人类感知阈值的边际收益快速衰减。
  • 长于 500ms:用户会感觉到"卡顿",对话变成 walkie-talkie。

这个选择有一个非常优雅的副作用:所有以前需要专门 harness 才能做到的事情,现在变成了"它能不能学会"的问题

  • 用户没说完但内容已经够明显——模型可以提前 interject(“先别继续,你这里有 bug”)
  • 用户在做动作 + 说话——模型可以盯着视频流主动开口(“你做到第 12 个俯卧撑了”)
  • 同声传译——模型 listening 和 speaking 在不同语言间持续切换
  • 直播解说——视觉输入持续产生输出,没有 turn

这是博客视频 demo 中最让人惊艳的部分。其中一段 vessenes 在 HN 上写道:“a woman says: ‘I’m going to tell you a story,’ and then pauses for a long, luxurious sip from a cup of coffee, and the model … does nothing, just waits. Take my money.” —— “什么都不做"反而是模型的能力,因为它在每 200ms 都重新决定是否开口

4. 双模型架构:用前台秘书 + 后台研究员解决"实时 = 必须蠢"的悖论

但这里有个明显的矛盾:200ms 一拍意味着模型必须能在 200ms 内 decode 完一段有意义的输出——这要求它必须够小。可"够小"就意味着不够聪明,没法做长链推理、工具调用、agentic 任务。

TML 的解法是 Interaction Model + Background Model 双模型架构

  • 前台(Interaction):12B active 的 MoE,永远在场,听 / 说 / 看,维持对话上下文。
  • 后台(Background):一个完整的 frontier-grade 推理模型,异步跑,做重思考、工具调用、长任务。

前台需要做长链推理时,把整段对话作为 “rich context package” 一次性传给后台。后台流式吐结果,前台在合适的时机把结论插入对话——不是粗暴打断,而是像 Slack 上 “回头看一眼” 那种自然衔接。

这种 split 在概念上非常 Hayek + Scott + Schulman 的混合:

  • Hayek 的局部知识进前台(实时、不可言说、与场景绑定)
  • Scott 的 métis 也在前台(随机应变、经验直觉)
  • 后台负责符号化、可推理、可验证的那部分智慧

Sean Goedecke 在他的配套评论里指出了一个真实的问题:「bolting on a strong reasoning model」最容易被批评为"benchmark gaming”——BigBench Audio 上 75.7% → 96.5% 的跃升完全靠后台模型。但他也承认:“a model fast enough for realtime conversation will have to have some way to punt hard tasks to a slower, smarter model. Both of those things are probably true.” 这是辩证的:方法学上正确,benchmark 上确实容易让人误读。

5. 工程极客的最佳礼包:dMel、streaming sessions、batch-invariant kernel

如果你是 ML systems 工程师,这篇博客的脚注密度比正文还高,每一条都是 production-grade 的硬货:

Encoder-free early fusion:不再用独立的 Whisper-like 音频 encoder 或 TTS-like decoder。音频用 dMel(Bai et al. 2024 的离散梅尔特征)经过轻量 embedding 直接进 transformer;图像切 40×40 patch 后用 hMLP(Touvron et al. 2022)处理;音频输出用 flow head(Lipman et al. 2022)。所有组件和 transformer 联合从头训练,没有 “translation tax”。

Streaming sessions:问题是 200ms chunk 意味着 prefill/decode 极频繁,每次都 reallocate GPU memory + 重算 metadata 会把延迟吃光。TML 的解法是把每个 200ms chunk 当独立 HTTP request,推理服务器维护一个 persistent sequence in GPU memory,把 chunk append 进去就行。这一招已经 upstream 进 SGLang,是 inference engine 设计上的一次重要转向——从 batched generation 走向 continuous streaming。

MoE kernel 优化:把标准 grouped GEMM 换成 gather + GEMV 策略,对小 batch decode 友好——这点呼应了我之前在《Speculative Decoding 与块级验证》 里讨论过的"小 batch 推理是被 prefill 主导的批处理优化忽视的角落"。

Trainer-sampler 比特级一致:训练和推理跑在不同 parallelism 策略上时,small numerical drift 会 destabilize RLHF。TML 用 batch-invariant kernel(开销 <5%)+ NVLS 通信原语(在 Blackwell 上的确定性 all-reduce)+ left-aligned Split-KV(让 prefill 和 decode 用相同累加顺序)三招组合,做到了 bit-wise 对齐。这是他们前作 Defeating Nondeterminism in LLM Inference 在 Horace He 主导下的延续。

原文:「Funnily enough, for some period of time using the batch-invariant kernels was actually faster e2e, due to the custom communication kernels which were not only batch-invariant but also much lower latency.」

这个脚注非常有他们的"研究室幽默":性能优化的副作用居然反向贡献了正确性。

6. 新的评测维度:让 benchmark 也 scale with capability

TML 这次最聪明的事情之一是为自己造了三类新 benchmark——因为现有 benchmark 根本测不到他们关心的能力。这不是 cherry-pick,而是诚实地承认"我们做的事现有指标管不到":

TimeSpeak:能不能在用户指定时间点主动开口?

  • 例:“我要练习呼吸,请你每 4 秒提醒我吸气和呼气”
  • 评判:时间窗 + 语义都对才得分

CueSpeak:能不能在该和用户同时开口的时候开口?

  • 例:“每次我 code-switch,请用原语言告诉我对应的词”
  • 强制评测 simultaneous speech

Visual Proactivity(RepCount-A / ProactiveVideoQA / Charades 三个改编):

  • “请数我做了多少个俯卧撑” / “看到 X 动作开始时说 start,结束时说 stop”
  • 当前所有商用 API 都得 0 分或 25 分 baseline(即"保持沉默"那条线)

这一点很重要:在 2026 年的 AI 领域,“造一个 benchmark 让自己赢"是个常见的批评,但这里 TML 是在定义一个之前不存在的能力维度——所有竞品在这个维度上不是"分数低”,而是"根本做不了任务"。这和 SWE-Bench 早期出现时只有 GPT-4 能勉强做出几道题是同一类时刻。

7. 它没说,但很重要的事:商业模式与 frontier 玩家的反应

vessenes 在 HN 上提出了一个尖锐问题:“They’ve published a fair amount about their architecture - enough that I imagine frontier labs could implement. Patents? Trade secrets? It’s hard for me to understand how you’d be able to beat that training compute and knowhow at Anthropic/GOOG/oAI/Meta without some sort of legal protection.”

swyx 的回答很重要:“i think the real ones know this is the tip of the iceberg? hparam tuning, data recipes, data collection, custom kernels, rl/eval infra, all immensely deep topics that would condense multiple decades of phd lifetimes to produce SOTA performance.”

这是一个 ML 产业内的共识:架构是冰山一角,真正的护城河是训练数据 + 调参积累 + 工程基建。但这个共识在投资人那里讲不通——Thinking Machines 的 120 亿美元估值需要兑现"OAI 之外的另一条路径",而这条路径如果只是 voice UX 的一次升级,撑不起 frontier-model 级别的估值。

我的判断(这点和 Sean Goedecke 接近):这篇博客是 Thinking Machines 的"定义新赛道"宣言。他们不打算在 frontier intelligence 上和 OAI/Anthropic 拼,而是要把"AI 协作"这条线推到 Anthropic/OAI 来不及做(或者刻意没做)的深度。OpenAI 当然有 Realtime API,但是把 “interactivity is the core” 作为公司战略写进定位的,目前只有 TML 一家。

8. 它没说,但你必须警惕的事:长会话、网络、安全

博客自己列了 5 个 limitations,每一条都不是小事:

  1. 长会话:连续音视频流上下文增长极快,“streaming-session 处理短/中等会话够用,长会话还需要 careful context management”。这意味着今天它做不了一整天的 always-on 助手。
  2. 网络可靠性:实时音视频 + 低延迟意味着对连接质量非常敏感,弱网下体验会"显著退化"。这是 TML 没法用更多 GPU 解决的根本约束。
  3. Alignment / Safety:real-time interface 的 attack surface 和 turn-based 完全不同。“用 TTS 生成 refusal 训练数据” 这种做法看起来 reasonable,但 long-horizon adversarial speech 的 red-teaming 还在路上。
  4. 模型规模:他们承认现有更大的 pretrained 模型现阶段"too slow to serve"。这是工程现实:interaction-grade latency 倒过来限制了模型大小。
  5. 背景 agent:当前前台 + 后台协作只是"scratch the surface"。

第 1、4 两点是同一件事的两面——实时性把你的模型大小、上下文长度都限死了。这是 architectural trade-off,不是工程问题。

延伸阅读图谱

Thinking Machines Lab 自己的前序作品

这家公司在 2025 年下半年悄悄发了 4 篇研究博客,每篇都是一根独立的技术线,到 Interaction Models 这里被汇成一束。

  • On-Policy Distillation(Kevin Lu, 2025-10-27):用在线学到的 policy 蒸馏出小模型,可能就是 12B active 那块的训练手法。
  • LoRA Without Regret(John Schulman, 2025-09-29):LoRA 在 RL 训练里的稳定化,对接 Tinker 工具链。
  • Modular Manifolds(Jeremy Bernstein, 2025-09-26):参数空间的几何视角,间接服务于 trainer-sampler 对齐。
  • Defeating Nondeterminism in LLM Inference(Horace He, 2025-09-10):Interaction Models 里 NVLS / Split-KV 那一节的前作

现有 Full-duplex / 实时语音的代表作

  • Moshi(Kyutai Labs, 2024):开源 full-duplex 先驱,7B 量级,证明 micro-turn 可行。
  • PersonaPlex / Nemotron VoiceChat(NVIDIA, 2025):小规模实时音频系统,工程模板。
  • GPT-Realtime-2.0(OpenAI):商业基线,turn-based + harness 路线。
  • Gemini Flash Live(Google):另一条商业基线,同样依赖 VAD harness。

视觉主动相关的研究 prototype(被 TML 引用为 closest works)

  • StreamBridge / Streamo / StreamingVLM / MMDuet2:研究式 prototype,text-out streaming。
  • AURA:最接近 TML 的工作——用 VideoLLM 包了 ASR/TTS demo,但仍是 cascaded,不是 speech-native。

反方 / 批判视角

我之前写过的相关导读(可对照阅读)

编辑延伸思考:实时交互能否撼动 autonomy 的霸权?

读完这篇博客,我想了三个问题,没法在原文里找到答案,但希望帮读者把它放进更大的图景:

第一,autonomy 和 interactivity 是 zero-sum 吗?

我不这么认为。Anthropic 自己的 model card 里那句被 TML 引用的话——「hands-on-keyboard 模式下用户嫌我们的模型慢」——其实暗示了一个未来:频谱的两端都需要被服务。简单、有先验的任务(写一个 50 行的 React 组件)适合 fire-and-forget;复杂、有 tacit knowledge 的任务(设计一个产品上 onboarding flow)必须实时协作。Claude Code 的 autonomous agent 模式和 TML 的 interaction model 是两端,会逐渐合二为一——一个能在"我可以独立跑 30 分钟"和"我每 200ms 都问你一次"之间无缝切换的系统,才是终态。

但短期内(2026–2027),这两条路线会争夺同一笔基础设施投资——你不能同时把推理 cluster 调成 batch-maximizing 和 latency-minimizing 两套配置。所以谁先拿到一个杀手级 demo,谁就拿到下一轮基建投资。TML 这次显然是冲着这件事去的。

第二,TML 的赌注成立的前提是什么?

我的答案是:用户必须真的愿意为 “AI 在我说话时同时在思考” 付钱。这听起来是显然的,但其实是个开放问题。今天大量用户用 ChatGPT 语音模式的方式是——通勤路上单向问问题。这种用法下 turn-based 完全够用,TML 的优势全部白费。

真正能 unlock TML 优势的场景,目前看:

  • 远程教学 / 一对一辅导(视觉反馈 + 实时打断)
  • 临床问诊 / 心理咨询(沉默和节奏本身是信息)
  • 工程协作(screen sharing + 实时 code review)
  • 语言学习(同时朗读 + 纠正发音)
  • 现场翻译

这些都是"高粘性、高客单价、但用户基数不大"的场景。TML 要么找到一个能跑量的 killer use case,要么甘心做 enterprise 高端产品。这是商业战略上他们必须很快回答的问题。

第三,对中国 AI 工业的意义?

中国 LLM 厂商在过去 18 个月主要在 frontier intelligence 和长上下文上发力(DeepSeek V4、Qwen 3.5、Kimi K2 等等),实时音视频是相对薄弱的一块——只有阿里和字节有完整的端到端工具链。Interaction Models 这条路线对中国厂商是个非常 actionable 的方向:

  • 不需要绝对最大的预训练规模——12B active 在中国厂商的现有算力下完全可达。
  • 需要的是工程深度——streaming inference、kernel 优化、trainer-sampler alignment,这些都是中国团队(DeepSeek、阿里 PAI、字节 ByteIR)已经在做的事。
  • 自带场景——直播、在线教育、电商客服、医院问诊,中国市场对实时多模态有真实需求。

如果有团队在 2026 下半年放出第二个 production-grade interaction model,很可能来自中国而不是硅谷。这是我会在 6–9 个月后回来检查的预测。

配套资料导览

本文同目录下还放了三份延伸材料,强烈建议作为辅读使用

  • concept-cards.md:12 张概念卡片,把 23,000 字博客的核心拆成可独立阅读的单元。包含双模型架构图、200ms 微轮次原理、NVLS / Split-KV 的工程细节、TimeSpeak / CueSpeak benchmark 设计、5 条 limitations 等。
  • glossary.md:40 条英中术语对照表,覆盖 Interaction Model / VAD / Bitter Lesson / Encoder-free Early Fusion / dMel / hMLP / Flow head / NVLS / Métis 等关键词。
  • mindmap.svg:8 个分支节点的思维导图,从「协作瓶颈」「双模型架构」「200ms 微轮次」「工程细节」「benchmark 王座」「Bitter Lesson v2」「交互范式之争」「现有玩家」八个方向梳理。
  • cover.svg:封面图,把 200ms 微轮次的"双流时序"可视化,配合双模型架构示意。

谁应该读

  • AI Infra / Inference engine 工程师:streaming sessions、SGLang upstream、NVLS、Split-KV 这一节是 2026 年低延迟推理设计的 reference text。
  • 多模态模型研究者:encoder-free early fusion + 联合训练的成功是个反默认的数据点。
  • LLM 产品经理 / UX 设计师:Clark & Brennan 的三性(copresence / contemporality / simultaneity)应该写进每个 voice 产品的需求文档。
  • AI 战略 / 投资人:Thinking Machines 选择"interactivity 而非 frontier intelligence"作为切入点的逻辑,是 2026 年最值得 study 的赛道分化案例。
  • 关心 Sutton 与 Bitter Lesson 的人:这是一篇用 release post 的形式写出来的哲学论证,把 2019 那篇文章在 2026 年继续推了一步。
  • 不关心技术细节但想看清 AI 工业方向的人:跳过工程章节,直接读「协作瓶颈」和「编辑延伸思考」三个问题就够了。

本期评分依据 多模评分:Opus(编辑主评)9.2 / Sonnet(副评)9.0 / Gemini(三评)9.1,综合 9.10 / 10。扣分主要来自:(a) 部分 benchmark(特别是 BigBench Audio)的 76% → 96.5% 跃升靠开启 background reasoning,引发 Sean Goedecke 的 unfair comparison 质疑;(b) 大部分 demo 视频是精心挑选的最佳样例,real-world 边界情况未公开;(c) 真正能验证它的"有限访问"还在路上,目前所有体验依赖博客 + 视频。即便如此,作为一篇 release post,它在原创度、技术深度、议程设定能力三个维度上都达到了行业 2026 年的顶峰——这是我们今天必须收藏的一篇。