
Mira Murati 用一年半时间证明了「人机协作」不是一句口号。
在「蛰伏」了 18 个月后,OpenAI 前 CTO Mira Murati 的新团队,Thinking Machines,终于交出了自己的答卷。
5 月 11 日,Thinking Machines Lab 发布了一段研究预览视频,展示了他们所谓的「交互模型」(Interaction Model)。
这不是又一个大语言模型的发布会,也不是又一轮跑分刷榜。这家公司做的事情,用一句话概括就是——让 AI 不再像发微信一样一条一条回复你,而是像面对面聊天一样,随时听、随时看、随时插嘴。
如果你看过他们的 Demo 视频,你会发现一件有意思的事:用户正在说话的时候,AI 也在说话;用户对着摄像头做俯卧撑,AI 在一旁数数;用户写代码写错了,AI 主动开口提醒——没人让它说话,它自己看到了。
这种体验,当前市场上没有任何一个商业 AI 产品能做到。
「回合制」的枷锁
要理解 Thinking Machines 做的事情为什么重要,得先理解当前所有 AI 对话系统的底层逻辑——回合制。
你说一句,AI 等你说完,然后回一句。在你说话的时候,AI 是「瞎」的、「聋」的,什么都感知不到。在 AI 回复的时候,它的感知也冻结了,不接收任何新信息。这就像两个人隔着一堵墙用对讲机沟通,你按下说话键的时候对方只能等着。

Thinking Machines 介绍 Demo|图片来源:YouTube
这套逻辑在打字聊天的场景下勉强够用,但一旦涉及语音、视频、实时协作,问题就暴露了。现有的 AI 模型把「自主工作」当作最重要的能力来优化,结果是人越来越难留在循环中。
Anthropic 自己的模型卡里都承认过,用户如果用同步、实时的方式操作他们的模型,体验反而不好——模型太慢,用户感知不到价值。
Thinking Machines 的核心主张很简单:交互能力应该和智能一起扩展,而不是被当成事后补丁。
200 毫秒的「微回合」
Thinking Machines 的技术路线有一个核心设计:时间对齐的微回合(Time-Aligned Micro-Turns)。
传统模型的输入和输出是一整段一整段处理的。而他们的交互模型把时间切成了 200 毫秒一个单位——每 200 毫秒处理一段输入,同时生成一段输出。音频、视频、文本,三条流同时进行,交替编织成一个连续的 token 序列送给模型。
这意味着什么?模型不再有「你说完了我再说」的人为边界。 它可以在用户说话的时候插嘴、可以边听边做搜索、可以一边看视频一边出声提醒。这些能力在以前需要用外部组件拼凑——一个 VAD(语音活动检测)判断什么时候该打断,一个 TTS 生成语音——而 Thinking Machines 把这一切都训练进了模型本身。
他们的逻辑很明确:如果交互能力写在模型外面的「脚手架」上,那模型变大、变聪明的时候,交互能力不会跟着变好。只有把交互训练进模型,扩展模型才能同时让它更聪明、也更会协作。Rich Sutton 那篇经典的「苦涩的教训」(The Bitter Lesson)说的就是这个道理——手工设计的系统,终将被通用能力的规模化击败。

在交互中搜索并生成图表|图片来源:YouTube
在 Demo 视频中,有一个细节让人印象深刻:用户在和 AI 对话的过程中,AI 同时在后台搜索网页并生成 UI 图表,然后无缝地把搜索结果织入对话。用户甚至没有注意到 AI 在搜索,以为它全凭自己的知识在回答。这种「一边聊天一边干活」的能力,正是微回合架构带来的直接结果。
架构的两层:
一个管交互,一个管深度思考
Thinking Machines 的系统并不只有一个模型,而是分成了两层。
表层是「交互模型」,一直在线,持续和用户保持双向交流。
底层是「背景模型」,负责需要深度推理、调用工具、执行长链条任务的工作。交互模型在对话中遇到需要深入思考的问题时,会把任务委托给背景模型,同时继续保持和用户的对话——回答追问、接受新输入、维持对话线索。等背景模型出了结果,交互模型会选择一个合适的时机把结果织入对话,而不是生硬地打断用户。
这个设计的精妙之处在于:用户同时享受到了「即时响应」和「深度智能」,不用在两者之间做选择。 在技术报告中,他们的 TML-Interaction-Small 模型是一个 276B 参数的 MoE 架构,活跃参数 12B。在 FD-bench V1.5 这个交互质量基准测试上拿到了 77.8 分,几乎是 GPT-realtime-2.0(46.8 分)的两倍。对话响应延迟只有 0.40 秒,而 GPT-realtime-2.0 是 1.18 秒,Gemini 是 0.57 秒。
更有意思的是他们自己开发的几个新测试。一个叫 TimeSpeak,测试模型能否在用户指定的时间主动说话,他们拿到了 64.7% 的准确率,而 GPT-realtime-2.0 只有 4.3%。一个叫 CueSpeak,测试模型能否在正确的语义时机开口,他们拿到 81.7%,GPT 是 2.9%。
换句话说,当前市面上的商业模型,基本上不具备这些交互能力。
Thinking Machines 艰难来路
Thinking Machines 的故事,某种程度上也是 OpenAI 人才战争的一个缩影。

Mira Murati 曾经是 OpenAI 的 CTO|图片来源:Techfundingnews
CEO Mira Murati 在 OpenAI 工作了六年半,2022 年升任 CTO,主导了 ChatGPT、DALL-E、Codex、Sora 等几乎所有明星产品的技术方向。2023 年 11 月 Sam Altman 被董事会罢免的那几天,Murati 还当了几天临时 CEO。2024 年 9 月,她宣布离开 OpenAI,说要「给自己留出时间和空间做自己的探索」。
五个月后,2025 年 2 月,Thinking Machines Lab 正式成立。一起来的阵容堪称 AI 行业的「复仇者联盟」——Barrett Zoph(OpenAI 前研究 VP)、John Schulman(OpenAI 联合创始人、RLHF 的关键推动者,此前曾短暂去过 Anthropic)、Lilian Weng(OpenAI 前 VP)、Luke Metz、Andrew Tulloch。顾问团队里有 Bob McGrew(OpenAI 前首席研究官)和 Alec Radford(GPT 系列论文的核心作者)。
公司成立五个月就完成了 20 亿美元的种子轮融资,a16z 领投,Nvidia、AMD、Jane Street 等跟投,估值 120 亿美元。
但接下来发生的事,恐怕是 Murati 没有预料到的。
2025 年 10 月,联合创始人 Andrew Tulloch 离开加入 Meta。2026 年 1 月,更大的震荡来了——CTO Barret Zoph 被公司「分道扬镳」,联合创始人 Luke Metz 和另一位核心成员 Sam Schoenholz 也同时回归 OpenAI。Murati 的公告措辞克制,只提了 Zoph 的离开。58 分钟后,OpenAI 应用部门 CEO Fidji Simo 在社交媒体上宣布同时欢迎三人回归。到了 2026 年 4 月,Meta 又挖走了至少七名创始团队成员。
原来的五位联合创始人,只剩下了一个——John Schulman。
但 Murati 做了一个关键决定:把 PyTorch 的创造者 Soumith Chintala(从 Meta 加入)提拔为新 CTO。
一个失去了大半创始团队的公司,在成立仅 15 个月后拿出了一个定义性的技术 Demo。这本身就说明了一些问题。
不只是 Demo,是一种技术信仰
Thinking Machines 这次展示的「交互模型」,当然还有很多局限——长时间对话的上下文管理、对稳定网络连接的依赖、模型规模暂时还不够大(当前版本的更大预训练模型还太慢无法部署)。他们自己在技术博客里坦诚地列出了这些问题。
但这个 Demo 传递出的信号远比技术细节更重要。
当整个行业都在追求更自主的 AI Agent、更长的推理链、更强的自主完成任务的能力时,Thinking Machines 旗帜鲜明地提出了一个不同的方向:AI 应该让人类更容易留在循环中,而不是把人推出去。
他们的技术博客里引用了经济学家哈耶克 1945 年的经典论述——真正重要的知识,往往是关于「特定时间和地点的具体情境」的知识,这种知识很难被完全形式化地传达给 AI。
换句话说,用户脑子里的东西,往往比他们能在 prompt 里写出来的要多得多。要让这些知识流入 AI 的决策过程,唯一的办法就是让人和 AI 的沟通带宽足够大。
从一家经历了联合创始人出走、被 Meta 围猎、被外界质疑产品方向的公司里,跑出了 2026 年第一个让人真正觉得「AI 交互方式要变了」的产品原型。
这或许说明,在 AI 这场竞赛里,最稀缺的资源不是算力、不是资金,而是一个清晰且有信念的技术方向。
*头图来源:YouTube
文章来自于微信公众号 "极客公园",作者 "极客公园"
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales