Thinking Machines Lab拿出了一个「最人性」的 AI —

Thinking Machines Lab拿出了一个「最人性」的 AI —— 「交互模型」Interaction Model

8390点击 2026-05-12 10:13

OpenAI 前 CTO，拿出了一个「最人性」的 AI

Mira Murati 用一年半时间证明了「人机协作」不是一句口号。

在「蛰伏」了 18 个月后，OpenAI 前 CTO Mira Murati 的新团队，Thinking Machines，终于交出了自己的答卷。

5 月 11 日，Thinking Machines Lab 发布了一段研究预览视频，展示了他们所谓的「交互模型」（Interaction Model）。

这不是又一个大语言模型的发布会，也不是又一轮跑分刷榜。这家公司做的事情，用一句话概括就是——让 AI 不再像发微信一样一条一条回复你，而是像面对面聊天一样，随时听、随时看、随时插嘴。

如果你看过他们的 Demo 视频，你会发现一件有意思的事：用户正在说话的时候，AI 也在说话；用户对着摄像头做俯卧撑，AI 在一旁数数；用户写代码写错了，AI 主动开口提醒——没人让它说话，它自己看到了。

这种体验，当前市场上没有任何一个商业 AI 产品能做到。

「回合制」的枷锁

要理解 Thinking Machines 做的事情为什么重要，得先理解当前所有 AI 对话系统的底层逻辑——回合制。

你说一句，AI 等你说完，然后回一句。在你说话的时候，AI 是「瞎」的、「聋」的，什么都感知不到。在 AI 回复的时候，它的感知也冻结了，不接收任何新信息。这就像两个人隔着一堵墙用对讲机沟通，你按下说话键的时候对方只能等着。

Thinking Machines Lab拿出了一个「最人性」的 AI —— 「交互模型」Interaction Model

Thinking Machines 介绍 Demo｜图片来源：YouTube

这套逻辑在打字聊天的场景下勉强够用，但一旦涉及语音、视频、实时协作，问题就暴露了。现有的 AI 模型把「自主工作」当作最重要的能力来优化，结果是人越来越难留在循环中。

Anthropic 自己的模型卡里都承认过，用户如果用同步、实时的方式操作他们的模型，体验反而不好——模型太慢，用户感知不到价值。

Thinking Machines 的核心主张很简单：交互能力应该和智能一起扩展，而不是被当成事后补丁。

200 毫秒的「微回合」

Thinking Machines 的技术路线有一个核心设计：时间对齐的微回合（Time-Aligned Micro-Turns）。

传统模型的输入和输出是一整段一整段处理的。而他们的交互模型把时间切成了 200 毫秒一个单位——每 200 毫秒处理一段输入，同时生成一段输出。音频、视频、文本，三条流同时进行，交替编织成一个连续的 token 序列送给模型。

这意味着什么？模型不再有「你说完了我再说」的人为边界。 它可以在用户说话的时候插嘴、可以边听边做搜索、可以一边看视频一边出声提醒。这些能力在以前需要用外部组件拼凑——一个 VAD（语音活动检测）判断什么时候该打断，一个 TTS 生成语音——而 Thinking Machines 把这一切都训练进了模型本身。

他们的逻辑很明确：如果交互能力写在模型外面的「脚手架」上，那模型变大、变聪明的时候，交互能力不会跟着变好。只有把交互训练进模型，扩展模型才能同时让它更聪明、也更会协作。Rich Sutton 那篇经典的「苦涩的教训」（The Bitter Lesson）说的就是这个道理——手工设计的系统，终将被通用能力的规模化击败。

OpenAI 前 CTO，拿出了一个「最人性」的 AI

在交互中搜索并生成图表｜图片来源：YouTube

在 Demo 视频中，有一个细节让人印象深刻：用户在和 AI 对话的过程中，AI 同时在后台搜索网页并生成 UI 图表，然后无缝地把搜索结果织入对话。用户甚至没有注意到 AI 在搜索，以为它全凭自己的知识在回答。这种「一边聊天一边干活」的能力，正是微回合架构带来的直接结果。

架构的两层：

一个管交互，一个管深度思考

Thinking Machines 的系统并不只有一个模型，而是分成了两层。

表层是「交互模型」，一直在线，持续和用户保持双向交流。

底层是「背景模型」，负责需要深度推理、调用工具、执行长链条任务的工作。交互模型在对话中遇到需要深入思考的问题时，会把任务委托给背景模型，同时继续保持和用户的对话——回答追问、接受新输入、维持对话线索。等背景模型出了结果，交互模型会选择一个合适的时机把结果织入对话，而不是生硬地打断用户。

这个设计的精妙之处在于：用户同时享受到了「即时响应」和「深度智能」，不用在两者之间做选择。 在技术报告中，他们的 TML-Interaction-Small 模型是一个 276B 参数的 MoE 架构，活跃参数 12B。在 FD-bench V1.5 这个交互质量基准测试上拿到了 77.8 分，几乎是 GPT-realtime-2.0（46.8 分）的两倍。对话响应延迟只有 0.40 秒，而 GPT-realtime-2.0 是 1.18 秒，Gemini 是 0.57 秒。

更有意思的是他们自己开发的几个新测试。一个叫 TimeSpeak，测试模型能否在用户指定的时间主动说话，他们拿到了 64.7% 的准确率，而 GPT-realtime-2.0 只有 4.3%。一个叫 CueSpeak，测试模型能否在正确的语义时机开口，他们拿到 81.7%，GPT 是 2.9%。

换句话说，当前市面上的商业模型，基本上不具备这些交互能力。

Thinking Machines 艰难来路

Thinking Machines 的故事，某种程度上也是 OpenAI 人才战争的一个缩影。

OpenAI 前 CTO，拿出了一个「最人性」的 AI

Mira Murati 曾经是 OpenAI 的 CTO｜图片来源：Techfundingnews

CEO Mira Murati 在 OpenAI 工作了六年半，2022 年升任 CTO，主导了 ChatGPT、DALL-E、Codex、Sora 等几乎所有明星产品的技术方向。2023 年 11 月 Sam Altman 被董事会罢免的那几天，Murati 还当了几天临时 CEO。2024 年 9 月，她宣布离开 OpenAI，说要「给自己留出时间和空间做自己的探索」。

五个月后，2025 年 2 月，Thinking Machines Lab 正式成立。一起来的阵容堪称 AI 行业的「复仇者联盟」——Barrett Zoph（OpenAI 前研究 VP）、John Schulman（OpenAI 联合创始人、RLHF 的关键推动者，此前曾短暂去过 Anthropic）、Lilian Weng（OpenAI 前 VP）、Luke Metz、Andrew Tulloch。顾问团队里有 Bob McGrew（OpenAI 前首席研究官）和 Alec Radford（GPT 系列论文的核心作者）。

公司成立五个月就完成了 20 亿美元的种子轮融资，a16z 领投，Nvidia、AMD、Jane Street 等跟投，估值 120 亿美元。

但接下来发生的事，恐怕是 Murati 没有预料到的。

2025 年 10 月，联合创始人 Andrew Tulloch 离开加入 Meta。2026 年 1 月，更大的震荡来了——CTO Barret Zoph 被公司「分道扬镳」，联合创始人 Luke Metz 和另一位核心成员 Sam Schoenholz 也同时回归 OpenAI。Murati 的公告措辞克制，只提了 Zoph 的离开。58 分钟后，OpenAI 应用部门 CEO Fidji Simo 在社交媒体上宣布同时欢迎三人回归。到了 2026 年 4 月，Meta 又挖走了至少七名创始团队成员。

原来的五位联合创始人，只剩下了一个——John Schulman。

但 Murati 做了一个关键决定：把 PyTorch 的创造者 Soumith Chintala（从 Meta 加入）提拔为新 CTO。

一个失去了大半创始团队的公司，在成立仅 15 个月后拿出了一个定义性的技术 Demo。这本身就说明了一些问题。

不只是 Demo，是一种技术信仰

Thinking Machines 这次展示的「交互模型」，当然还有很多局限——长时间对话的上下文管理、对稳定网络连接的依赖、模型规模暂时还不够大（当前版本的更大预训练模型还太慢无法部署）。他们自己在技术博客里坦诚地列出了这些问题。

但这个 Demo 传递出的信号远比技术细节更重要。

当整个行业都在追求更自主的 AI Agent、更长的推理链、更强的自主完成任务的能力时，Thinking Machines 旗帜鲜明地提出了一个不同的方向：AI 应该让人类更容易留在循环中，而不是把人推出去。

他们的技术博客里引用了经济学家哈耶克 1945 年的经典论述——真正重要的知识，往往是关于「特定时间和地点的具体情境」的知识，这种知识很难被完全形式化地传达给 AI。

换句话说，用户脑子里的东西，往往比他们能在 prompt 里写出来的要多得多。要让这些知识流入 AI 的决策过程，唯一的办法就是让人和 AI 的沟通带宽足够大。

从一家经历了联合创始人出走、被 Meta 围猎、被外界质疑产品方向的公司里，跑出了 2026 年第一个让人真正觉得「AI 交互方式要变了」的产品原型。

这或许说明，在 AI 这场竞赛里，最稀缺的资源不是算力、不是资金，而是一个清晰且有信念的技术方向。

*头图来源：YouTube

文章来自于微信公众号 "极客公园"，作者 "极客公园"

关键词: AI新闻 , Interaction Model , Thinking Machines Lab , 交互模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales