OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者
9022点击    2026-06-01 10:44

OpenAI 公布了他们语音黑客松的四个入围项目,目前正在公开投票。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


四个入围项目


这是 OpenAI 和 Cerebral Valley 在旧金山联合办的一场黑客松。5 月 27 日,在 OpenAI 总部,参与者带着自己的语音 Agent 原型到现场展示。


OpenAI 的产品和工程团队在场提供技术支持,要求是:用 Realtime Voice API。


和上个月 Claude 黑客松一周的赛制不同,这次是 demo showcase 形式,参与者到现场打磨和展示已有的原型。


四个入围项目,来自四个完全不同的领域。


共同点是:做的人,就是用的人。


  • 一个手外科医生,每天在手术台上被转诊电话打断三四次,做了个 AI 替他接电话;
  • 一个开发者想解决 1984 年就被发现的教育难题;
  • 三个人搭了间虚拟会议室,让 DevOps 和 CFO 在里面吵架;
  • 还有一个人,想让手机上所有的 App 都消失。


下面,我们一个一个来看,或许能对你有所启发。


01


手术台来电


Surgical Triage 的制作者 Brian Pridgen,是旧金山 The Buncke Clinic 的一名手外科和显微外科医生,专门做断指再植手术(听着就疼……)。


预警:前方有断指图请做好准备!!!


他自称是个「非技术人员」。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Surgical Triage 空白仪表盘


他在演示视频里讲了自己每天的处境:


当我正在手术台上给一个病人接回拇指的时候,电话响了。200 英里外的急诊医生打来的,又一个病人刚断了手指,需要我立刻评估。我得停下手术,消毒出来,接电话,问 20 个问题:受伤机制、患者病史、用药情况、断指保存方式。一半的时候,急诊那边信息都没准备好,我还得让他们回去查了再打来。


这种电话一天来三四个。每次他离开手术台,正在手术的病人就得多在麻醉下躺一会儿。


Surgical Triage 做的事情是:AI 替他接转诊电话。


系统用 OpenAI Realtime Voice API 和急诊医生进行自然语言对话,逐项询问受伤细节、患者病史和用药信息。


但它做的事远不止问几个问题。


它还能看片子。


急诊团队上传的照片和 X 光片,AI 实时分析。如果影像不够或者角度不对,它会当场告诉急诊团队需要补拍哪些视图。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Surgical Triage 影像审阅中


有一个细节是:AI 会检查外科医生的个人临床标准,而这些标准存储在一套叫做「skill files」的知识库里。比如,断指必须用生理盐水湿纱布包裹,密封放进冰袋里,不能直接放在冰上,否则会造成冻伤损害。


AI 在对话中发现急诊团队操作不当时,实时纠正。


对话结束时,系统已经自动生成了一份完整的转诊文件包:伤情详情、影像分析、临床标准核查清单。外科医生准备好了再看,不用电话一响就跑。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Surgical Triage 转诊通过


一旦接受转诊,Agent 还能自动联系手术室前台安排手术排期。


这件事的目标是保护正在进行的手术,同时确保下一个病人从第一通电话开始就得到正确的处置。


从电话响起到手术安排,整个链路,没有人需要离开手术台。


技术上,Surgical Triage 用的是 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型,是四个项目里唯一用到多模态能力的:语音对话 + 医学影像分析。


而整个工作流程可以拆成这么几步:语音问诊 → 影像上传与实时分析 → 临床标准核查(通过 skill files 知识库)→ 转诊文件包生成 → 手术室调度。每一步都在对话进行中实时推进。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Surgical Triage 工作流程


Brian 其实在 2023 年就试过做这个项目,当时用的是 Whisper 做语音识别,Twilio 搭 IVR 系统,七拼八凑。


他自己回忆说:


我 2023 年春天就试过 vibe coding 这个东西,用 Whisper、手搭的 IVR、Twilio……但现在,它直接就能用了。


从三年前的半成品到今天 6 小时内跑通全流程,这大概就是,语音 和 AI 过去三年进步最直观的证明。


Brian 也坦率地指出了 demo 中的不足:系统没能在对话中途捕捉到病人姓名的切换,也没在 X 光片和口头描述之间发现一个手指位置的不一致。他自己的手术直觉会在这些地方拦住,但 AI 目前还不行。


这大概是四个项目里最让人觉得「这东西怎么到现在才有」的一个:


一个自称「非技术人员」的外科医生,用 Codex 写出了一个能替他接电话的 AI。


02


Bloom 的老难题


Curo 是 Ansh Chopra 做的一个 AI 物理老师,专门教小孩。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Curo 欢迎页


Ansh 之前做过交互式语音教育产品,用户超过了 100 万。他也参与过开源 AI 可穿戴设备 Omi(GitHub 上 12,000+ 星),目前在旧金山的 South Park Commons。


他在视频开头抛出了一个教育界的经典发现。


1984 年,教育心理学家 Benjamin Bloom 做了一项研究,发现接受一对一辅导的学生,成绩比传统课堂学生高出两个标准差。


两个标准差意味着什么呢?一个普通学生,有了一对一辅导之后,成绩能直接跳到班级前 2%。


Bloom 自己也指出了矛盾:我们知道一对一辅导效果有多好,但我们给不起每个孩子一个家教。这个发现后来被叫做「Bloom 的 2-sigma 问题」。


40 年了,这个问题一直没有被解决。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Bloom 2-sigma 问题


Curo 想做的就是这件事:给每个孩子一个耐心的、永远不会累的 AI 家教。


Ansh 在视频中描述 Curo 的定位:像皮克斯动画一样的学习体验。


和市面上大多数 AI 教育产品不一样,Curo 是用语音来教的。它的形象是一只蓝绿色的小熊,亲切而不吓人。它不会直接给答案,而是像苏格拉底一样提问,引导孩子一步步自己推理出来。


比如这段对话:


Curo,你能教我重力吗?


当然啊。我们从简单的开始,如果我同时扔下一个球和一片羽毛,哪个先落地?


球吧。


对,但为什么呢?想想看,球和地面之间有什么东西可能会让它减速?


嗯……空气?


对了!空气阻力。


然后 Curo 用 GPT-image-2 实时生成一张简笔画,画出空气阻力如何影响球和羽毛的下落轨迹。而这张图,会出现在一块共享白板上。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Curo 实时对话


而孩子可以在白板上写下自己的答案,Curo 能看到,也能回应。


这一步,非常关键。


大多数 AI 教育产品都是单向的:AI 说,学生听。


Curo 加了一块白板,让对话变成了真正的双向互动。孩子写什么,AI 都能看到,能针对写的内容做出反应。


这就像是真正的一对一辅导:老师问,学生答,老师看到学生的思路后再引导。而不是 AI 念一段课本,学生点个「下一步」。


技术栈上,Curo 同时用了四样东西:OpenAI Realtime Voice API 做语音对话,GPT-image-2 实时生成概念图,KaTeX 渲染数学公式,整个项目则用 Codex(OpenAI 的编程 Agent)从头搭建。


Ansh 写道:


我小时候就没有过一对一辅导的条件。所以我想为接下来的 10 亿个孩子解决这个问题。


03


DevOps 怼 CFO


Wagner 是三人团队做的:Yeferson Pena、Jhon Enciso 和 Steve Suarez。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Wagner 多Agent会议室


不过 Wagner 本身就是一家创业公司,官网 trywagner.dev 上写的是:「第一个 AI DevOps 队友」。他们已经做了一个能自动生成架构图、用自然语言查询基础设施的 DevOps 产品,支持 AWS、GCP、Terraform、Kubernetes 等 20 多种工具集成。


在 GitHub 上有个 WagnerAgent 组织,其中 awesome-mcp-servers-devops 仓库拿了 95 颗星(非常之多!)。


这次黑客松,他们把已有的 DevOps 能力延伸到了语音场景,做了一件更有想象力的事。


想象一下这个场景。


你的公司准备做一次大规模基础设施迁移,你想把 DevOps 负责人和 CFO 放在同一间会议室里,让他们把方案吵清楚了再决定要不要投钱。


Wagner 就是这间会议室。


只不过,DevOps 和 CFO 都是 AI。


演示中,用户提了一句:「我在考虑把单体应用迁移到 Kubernetes,你们觉得怎么样?」


DevOps Agent 先开口:


从技术角度看,这是正确的方向。Kubernetes 给我们水平扩展、自动回滚和更好的资源利用率。但我要提醒一下,迁移大概需要 3 到 4 个月的工程时间。


然后 CFO Agent 紧跟着插话:


等一下,我们先看看数字。


然后屏幕上实时弹出一张预算可视化图表。


目前基础设施每月花大约 15,000 美元。Kubernetes 长期能省 40%,但迁移本身要花大约 18 万美元的工程工时。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Wagner 预算明细


用户又追问了一句:那……Serverless 呢?


于是,两个 Agent 又干了起来。


DevOps 说:Serverless 对部分服务可以,但我们的主应用有长时间运行的进程,会撞到超时限制,冷启动也会影响用户体验。


CFO 反击:但 Serverless 能把前期迁移成本砍掉 60%。


两个 Agent,各有自己的专业知识和利益立场,实时辩论,帮你压力测试每一个决策。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


技术上,Wagner 用 OpenAI Realtime API 做多 Agent 语音交互。两个 Agent 有独立的角色设定和领域上下文,通过 tool calling 动态生成可视化内容:DevOps 拉出架构图,CFO 渲染预算分解表。


Wagner 多Agent辩论架构


这个产品思路在于:


传统的 AI 助手是一个角色回答你的问题,但现实中的决策,往往需要多个视角碰撞。Wagner 做了一件事:把「一个全知全能的 AI」拆成「两个各有偏见的 AI」,让它们在你面前争论。


就像真实会议室里一样,最好的决策,往往来自不同立场的人把问题吵明白了,而不是某一个人拍板。


04


没有 App 的手机


接下来的一个项目叫:Agentic OS for a Phone。做的人叫 Isa Usmanov,慕尼黑工业大学出身的连续创业者。他之前做了一个叫 Liam 的 AI 邮箱和日历助手,已经有了一些真实用户。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Agentic OS 日历界面


这是四个项目里唯一一个在黑客松当天现场从零开始做的。


他管自己的项目叫「The Next Phone」,核心想法是:


你不应该去找 App,App 应该来找你。


你对手机说「给我看看日程」,一个日历界面就凭空出现了。说「我要订一张去纽约的机票」,航班选项会直接弹出来,用语音就能下单。说「收件箱有什么」,邮件列表应声而出,直接语音回复就行。


没有主屏幕,没有 App 抽屉,也没有滑来滑去找图标的手动过程。


每一个界面都是实时生成的,为你此刻的需求量身定制。


这个概念,其实 Rabbit R1、Humane AI Pin 都有试过,想做「AI 优先的设备」,不同的是其他项目选择了做新硬件,但结果……都不太顺利。


Isa 的思路不一样,他不做新硬件,在现有手机上加一层新的软件。


架构方面,手机本地跑一个轻量模型,负责把语音意图转化为 UI;云端的 GPT Realtime 模型负责对话理解和推理。本地生成界面,云端负责思考,两边配合。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Agentic OS 架构


他在演示中说道:


UI 就是系统本身。这部手机除了这个系统之外,没有任何其他操作系统。


在现场从零搭建做到这样的完成度,还是非常的可以了。毕竟日历、航班、邮件、天气、提醒几个场景都能跑通了。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


Agentic OS 航班搜索


当然,从 demo 到产品之间的路还有不少。有人表示:


语音 demo 在 6 小时内看起来总是挺惊艳的。真正的考验是第 600 轮对话,延迟开始上升,Agent 忘了你两轮前说的话。把这个部分做好了,才算是真正的产品。


话虽如此,这个方向应该是值得继续走下去的。


05


暂没开源


和上个月 Anthropic 的 Claude 黑客松形成不同的是:Claude 黑客松六个获奖项目大部分都在 GitHub 上开源了,而这次 OpenAI 语音黑客松的四个项目,目前没有一个公开了源代码


我(的 AI)在 Cerebral Valley 的展示页面上,没有找不到相关的 GitHub 链接,GitHub 搜索也没有对应仓库。


原因可能是这次属于 demo showcase 形式,参与者带着原型来现场打磨展示,代码可能还没到公开发布的状态。Surgical Triage 涉及医疗临床流程,开源也需要额外的合规考量。


况且活动才结束几天,后续也许会有变化。


可以留意这些账号继续关注:


  • Surgical Triage 的 Brian Pridgen(@HandEManAI)
  • Curo 的 Ansh Chopra(@anshchopra_)
  • Wagner 的 Steve Suarez(@stevesuarez,产品官网 trywagner.dev)
  • 以及 Agentic OS 的 Isa Usmanov(@isausmanov)


06


你也可以


不过,开源与否或许也不重要,思路才是重要的。


四个项目的核心在于:OpenAI Realtime Voice API 做底座,然后各自往不同方向延伸。


Surgical Triage 加了视觉能力(分析 X 光和照片),Curo 加了 GPT-image-2(实时画概念图),Wagner 加了多 Agent 协调和 tool calling(动态图表),Agentic OS 加了动态 UI 生成。


核心都是语音,区别在于语音之后连接了什么。


OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者


四项目技术栈对比


如果你想自己动手做一个语音 Agent,起步门槛已经非常之低了。Realtime Voice API 已经对开发者开放,支持低延迟双向语音对话、function calling 和中断恢复。


四个 demo 视频也都在 YouTube 上,从中能看到些可参考的实现思路。


另外,这次黑客松还在投票阶段。OpenAI 说会在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上,每个项目都可以投票。


两场黑客松放在一起看,一个来自 Anthropic,一个来自 OpenAI,趋势是:


最好的 AI 工具,往往来自从业者自己的痛点。


一个手外科医生做了最好的手术转诊系统,因为他每天都在被电话打断。一个关心 Bloom 2-sigma 问题的人做了最好的 AI 家教,因为他理解一对一辅导到底意味着什么。


模型就在那里,API 也在那里,你一样也可以。


关键问题在于:谁最清楚该拿它做什么。


在我看来启示则是:


如果你不知道要做什么,那可以多参与一线,感受一线,投入生活,然后多思考观察,听其他人的反馈,感受别人的喜怒哀乐,那你就会知道要做什么


然后,大胆去尝试,尤其是那些你先前不敢去想的想法,把它交给 AI。


◇ ◆ ◇


相关链接:


•  OpenAI 推文:https://x.com/OpenAIDevs/status/2060768476386689253 


•  黑客松展示页(可投票):https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery 


•  Surgical Triage 演示:https://www.youtube.com/watch?v=Sa-mFTEhV1U 


•  Curo 演示:https://www.youtube.com/watch?v=V0d2ivQzpm4 


•  Wagner 演示:https://www.youtube.com/watch?v=vwMd2znrUII 


•  Agentic OS 演示:https://www.youtube.com/watch?v=x0C0etsyO0U 


•  Wagner 产品官网:https://www.trywagner.dev/ 


•  Wagner GitHub:https://github.com/WagnerAgent 


•  OpenAI Realtime API 文档:https://platform.openai.com/docs/guides/realtime 


文章来自于微信公众号 "AGI Hunt",作者 "AGI Hunt"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT