发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

7056点击 2024-12-16 10:19

“它前进着，又跨过了新的一级台阶，耳边仿佛传来由远及近的低语：前方，即是世界。”

大家好，我是含萧。

前几天 OpenAI 的发布属实有点雷声大雨点小，o1 之后发布的都是大家已知的功能，许多 canvas 和 sora 的翻车实测也时常报出，相信大家看完的反应很多都是，就这？

反倒是 Gemini2 的横空出世，更让人感到兴奋。

毕竟，Gemini2 是第一个真正意义上的，体感无回复延迟，同时拥有优异的评测得分以及 agent 能力的全模态大模型。

比起之前在部署其他大模型的时候卡着 token 算 TBT 和 TTFT 符不符合 SLO，在生活中使用 Gemini2，仿佛就是带着一个原始版本的贾维斯，国外网友已经开发出了很多玩法，详情可见：

看了 Gemini 2.0 的 9 个疯狂用法，我们再也回不去上一代 ChatBot 了

虽然 OpenAI 在第六日紧接着发布了视觉和屏幕共享功能，且宣称是原生全模态大模型，但是从视频展示里可以看出，OpenAI 版的语音回复虽然也很快，但还是存在短暂延迟的。

当前主流的猜测是，两边模型的组成结构不同，导致推理速度有差异，或是因为 Gemini2 使用了新的第 6 代 TPU 也就是 Trillium 芯片，在硬件层面做到了更优，让 Gemini2 能做到更快的实时反馈。

但无论原因如何，事实都在说明，谷歌 Gemini2 在悄然间迅速崛起，紧逼 OpenAI，并尝试超越其霸主地位。

发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

从这里也可以看出，两家在这方面的发展大方向是一致的，即通过视觉和听觉等多模态让大语言模型脱离文字的桎梏，直接参与现实世界的交互。

那么，普通的 LLM 有办法可以做到这一点吗？

可以！

有一款开源语音框架，TEN-Agent，它不仅同时集成了 OpenAI Realtime API，Gemini2 Multimodal Realtime API, 可以直接连接使用，而且集成了实时语音交互，低延迟，自然对话，实时中断等 RTC 技术，可以快速让普通大模型变成可以实时交互的 Realtime agent。

github 地址:

https://github.com/TEN-framework/TEN-Agent

体验地址:

agent.theten.ai

那么，它的实际表现如何呢？

笔者对 TEN-Agent 进行了简单测试（见视频演示），从 Demo 中可以直观感受到：

它的语音转文字速度非常快，语音合成自然流畅。
基本无延迟的反馈给人一种“面对面”交流的沉浸感。
内置天气查询等工具十分可靠，同时支持在对话中实时打断。

发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

中文对话毫无压力，Gemini2 现在还是你说中文它回英文的对话模式，而它已经可以中文对话了！

发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

简单测试了一下，效果还不赖？

那么，它是怎么做到的呢？

TEN-Agent 在 GitHub 的前置要求说明中提到，它背后调用了 Agora、Deepgram、FishAudio 三家产品的 API，在其加持下，这个框架得以实现流畅的交互流程，并借此确保大模型能够清晰、快速地理解用户的语音输入，做出实时而准确的回应。

发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

具体而言，TEN-Agent 具有以下特色：

1.多模态实时交互：

集成 OpenAI Realtime API 和 Gemini2 Multimodal Realtime API，可实时处理语音、文本、图像及视频。
内置语音识别（STT）、大语言模型（LLM）与语音合成（TTS）能力，让智能对话与交互系统的构建更加快捷。

2.丰富的扩展支持：

支持天气查询、网络搜索、视觉识别以及 RAG（检索增强生成）等扩展能力，可灵活组合满足各类定制化需求。
基于 TEN 框架的模块化设计，能快速创建、共享并扩展 AI 功能组件，助力快速创新与功能迭代。

3.系统优势：

高并发与实时场景下的低延迟音视频交互，以及 Agent 状态的实时管理，为用户带来流畅体验。
灵活的架构设计与可扩展性，确保在快速变化的业务和技术需求中保持可维护性与拓展性。

随着大模型能力不断提升以及 RTC 技术的日臻成熟，TEN-Agent 为普通大模型接入多模态实时交互提供了可行路径。

总结

TEN-Agent 作为一款开源语音交互框架，以其高效的语音识别、自然流畅的对话反馈、多模态数据处理与可扩展的模块化设计，满足了普通大模型实现实时交互的需求。

它让普通开发者也能快速摆脱纯文本交互的局限，在语音、视频与图像等多元信息的助力下，更加自然、高效地融入真实世界的应用场景，无疑是一个非常值得一试的开源工具，感兴趣的伙伴可以去体验一下。

在 OpenAI 与谷歌 Gemini 的快速迭代魔法对波中，大模型多模态与低延迟的实时交互的能力先后开放，可见的是这很有可能成为一个新的趋势，ai 可以更深刻地参与到人类的生活之中。

新的 AGI 时代，即将到来。

文章来自于“夕小瑶科技说”，作者“含萧”。

发现了一个免费的开源实时语音框架，响应超快超自然，支持多语言和实时打断

关键词: AI , TEN-Agent , AI语音 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales