发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断
5935点击    2024-12-16 10:19

“它前进着,又跨过了新的一级台阶,耳边仿佛传来由远及近的低语:前方,即是世界。”


大家好,我是含萧。


前几天 OpenAI 的发布属实有点雷声大雨点小,o1 之后发布的都是大家已知的功能,许多 canvas 和 sora 的翻车实测也时常报出,相信大家看完的反应很多都是,就这?


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断


反倒是 Gemini2 的横空出世,更让人感到兴奋。


毕竟,Gemini2 是第一个真正意义上的,体感无回复延迟,同时拥有优异的评测得分以及 agent 能力的全模态大模型。


比起之前在部署其他大模型的时候卡着 token 算 TBT 和 TTFT 符不符合 SLO,在生活中使用 Gemini2,仿佛就是带着一个原始版本的贾维斯,国外网友已经开发出了很多玩法,详情可见:


看了 Gemini 2.0 的 9 个疯狂用法,我们再也回不去上一代 ChatBot 了


虽然 OpenAI 在第六日紧接着发布了视觉和屏幕共享功能,且宣称是原生全模态大模型,但是从视频展示里可以看出,OpenAI 版的语音回复虽然也很快,但还是存在短暂延迟的。


当前主流的猜测是,两边模型的组成结构不同,导致推理速度有差异,或是因为 Gemini2 使用了新的第 6 代 TPU 也就是 Trillium 芯片,在硬件层面做到了更优,让 Gemini2 能做到更快的实时反馈。


但无论原因如何,事实都在说明,谷歌 Gemini2 在悄然间迅速崛起,紧逼 OpenAI,并尝试超越其霸主地位。


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断


从这里也可以看出,两家在这方面的发展大方向是一致的,即通过视觉和听觉等多模态让大语言模型脱离文字的桎梏,直接参与现实世界的交互。


那么,普通的 LLM 有办法可以做到这一点吗?


可以!


有一款开源语音框架,TEN-Agent,它不仅同时集成了 OpenAI Realtime API,Gemini2 Multimodal Realtime API, 可以直接连接使用,而且集成了实时语音交互,低延迟,自然对话,实时中断等 RTC 技术,可以快速让普通大模型变成可以实时交互的 Realtime agent。


github 地址:


https://github.com/TEN-framework/TEN-Agent


体验地址:


agent.theten.ai


那么,它的实际表现如何呢?


笔者对 TEN-Agent 进行了简单测试(见视频演示),从 Demo 中可以直观感受到:


  • 它的语音转文字速度非常快,语音合成自然流畅。
  • 基本无延迟的反馈给人一种“面对面”交流的沉浸感。
  • 内置天气查询等工具十分可靠,同时支持在对话中实时打断。


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断


  • 中文对话毫无压力,Gemini2 现在还是你说中文它回英文的对话模式,而它已经可以中文对话了!


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断


简单测试了一下,效果还不赖?


那么,它是怎么做到的呢?


TEN-Agent 在 GitHub 的前置要求说明中提到,它背后调用了 Agora、Deepgram、FishAudio 三家产品的 API,在其加持下,这个框架得以实现流畅的交互流程,并借此确保大模型能够清晰、快速地理解用户的语音输入,做出实时而准确的回应。


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断


具体而言,TEN-Agent 具有以下特色:


1.多模态实时交互


  • 集成 OpenAI Realtime API 和 Gemini2 Multimodal Realtime API,可实时处理语音、文本、图像及视频。
  • 内置语音识别(STT)、大语言模型(LLM)与语音合成(TTS)能力,让智能对话与交互系统的构建更加快捷。


2.丰富的扩展支持


  • 支持天气查询、网络搜索、视觉识别以及 RAG(检索增强生成)等扩展能力,可灵活组合满足各类定制化需求。
  • 基于 TEN 框架的模块化设计,能快速创建、共享并扩展 AI 功能组件,助力快速创新与功能迭代。


3.系统优势


  • 高并发与实时场景下的低延迟音视频交互,以及 Agent 状态的实时管理,为用户带来流畅体验。
  • 灵活的架构设计与可扩展性,确保在快速变化的业务和技术需求中保持可维护性与拓展性。


随着大模型能力不断提升以及 RTC 技术的日臻成熟,TEN-Agent 为普通大模型接入多模态实时交互提供了可行路径。


总结


TEN-Agent 作为一款开源语音交互框架,以其高效的语音识别、自然流畅的对话反馈、多模态数据处理与可扩展的模块化设计,满足了普通大模型实现实时交互的需求。


它让普通开发者也能快速摆脱纯文本交互的局限,在语音、视频与图像等多元信息的助力下,更加自然、高效地融入真实世界的应用场景,无疑是一个非常值得一试的开源工具,感兴趣的伙伴可以去体验一下。


在 OpenAI 与谷歌 Gemini 的快速迭代魔法对波中,大模型多模态与低延迟的实时交互的能力先后开放,可见的是这很有可能成为一个新的趋势,ai 可以更深刻地参与到人类的生活之中。


新的 AGI 时代,即将到来。


文章来自于“夕小瑶科技说”,作者“含萧”。


发现了一个免费的开源实时语音框架,响应超快超自然,支持多语言和实时打断

关键词: AI , TEN-Agent , AI语音 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales