在互联网下半场,带来的最大冲击是“高获客成本+重用户体验”。
在这个过程中,实时互动(Real-time Engagement)像水和空气一样变得无处不在,“随风潜入夜,润物细无声”,不知不觉改变了我们熟悉的诸多赛道。
像在线教育的中小班互动课,直播应用中的答题和互动 PK,游戏中的连麦开黑,手表与摄像头等硬件的通信等案例充分证明了:当人-人互动的延迟,能够控制在数百乃至数十毫秒级后,不良体验感将消失,取而代之的是更好的用户体验与产品价值。
当大模型进入第二年后,在大模型与 AI Agent 完成初期大爆炸般的增长后,也会更快速迎来一场变革来寻找自己的“水和空气”。关键的变量是变革的烈度,这将影响到产品开发时需要投入的精力。
如今,随着 OpenAI 发布了自己的 Realtime API,特工大叔发现身边越来越多的开发者朋友,意识到了人机实时互动能力的重要性。
其中有读者给我们分享了一个有意思的开源 Agent 框架,能帮助开发者快速搭建基于 RTC(Real-time Communications)技术的多模态 Agent,并且兼容 OpenAI 的 Realtime API.
就跟着我们的文章,直接开始一次简单的搭建之旅吧。
所有内容相关链接会附在文末~
这个框架名叫 TEN,约 4 个月前第一次在 GitHub 上亮相。
经过迭代,目前 TEN Framework 集成了Graph Designer、Extension Manager、Runtime、Playground等模块。
由于多模态 Agent 开发的学习陡峭程度和复杂程度比起基于文本 LLM 开发的难度更大,TEN 还提供了一个 TEN Agent 示例,进一步降低开发入手门槛,专注于创意与创新上。
TEN Framework 的上手很容易,提供了目前常见的模块化可视化界面,方便极速搭建。
TEN 目前具备语音互动、视频理解这些最核心的实时多模态能力。同时,对这些场景(同声传译,语音到文本的转换,多语言聊天室,人机音频交互,视听互动等),在 GitHub(TEN Agent 项目)提供了所有 Demo 并全部开源,让开发者们不需要“零帧起手”。
对于开发的智能体,TEN 提供了目前主流 Agent Framework 具备的能力:
1. 支持 RAG 和利用本地文档提供答案
2. TEN Manager 与社区第三方插件库。
如可以直接通过插件和 API 快速调用 CosyVoice、Elevenlabs 的 TTS 能力,以及 OpenAI、通义千问等大模型能力。
对于开发便利度而言,目前的 TEN Framework 提供了:
1. 支持 Golang、C++ 和 Python,Node.js 也即将推出。
2. 支持在所有主要平台上进行开发,包括 Windows、Mac、Linux 和移动设备。
AI 应用中的实时互动,则从人-人实时互动,转向了人-机互动和人-人互动共存。事实上人-机实时互动带来的是升维式的质变:更真实、自然、流畅。
在 9 月初特工少女的一篇文章中,曾分析过通过 RTC 技术实现了比传统的“ASR+LLM+TTS”方式,能带来的 AI 语音交互体验提升。这些属于传统人-人实时互动用户就能第一时间察觉的提升。
除此之外,大叔发现随着人与 AI 两侧都在信息输入与输出速度上提升,还实现了如下惊喜:
1. 更个性化
实时传递语速语调在内的完整情绪数据与喜好模式,输出的反馈有效增加用户亲切感。
2. 更智能化
实时反馈下,更快速进一步调用其他接入的不同 API 和 AGENT。实现场景无缝切换。
3. 更场景化
在需要解放双手或双眼的场景下,在便利性或沉浸感提升,驾驶、运动或操作机械时。
也因此,和人-人互动受限于成本和场景频次,普及率在行业具备明显分布性差异(常见四大场景:社交,教育,游戏,智能硬件)不同的是:AI 应用和 AI Agent 对实时互动的需求是更加原生和全方面的。
举个例子:大模型兴起前的智能客服,优化了排队等待时间和降低了人工成本,但大部分场景下劣化了复杂问题沟通的体验(从音频通话变成了文字对话)。智能客服的实时通话,仅仅停留在潜在试验对象而鲜有大量采用需求。
而有了实时互动和大模型的双重赋能后的 AI 客服:除了回答更智能+更快接入以外:配上输入实时化+输出亲切友好的声音+得体的情绪,能迅速缓解客户焦虑。其中 TEN 所带来的快速搭建多模态 Agent 的能力,正好扮演了智能客服与实时互动相会的鹊桥。
实时互动的快密真,帮助大模型破局交互和(部分)幻觉大难题;
大模型的聪明便宜,帮助实时互动降低了总成本,开拓出新场景。
这些特性不仅将有助于解决当下产品经理们下对一代交互范式的焦虑,更会有助于 AI 硬件的破题。对语音交互和视觉理解等多模态 AI 的普遍采用,也势必会催生下一代 LLM Agent 开发工具的出现。
其实经过短短的体验,大叔真的很想喊一句:
"All Agents Need Real-time."
关键点:
1. 人机互动延迟最快已经能控制在 300 毫秒以内,比起传统的通信与转码互动延迟,这个数字是互动的延迟+AI 反应时间,而 300 毫秒总延迟已经达到过去人-人互动直播兴起时的延迟数量级,踏上了实时互动的门槛;
2. 300 毫秒的延迟进入了多尔蒂阈值 Doherty Threshold 内——指人机交互的系统响应时间超过 400 毫秒后,人类的操作和决策工作效率会显著下降的现象。我们常见的应用过渡动画都在几百毫秒左右正是参考了这一概念,这意味着也踏入了人机高效交互的门槛;
3. 音频领域发展至今,在诸如音频 3A 处理技术、弱网对抗等技术沉淀已相当成熟。对大模型准确性不拖后腿的同时,还实现了对打断、情感等自然表达的保留。人机交互在体验上将进一步提升。
目前 TEN 完全接入了 OpenAI 最新发布的 Realtime API。作为目前唯一兼容且开源的框架,特工们测试发现 TEN Agent 接入 Realtime API 后,和 GPT 提供的高级语音交流的能力差异异常明显。
1. 随意打断+补充内容,并且打断和补充后的内容实现了合并理解,效果比高级语音模式好很多。
2. 反应时间差上几十到上百倍,高级语音模式像高冷女神,初次载入需要数秒到十几秒的等待。而 Realtime API 像暖男,秒接。
在 OpenAI 官网读到这段实时互动 API 介绍时着实有些意外:原来 OpenAI 这样的“外星文明”,在碰到实时互动的部分,技术上也需要和 Agora 等实时互动公司来合作——这部分工作实在是有门槛啊。
一顿兴奋过后,特工团队联系上了 TEN FrameWork 的两位主要贡献者:Plutoless 和 halajohn。
得知 TEN 团队会在 10 月 25 日到 10 月 26 日的北京 RTE 2024 大会亮相,大会期间与 TEN Framework 的相关活动有:
1. halajohn 的分享:基于 TEN Framework 的云边端 AI 基础设施与 AI Agent 应用 (10 月 26 日 14:30-15:00,AI 时代新基建:云边端架构和 AI Infra 专场)
2. TEN 展台:开发案例分享&和主创团队面对面交流(大会会场外全程)
3. TEN Workshop「组装」你的专属多模态 Agent!(26 日 14:00-18:00)
如果你体验下觉得不过瘾,想拿自己多模态 Agent 的点子与他人的碰撞出别样火花,或者对开源项目想进一步贡献自己的力量,又或者遇到些困难需要指导,都欢迎来 RTE 大会 与 Workshop 报名。
想来的话,一定要手快哦,TEN 的主创告诉我们:今年 6 月的 RTE Open Day 上,Agent 框架的名额是最快一抢而空的????
最后:大叔一直相信,人类要用好 AI,就要把 AI 当人对待。人类与人类需要实时的互动,AI 君也同样需要。
相关网址
TEN 官网:https://www.theten.ai/
TEN Agent示例:https://agent.theten.ai/
Github: https://github.com/TEN-framework/ten_framework
Discord: https://discord.com/invite/VnPftUzAMJ
TEN Workshop 官网与报名:https://www.bagevent.com/event/rteworkshop
RTE 2024 大会官网与报名:https://www.rteconf.com/
RTE 社区:https://www.rtecommunity.dev/
文章来自于“特工宇宙”,作者“特工大叔”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales