在RTE2024，窥见实时AGI的未来

6093点击 2024-10-30 10:45

AI+RTE：让《Her》走进现实

GPT-4o的高级语音模式让我们看到了AI也可以具备低延迟且自然流畅的对话能力。丝滑的体验让智能助手真正摆脱了“智障”的帽子，科幻电影《Her》中的场景，走进了现实。

10月，OpenAI发布的Realtime API，让开发者可以轻松地将这种丝滑的语音体验植入自己的应用。

在此之前，需要串联多个模型的繁琐过程才能实现，例如，开发者需要使用自动语音识别工具，比如Whisper，来转录音频，将转录的文本传递给推理模型，然后使用文本转语音模型来播放响应。这种方法不仅耗时，且常常导致对话中情感、腔调和口音等重要元素的丢失。

相比之下，OpenAI的Realtime API能进一步降低语音交互的延时，能够实现更接近真人的情感和情绪表达，提供更自然的对话体验。

要实现这种体验，离不开端到端训练的语音基础模型，这依靠的是OpenAI强大的科研和工程能力，而要让这种体验走进更多用户的日常，不仅仅是停留在demo演示当中，则离不开成熟的语音模态基础设施提供支撑。为此，OpenAI找到了合适的合作伙伴，其中就有声网的兄弟公司Agora。

Agora与OpenAI宣布合作，发布了对话式AI SDK，该SDK集成了Realtime API，同时利用了Agora的智能路由和超低延迟实时网络，集成了AI回声消除和背景噪声消除等功能，确保在任何环境下都能进行精准的语音处理，成为开发者和OpenAI的GPT模型之间的可靠连接。

眼光转向国内，AI+RTE的故事同样精彩。各大模型厂商都在摩拳擦掌，试图突破“冷冰冰”的文本对话框，让用户与AI的交互来得更实时、更自然、更有温度。智谱清言、豆包和Kimi等产品都推出了自己的实时语音通话功能。

这波AI+RTE的浪潮，正在悄然改变着我们与AI对话的方式，而这可能只是智能交互新时代的开始。

AI浓度拉满的RTE2024

Agora与OpenAI的合作成为行业焦点，标志着实时互动(RTE)与人工智能正加速融合，这不是个例，已经成为一个显而易见的趋势，行业正在朝着“实时构建AGI”的愿景迈进。

十年光阴，见证变革。2015年，当第一届RTE大会在国内召开时，实时音视频还是一个相对小众的技术领域。彼时的行业氛围基本是“一片荒芜”：没有专业的技术交流平台，没有系统的知识传承，也缺乏活跃的技术社区。十年间，声网以实干者的姿态，作为RTE领域的领军企业，通过持续举办RTE大会、建设开发者社区、出版专业技术书籍等方式，逐步构建起行业完整的知识体系和交流生态。

今年8月，声网还出版了行业首本系统介绍实时互动的技术型科普书籍《读懂实时互动》，填补了RTE领域无专业书籍的空白，为行业的学习和普及提供了重要参考。

在RTE2024，窥见实时AGI的未来

如今，RTE大会早已不是单纯的音视频技术聚会，从娱乐直播、出海、音视频会议，到在线教育、iot、数字化......历年的RTE大会就像是一个风向标，成为行业风口和技术变迁的第一手见证。随着AI大模型技术与音视频技术的深度融合，今年十周年的RTE大会更是成为AI浓度最高的一届。

从技术演进的脉络来看，实时互联网技术（RTE）经过十余年发展，已从最初的点对点通讯，发展到支撑直播、远程协作等复杂应用场景。而生成式 AI 的出现，则为RTE注入了全新的想象空间，今年的RTE2024会场内外，与会者们热切讨论着AI与RTE的结合将带来怎样的可能性。

在本届大会上，声网也正式发布了RTE+AI能力全景图，从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度，从底层的实时AI基础设施，到上层的多模态对话解决方案，再到丰富多样的应用场景，展现了RTE与AI融合的技术版图。

在RTE2024，窥见实时AGI的未来

声网创始人赵斌描绘了生成式AI驱动下的IT行业四大变革：AI PC、AI Native Software、AI Native Cloud以及以自然语言为主的人机交互界面。值得关注的是，声网与MiniMax正在打造中国首个Realtime API，现场展示的人工智能体已实现了流畅的实时对话效果。

在RTE2024，窥见实时AGI的未来

AI Native是一个倍受关注的概念，与其说这是一种技术选择，不如说这预示着整个产业的思维方式正在发生转变。正如Lepton AI创始人贾扬清所指出的：AI是继Web云、数据云之后的“第三朵云”。在他看来，未来应用开发将从“以流程为中心”转向“以模型为中心”，他还强调实时性与智能的结合将直接等同于生产力。这种转变堪比上世纪90年代从字符界面到图形界面的革命性跃迁。

在基础架构层面，声网CTO钟声现场展示了端边云结合的方案，在超过千人的嘈杂会场环境下，基于端边云架构的AI智能体依然展现出优秀的实时对话能力。不仅证明了分布式端边云结合方案的可行性，也展示了在复杂环境下突破次秒级响应、噪声对抗等技术难题的可能性，为解决AI大规模落地面临的成本、延迟和隐私等核心问题提供了新思路。

在RTE2024，窥见实时AGI的未来

在商业化落地方面，与会嘉宾们普遍认为，模型小型化、计算效率提升将是必然趋势。特别是在开源架构日益普及的背景下，企业可以通过开源模型+定制化路线，实现更低成本、更快速度的落地。

当然，挑战依然存在。算力成本、端侧优化困难、商业模式待验证等问题都需要时间去解决。但从历史经验来看，一旦技术演进方向确立，这些问题往往会在产业链的共同推动下逐步得到解决。

从现场的讨论来看，RTE和AI的结合正在催生新的技术范式和商业模式，大会传递出一个清晰的共识：多模态能力的不断拓展可能成为引爆下一轮革新的关键。语音、视觉、文本等多种模态的融合，不仅扩展了AI的能力边界，更为创新应用提供了沃土。从创作辅助到智能客服，从教育培训到娱乐互动，多模态AI正在开启更多的可能性。

人机交互进化，RTC筑基未来

视觉和听觉是人类感知世界的主要通道，不仅是我们最原始的信息获取方式，也是信息密度最高、最直观的交互模式，这一基本事实决定了无论技术如何更迭，科技行业风口如何变迁，实时音视频技术（RTE）始终是提供实时通信和交互支持的核心基础，将在人机交互中扮演关键角色。

据CCW Research的报告，超过80%的客户仍然偏好基于语音的服务。这一数据印证了在AI时代，语音交互的重要性不减反增。Meta发布的智能眼镜Ray-Ban Meta就展现了这一潜力，升级后的Ray-Ban一大亮点正是实时AI视频处理和实时语言翻译能力，这些多模态功能虽然还没有全部正式推出，但从市场反馈已足见其对消费者的吸引力。可以预见，无论是对于大模型厂商还是AI硬件厂商，实时交互能力将成为行业的新标配。

然而要实现这种新的标配能力，离不开强大的底层基础设施的支撑。厂商没必要，也不可能全都去做一遍重复造轮子的事情。正如我们在视频会议、社交泛娱乐等行业发展历程中所看到的，各个厂商与声网这样的RTE-PaaS平台合作成为了一种自然的选择，这种趋势如今正在向AI领域扩展。大模型公司和开发者可以专注于模型优化和应用开发，而不必过多关注底层通信技术的复杂性。

在RTE2024，窥见实时AGI的未来

结语

过去十年，我们见证了太多技术从概念走向普及的精彩瞬间。在技术进化的大潮中，RTE的发展轨迹同样令人瞩目。声网和RTE大会走过的这十年，是一段从技术突破到产业变革的关键旅程：RTE从一个前沿通信概念，蜕变为数字时代的关键基础设施。与此同时，我们也亲历了AI技术的加速进化——从实验室的尖端研究到开放商用，AI正以前所未有的速度渗透到各个产业场景。

传统认知中，实时交互主要解决的是人与人之间的连接问题，但在AI时代，这种连接延伸到了人与AI之间。RTE会上展示的次秒级AI对话能力，也暗示着我们正在接近一个临界点：AI不再是一个被动的工具，而是能够与人类进行真正自然交互的智能体。

当RTE与AI这两股技术浪潮交汇，我们看到的不仅是简单的技术叠加，而是一次革命性的范式转变。这种融合正在重塑我们对AGI的理解和想象——也许在下一个十年，那个能够实时感知、实时思考、实时决策的AGI，将从科幻走进现实，开启人类与人工智能协同进化的新纪元。

文章来自于“硅星人Pro”，作者“周一笑”。

在RTE2024，窥见实时AGI的未来

关键词: AI , 声网 , AGI , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales