ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
在RTE2024,窥见实时AGI的未来
3538点击    2024-10-30 10:45

AI+RTE:让《Her》走进现实


GPT-4o的高级语音模式让我们看到了AI也可以具备低延迟且自然流畅的对话能力。丝滑的体验让智能助手真正摆脱了“智障”的帽子,科幻电影《Her》中的场景,走进了现实。


10月,OpenAI发布的Realtime API,让开发者可以轻松地将这种丝滑的语音体验植入自己的应用。


在此之前,需要串联多个模型的繁琐过程才能实现,例如,开发者需要使用自动语音识别工具,比如Whisper,来转录音频,将转录的文本传递给推理模型,然后使用文本转语音模型来播放响应。这种方法不仅耗时,且常常导致对话中情感、腔调和口音等重要元素的丢失。


相比之下,OpenAI的Realtime API能进一步降低语音交互的延时,能够实现更接近真人的情感和情绪表达,提供更自然的对话体验。


要实现这种体验,离不开端到端训练的语音基础模型,这依靠的是OpenAI强大的科研和工程能力,而要让这种体验走进更多用户的日常,不仅仅是停留在demo演示当中,则离不开成熟的语音模态基础设施提供支撑。为此,OpenAI找到了合适的合作伙伴,其中就有声网的兄弟公司Agora。


Agora与OpenAI宣布合作,发布了对话式AI SDK,该SDK集成了Realtime API,同时利用了Agora的智能路由和超低延迟实时网络,集成了AI回声消除和背景噪声消除等功能,确保在任何环境下都能进行精准的语音处理,成为开发者和OpenAI的GPT模型之间的可靠连接。


眼光转向国内,AI+RTE的故事同样精彩。各大模型厂商都在摩拳擦掌,试图突破“冷冰冰”的文本对话框,让用户与AI的交互来得更实时、更自然、更有温度。智谱清言、豆包和Kimi等产品都推出了自己的实时语音通话功能。


这波AI+RTE的浪潮,正在悄然改变着我们与AI对话的方式,而这可能只是智能交互新时代的开始。


AI浓度拉满的RTE2024


Agora与OpenAI的合作成为行业焦点,标志着实时互动(RTE)与人工智能正加速融合,这不是个例,已经成为一个显而易见的趋势,行业正在朝着“实时构建AGI”的愿景迈进。


十年光阴,见证变革。2015年,当第一届RTE大会在国内召开时,实时音视频还是一个相对小众的技术领域。彼时的行业氛围基本是“一片荒芜”:没有专业的技术交流平台,没有系统的知识传承,也缺乏活跃的技术社区。十年间,声网以实干者的姿态,作为RTE领域的领军企业,通过持续举办RTE大会、建设开发者社区、出版专业技术书籍等方式,逐步构建起行业完整的知识体系和交流生态。


今年8月,声网还出版了行业首本系统介绍实时互动的技术型科普书籍《读懂实时互动》,填补了RTE领域无专业书籍的空白,为行业的学习和普及提供了重要参考。



如今,RTE大会早已不是单纯的音视频技术聚会,从娱乐直播、出海、音视频会议,到在线教育、iot、数字化......历年的RTE大会就像是一个风向标 ,成为行业风口和技术变迁的第一手见证。随着AI大模型技术与音视频技术的深度融合,今年十周年的RTE大会更是成为AI浓度最高的一届。


从技术演进的脉络来看,实时互联网技术(RTE)经过十余年发展,已从最初的点对点通讯,发展到支撑直播、远程协作等复杂应用场景。而生成式 AI 的出现,则为RTE注入了全新的想象空间,今年的RTE2024会场内外,与会者们热切讨论着AI与RTE的结合将带来怎样的可能性。


在本届大会上,声网也正式发布了RTE+AI能力全景图,从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,从底层的实时AI基础设施,到上层的多模态对话解决方案,再到丰富多样的应用场景,展现了RTE与AI融合的技术版图。



声网创始人赵斌描绘了生成式AI驱动下的IT行业四大变革:AI PC、AI Native Software、AI Native Cloud以及以自然语言为主的人机交互界面。值得关注的是,声网与MiniMax正在打造中国首个Realtime API,现场展示的人工智能体已实现了流畅的实时对话效果。



AI Native是一个倍受关注的概念,与其说这是一种技术选择,不如说这预示着整个产业的思维方式正在发生转变。正如Lepton AI创始人贾扬清所指出的:AI是继Web云、数据云之后的“第三朵云”。在他看来,未来应用开发将从“以流程为中心”转向“以模型为中心”,他还强调实时性与智能的结合将直接等同于生产力。这种转变堪比上世纪90年代从字符界面到图形界面的革命性跃迁。


在基础架构层面,声网CTO钟声现场展示了端边云结合的方案,在超过千人的嘈杂会场环境下,基于端边云架构的AI智能体依然展现出优秀的实时对话能力。不仅证明了分布式端边云结合方案的可行性,也展示了在复杂环境下突破次秒级响应、噪声对抗等技术难题的可能性,为解决AI大规模落地面临的成本、延迟和隐私等核心问题提供了新思路。



在商业化落地方面,与会嘉宾们普遍认为,模型小型化、计算效率提升将是必然趋势。特别是在开源架构日益普及的背景下,企业可以通过开源模型+定制化路线,实现更低成本、更快速度的落地。


当然,挑战依然存在。算力成本、端侧优化困难、商业模式待验证等问题都需要时间去解决。但从历史经验来看,一旦技术演进方向确立,这些问题往往会在产业链的共同推动下逐步得到解决。


从现场的讨论来看,RTE和AI的结合正在催生新的技术范式和商业模式,大会传递出一个清晰的共识:多模态能力的不断拓展可能成为引爆下一轮革新的关键。语音、视觉、文本等多种模态的融合,不仅扩展了AI的能力边界,更为创新应用提供了沃土。从创作辅助到智能客服,从教育培训到娱乐互动,多模态AI正在开启更多的可能性。


人机交互进化,RTC筑基未来


视觉和听觉是人类感知世界的主要通道,不仅是我们最原始的信息获取方式,也是信息密度最高、最直观的交互模式,这一基本事实决定了无论技术如何更迭,科技行业风口如何变迁,实时音视频技术(RTE)始终是提供实时通信和交互支持的核心基础,将在人机交互中扮演关键角色。


据CCW Research的报告,超过80%的客户仍然偏好基于语音的服务。这一数据印证了在AI时代,语音交互的重要性不减反增。Meta发布的智能眼镜Ray-Ban Meta就展现了这一潜力,升级后的Ray-Ban一大亮点正是实时AI视频处理和实时语言翻译能力,这些多模态功能虽然还没有全部正式推出,但从市场反馈已足见其对消费者的吸引力。可以预见,无论是对于大模型厂商还是AI硬件厂商,实时交互能力将成为行业的新标配。


然而要实现这种新的标配能力,离不开强大的底层基础设施的支撑。厂商没必要,也不可能全都去做一遍重复造轮子的事情。正如我们在视频会议、社交泛娱乐等行业发展历程中所看到的,各个厂商与声网这样的RTE-PaaS平台合作成为了一种自然的选择,这种趋势如今正在向AI领域扩展。大模型公司和开发者可以专注于模型优化和应用开发,而不必过多关注底层通信技术的复杂性。



结语


过去十年,我们见证了太多技术从概念走向普及的精彩瞬间。在技术进化的大潮中,RTE的发展轨迹同样令人瞩目。声网和RTE大会走过的这十年,是一段从技术突破到产业变革的关键旅程:RTE从一个前沿通信概念,蜕变为数字时代的关键基础设施。与此同时,我们也亲历了AI技术的加速进化——从实验室的尖端研究到开放商用,AI正以前所未有的速度渗透到各个产业场景。


传统认知中,实时交互主要解决的是人与人之间的连接问题,但在AI时代,这种连接延伸到了人与AI之间。RTE会上展示的次秒级AI对话能力,也暗示着我们正在接近一个临界点:AI不再是一个被动的工具,而是能够与人类进行真正自然交互的智能体。


当RTE与AI这两股技术浪潮交汇,我们看到的不仅是简单的技术叠加,而是一次革命性的范式转变。这种融合正在重塑我们对AGI的理解和想象——也许在下一个十年,那个能够实时感知、实时思考、实时决策的AGI,将从科幻走进现实,开启人类与人工智能协同进化的新纪元。


文章来自于“硅星人Pro”,作者“周一笑”。


关键词: AI , 声网 , AGI , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales