ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
5127点击    2024-11-20 15:01

算起来,距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间,AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。


不过,由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难,因此这个赛道的玩家并不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。


如今,这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能,并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能,并于近日支持 iOS 用户与该语音助手交流。


与此同时,国内一些厂商陆续推出了类似的实时语音对话大模型及应用,比如智谱、科大讯飞等,填补了一些空白。如今,这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手



声音听起来还不错吧!Skyo 内置了非常清亮、爽朗的男声。


Skyo 基于背后的天工大模型 4.0 4o 版(Skywork 4o)打造。从名称上看,Skyo 中的「o」同样代表了 omni 的意思,并落在语音对话场景,直接对标了 GPT-4o。从定位和功能上看,作为一个智能语音互动产品,Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。


可以说,用户想要在 AI 语音对话中体验的场景和功能,Skyo 基本上都能 hold,还针对当前 AI 语音助手存在的一些痛点进行了优化。


实时对话 AI

一要准、二要快


与传统语音助手的主要区别在于,基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务,并开始从「工具」的属性过渡到「人类伴侣」。


自 GPT-4o 之后,语音交互场景的 AI 具备了前所未有的感知能力,在更智能化、更多面手之外,不仅响应延迟明显降低了,还能准确读懂用户的情感语调,如兴奋、高兴或悲伤,并以逼真的方式模仿和回应。


不过,随着更多用户体验到 GPT-4o 语音功能,它的一些缺点陆续显露了出来,比如不擅长识别自然停顿、无法准确响应要求的话题等。




同样地,此后出现的一系列对标 GPT-4o 的产品,如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等,虽然都宣称要打造自然流畅的 AI 对话,但从用户反馈来看,依然存在着一些直接影响对话体验的短板,比如可用性差、中断频繁和延迟严重等。




当然,面对 AI 实时语音对话助手的常见通病,Skyo 也需要尽力去克服。究竟效果怎么样呢?我们还是得看它的现场表现。


一手实测

会念诗、还拿捏住了拟人化


在与 Skyo 来了场面对面的交谈后,我们收获了一些小惊喜。


首先,我们来咨询 Skyo 一些健康常识问题,他回答的比较合理、全面,也有侧重性。当中,我们在他没有回答完上个问题的时候,就开始了下个问题,他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景,并在两个问题之间顺滑地切换。


我们还发现,Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」,这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰,会出现「哎呀」等感叹词,拟人化属性很强



其次,情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一,在对话中要有能力识别出用户的情绪波动并给予准确的反馈。


Skyo 在这方面做得也不错,他能够理解用户情绪,并使对话更具人性化。当我们跟他说一些烦心事时,他会安慰我们,情绪价值给得很足,还给出了一些建议。



我们接着让 Skyo 讲个小笑话,结果「冷翻了全场」。


既然他不擅长讲笑话,那就换个最近网络上的热门话题,问他知不知道小米雷军在汽车工厂摆拍,看起来他对这件趣事挺门清的。



再让 Skyo 对最近李子柒的回归做一个评价,从结果来看,他的语言组织和总结能力还是不错的。如果放在现实世界中,他写作文应该是把好手。


这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力,借助外部知识库来强化自己。



最后,让 Skyo 切换成英姿飒爽的女声,并让她念了一首诗。她第一时间选择了李白的《静夜思》,看样子是有点浪漫基因在身上的。



再以男声朗诵徐志摩的《再别康桥》,感情充沛,节奏把握得也很好



这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子,如何炼成的呢?


以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术,其中框架链路自研并保持业界领先。这样一来,在高精度理解用户语音输入内容(即听得准)的基础上,做出比较快速的响应(即答得快),响应时间一般在 1 秒左右。


另外,得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发,Skyo 还能够在高强度对话中保持稳定性和流畅性,并在情绪表达、实时交互等方面更加契合用户需求。


不过,我们也得承认,现阶段 Skyo 的功能并不完善,在回复的过程中偶尔也会出现声音的扭曲失真,但这都是进化路上所要经历的。


未来,Skyo 将继续修炼自己,并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。


当 Scaling Law 放缓

多模态 AI 应用势在必行


最近,Scaling Law「撞墙」的消息开始在 AI 社区传播,领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难,比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。


虽然之后这一观点遭到了一些人的驳斥,但不可否认的是,随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响,大模型开发速度的放缓似乎是必然的。


奥特曼:「墙」不存在。


相反,基于大模型的 AI 应用正在走向百花齐放,比如搜索引擎、音乐生成、语音交互、智能体,可以拓展生成式 AI 的落地场景并重塑人机交互范式,带来多样化 AI 体验和生产力提升。因此,在保证基座模型性能「不掉队」的前提下,形成完整的应用矩阵,对于想要持续站稳脚跟的厂商来说尤为重要。


在这方面,昆仑万维可以说布局较早且合理。一方面,自研天工系列基座大模型已经发展到 4.0 版本,性能处于全球领先水平。另一方面,构建了清晰、多元的 AI 业务矩阵,在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓,两手都要硬。

 

此次,Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样,也将成为构筑全栈式大模型能力堆栈的重要一环。


我们了解到,Skyo 实时语音对话助手将于近期上线天工 App,并接入天工搜索以获取更准确的实时资讯。可以预见,此举将进一步丰富天工平台的功能,让用户打开手机就能体验到 AI 原生实时对话的乐趣。


回望年初,昆仑万维提出了「实现通用人工智能,让每个人更好地塑造和表达自我」的全新使命。为此,该公司以天工 AI 平台为主阵地,对其上的 AI 应用不断进行功能上的迭代更新,深拓大模型能力释放出口,将新世代的人机交互贯穿文本、图像、语音等更全模态。


未来,昆仑万维还将继续发力实时图像与视频理解等领域,并形成开箱即用的 AI 应用,从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。


文章来自于微信公众号“机器之心”,作者“关注生成式AI的”


关键词: AI , 昆仑万维 , Skyo , AI产品测评
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales