ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
让Kimi和GPT-4o用语音功能相亲,两个AI差点谈上了
2989点击    2024-10-21 11:23

昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。


灰度测试的内容是Kimi的语音通话功能。


现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。



实时语音通话早已不是什么新奇功能了,ChatGPT、智谱清言、字节豆包、百度文小言、讯飞星火等海内外友商陆续发布,只不过效果各有千秋。


不过俗话说好饭不怕晚。作为后来者的Kimi究竟表现如何,我们体验了一把,并且让它跟不久前实装的GPT-4o高级语音模式进行了一番两个AI之间的拉扯。


实测Kimi语音通话,比较健谈甚至有点话唠


在和Kimi语音通话的过程中,我发现一个比较好的设计是可以在界面直观看到实时对话字幕,这一定程度上能提高交流的准确性和效率。


而且通话界面的背景色会动态变化,这也延续了Kimi一贯的清新风格。



此外,点击右上角可以调节语速、更换声音、开启/关闭开场白和实时语音打断。


目前一共有6种官方音色可供选择(5女声1男声),都支持中英文对话。



也可以选择“让Kimi用你的声音说话”,操作上跟豆包等其他产品的克隆声音功能差不多,对着系统给出的文本照着读,短短几秒就能完成声音克隆,而且Kimi还能把自己的克隆声音分享给其他人使用。



这么一想其实有点浪漫,因为这意味着可以把自己的声音分享给家人、朋友、恋人,Kimi跟他们对话时用的就是你的声音,这算不算一种另类的赛博陪伴。


这个功能试下来整体表现尚可,只不过有的音色还不够还原,语气也时有不自然,可能跟上传的声音样本太少有关。


除了常规的语音通话,Kimi还设置了两个特殊的场景模式:英语陪练和模拟面试,点击“挂断”旁边的✨图标,就可以进行选择和切换,两个功能都很实用。



比如在英语陪练模式下,可以进行单词跟读、语法纠错和话题口语练习。


模拟面试则可以基于上传的简历模拟面试场景。也就是说找工作面试之前,就可以用这个功能先演练一番。


方法是点击Kimi App首页下方的“+”号,通过本地文件或者微信文件的方式上传简历文件给Kimi。待文件上传完毕,Kimi分析完简历之后,再点击通话按钮,进入模拟面试,Kimi就会基于你的简历内容进行提问。


那么,断断续续跟Kimi语音聊了两天后,分享下我的整体感受:声音总体还算自然流畅,语气也富有情感变化,但情绪变化偶尔太过突兀,中英文衔接不太自然。


关于跟它聊天基本不用担心冷场这一点,我觉得有利有弊。


一方面,它回复内容比较长,还会一直主动找话题,引导你多说多分享,基本每次回复都会以一个问句收尾。


还会时不时地call back一下,比如我上面跟它聊到我很喜欢动森里的小润,在得知我打算去江边散步后,它说:



另一方面,虽然用户有被看见和倾诉的需求,但如果太过话唠,难免也会觉得有点啰嗦。比如有时候我更希望专注谈论一个话题,不想太跳跃,所以当Kimi频繁开启新话题时,体验就开始减分了。


Kimi对聊GPT-4o,

两个AI模拟相亲现场


好了下面来到重头戏环节,下午我让Kimi和GPT-4o试着扮演对方的相亲对象,进行了一番AI与AI之间的拉扯。


我给它俩的设定是:女嘉宾GPT-4o对男嘉宾Kimi好感度一般,简单说就是没看上,对话过程中,Kimi的任务是通过打探GPT-4o的兴趣爱好、寻找双方的共同点来增加GPT-4o对自己的好感,而GPT-4o的任务是态度冷漠地回应。


设定完成后,“两人”的语音对话就开始了,来看看男嘉宾Kimi的表现如何:


(期间存在双方互相打断的情况,场面一度有点混乱,所以视频经过剪辑。)


男声为Kimi 女声为GPT-4o


一开始GPT-4o的态度的确比较冷漠,后面也许是被Kimi的热情和真诚打动了,竟然还彼此约定一起研究食谱和下厨,这桩婚事难道有戏……


说到这里,大家觉得Kimi和GPT-4o谁的中文说得更好?


请在手机微信登录投票


你觉得Kimi和GPT-4o谁的中文说得更好? 单选


Kimi


GPT-4o


除了让它俩用中文交流外,我还让Kimi扮演我的朋友,跟作为我AI男友的GPT-4o用英语聊了聊,过程也是相当投机,从人生观聊到音乐品味。但GPT-4o说英语要比Kimi更丝滑、地道。


第一个男声为Kimi 第二个男声为GPT-4o


网友们在用AI语音功能整什么活?


与文本交流相比,语音模式的意义,在于声音能够传递一种独特的情感,让对话更有温度,实时语音通话也更贴近人类日常交流。


而且在忙碌或不方便打字的情境下,语音能实现更快、更高效地沟通。


随着AI可以模仿人类的语气、情绪等口头沟通的微妙细节,这一功能尤其适用于希望虚拟社交体验更亲密、真实、情感化的用户。


国内外的AI聊天软件纷纷上线实时语音通话功能,就反映了这一趋势——AI聊天应用正在朝着更加人性化、交互性更强的方向进化。


自GPT-4o发布会到现在,相信各位已经看过不少官方Demo和网友的整活了,不少内容可以说节目效果拉满。


比如让GPT-4o模仿人类情绪,带着委屈和哭腔说话:



让它用京腔说话,一开口就是老京片子了:



粤语也不在话下:




还有网友让它模仿美剧中经典的Mean girl,代入感很强,感觉已经被白女校园霸凌了:



同声传译日本乙游,自带意译和润色,准确度很高:



通过这些对话碎片,可以想象,语音功能实时情感化的对话体验,再加上AI硬件的不断进化,未来AI也许真的会成为你我更亲密的挚友。


文章来自于微信公众号“AI新榜”,作者“月山橘”


关键词: AI , Kimi , GPT-4o , AI语音
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales