ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
草莓难救被“月抛”的AI对话产品?
5309点击    2024-09-14 10:27

最全能的AI对话,最留不住用户?


OpenAI揭开草莓模型神秘面纱,能不能算GPT-5,坊间争议声音很大。


这就是今日凌晨一点,OpenAI发布的两个模型:o1 mini,o1 preview。


据官方消息,与GPT-4一样,OpenAI o1也以AI对话和API接口的形式呈现;而与GPT-4系列不同的是,o1可以解决比GPT时期的科学、编码和数学模型更难的问题。具体来看,之前的GPT模型旨在模仿其训练数据中的模式,而o1的训练旨在让其独立解决问题。


意味着o1模型可以像人一样,需要花更多的时间去思考问题,尝试不同的策略,甚至能意识到自己的错误。


听着很厉害对不对?但实际4O、O1等大模型“寄生”的AI对话类产品,他们的用户数并不高。


而据QuestionMobile,AIGC APP在工作日期间的活跃度高于双休日,推测现阶段AI与用户办公场景的适配性更强,AI主要围绕工作场景,为用户生成文本、图片等内容信息。


o1模型虽在物理、化学、生物、编程等领域表现得像博士生一样好,但对与编程能力来说,755万程序员占国内人口不足1%,可用武之地并不多,对C端大多数用户来说带来的效益并不高。


尤其近日,AI对话类App的用户留存问题被推至风口浪尖,更衍生出了“大模型六小虎泡沫即将破灭”的说法,AI对话的处境岌岌可危。尽管阿里原技术副总裁贾扬清已经提出质疑,下图30日国产5大AI对话类产品留存率接近0,这一数据应该不准确,但AI对话现在确实有一点“盛名之下,其实难副”。


图源:贾扬清朋友圈


根据QuestMobile 权威数据显示,头部AIGC APP运营数据活跃率低,均在20%以下;忠诚度方面,3日留存均在50%以下;流失风险高,部分APP的卸载率在50%以上。


坐拥数亿注册用户但日活很低的AI对话类产品,新的草莓大模型能否拯救呢?


9.11还是9.9大?AI界的亘古难题


曾经AI对话因回答错“9.11还是9.9大”被热议,现在国内各家都迭代了多代大模型,文心、豆包、Kimi等都能答对这道简单的数字题。但是OpenAI新更新的o1模型却还是沉迷自己不知名的逻辑怪圈里,找不到正确答案。



但国内大模型也并没有领先多少,但当我们问对话大模型一些客观的问题,如“草莓的单词里有几个r”、“打了警犬算袭警吗”等问题时,就会发现,这个刚刚还无所不能的AI助手突然变得手舞足蹈、不知所云了起来。




目前来说,对话大模型在简单的场景仍易漏洞百出,网友戏言:就这?取代我们人类?


诚然,大模型幻觉率高的问题,始终制约着AI对话在C端的渗透。专注于用户体验的研究机构Nielsen Norman Group在23年9月发布的一篇研究文章中提到,在曾经使用过AI工具的人中,大多数(78%)将 AI 工具用于工作和个人目的;8%的人仅将 AI 用于个人用途。


而在精益求精的工作用途中,大模型幻觉显得更加致命。不仅如此,工作场景中精确的指令反而更易让大模型“发懵”,AI对话的表现也并不出色。


在十字路口与脱口秀演员毛东的播客中,毛东提到,在用AI对话启发脱口秀文本创作的过程中,需要提前对对话模型进行5分钟左右的预训练,而预训练后对话AI生成的稿件也并不能直接起作用。输入一些稍复杂的指令,如要求大模型同时将“模仿路易·C.K.脱口秀风格”、“加入结婚话题的段子”、“带一些北京方言”融入文本创作,大模型就会分不清重点,生成的脱口秀文本索然无味。


同样的,Nielsen Norman Group的用户研究也指出,在使用对话AI时用户几乎总是进行多步迭代,因为人工智能无法准确提供用户想要的东西——它只能猜测意图。假如问对话AI“从上海出差到北京,近十五天有什么天气变化?有哪些穿衣建议”,则需要先对AI下达查询近15日天气的指令,然后引导其回答上海与北京的温度差异,以及针对北京温度进行穿衣建议。


然而,对于同一问题,似乎国内AI对话还有部分进步空间,Claude、ChatGPT的回答更精准一些。




对话AI的记忆也限制了其用户体验。通常在与AI进行超过7-10轮对话后,AI的回答开始变得混乱或不连贯。这就像你在跟一个注意力持续时间只有5分钟的人聊天,每过一会儿就得重新介绍一遍背景,导致AI对话用户体验感平庸。


正如我们所见,无论是线性的还是非线性的回答,人们在滚动对话记录,寻找合适的回答时都容易迷失方向。这个过程中,对话大模型理解和表达能力有限,整体用户体验平庸,大多数用户们也经历了从新鲜感到失望,AI对话也难以高效留存住用户。


多模态交互技术不够成熟,距离“Her”实现尚远?


电影《Her》中的人工智能不是一个简单的对话式AI,她不仅能通过声音表现出极为复杂的情感,比如幽默、温柔、关怀甚至是嫉妒,还具有高度的情感智能和自主学习能力,能够理解人们的情感需求,并根据互动不断优化自己的言行。


仿真的语音对话交互、流畅的多模态体验,使故事的男主人很快忘记了面前的“女声”只是一团冰冷的算法,深陷爱河。


而5月,OpenAI的ChatGPT-4o发布会结束后,Sam Altman在Twitter上发了一个简短的词:“her”,暗示着OpenAI已接近于完成科幻电影《Her》中,那位女性语音智能机器人的能力。


GPT-4o支持文本、音频和图像的任意组合的输入和输出。Mark Chen演示GPT-4o的多模态成果时,他告知ChatGPT自己正在做演示,询问GPT自己非常紧张应该怎么办。ChatGPT提示他:“深呼吸一下吧,记住你是个专家!”随后,Mark Chen用非常急促的几声喘息回应,ChatGPT则用吃惊语气下的“慢点呼吸,你可不是个吸尘器!”来回答他,幽默的回答令人忍俊不禁。


GPT高效的生成速度,带来流畅的多模态交互体验,虽然暂时还不能如《Her》中一样流畅地进行视频对话,但演示案例中的语音对话已非常接近。


现实是,4o语音能力还没发布,o1还不具备浏览网页或处理文件分析功能。尽管它具备图像分析功能,但该功能暂时关闭,等待进一步测试。


但国内月活第一的豆包APP的互动能力却稍显逊色。豆包虽然能识别语音,并进行对话,但其生成速度却不及GPT,百度的文心生成速度则更慢。不仅如此,豆包也无法识别对话过程中的语气。AI鲸选社在与豆包交流时,用很沮丧的语气说“今天天气可真好啊”,可豆包却判断出对话者的情绪是不错的。


图注:与豆包语音交互过程的文字记录


百度的文小言语音对话,虽有AI虚拟角色丰富用户的视觉体验,但其生成内容实在是慢,用户在交互过程中盯着虚拟角色迟迟不“说话”,很容易“跳戏”。


图注:文小言语音交互界面截图


智谱清言于9月5日上线了“视频通话”功能,向着Her的目标又迈进了一步。然而,智谱的视觉能力不太完善,把图中的紫色看成粉色,绿色误认为灰色,堪称一位“色弱”的AI助手。不过,它的视频对话机器人非常活跃,善于引发话题,它会夸赞你的窗帘很有设计感,还会自己找话题,问你有没有什么拿手的菜。值得一提的是,智谱的生成速度比文心和豆包都稍快一些,交互体验还不错。


图注:智谱清言视频聊天截图


虽然现阶段语音、图像识别等技术正在快速发展,但真正流畅、自然的多模态AI对话体验仍然任重道远,目前来说,国内AI对话的多模态交互还不够成熟。


但无论是“her”还是GPT-4o,可见的是,具备多模态交互的AI对话产品,是AI对话发挥能力的关键。


AI对话对“Her”的向往,也是能留住用户的关键。这种最接近人类的聊天方式,才是打破只有专业人士用Prompt,才能和AI对话产品交互的桎梏。


AI对话还在寻找自己的killer feature


现在的AI对话应用确实有不少花哨的功能。它可以回答我们日常所问,它可以帮我们写情书,甚至还能和它玩角色扮演......


但据《2024年中国移动互联网半年报告》,国内AIGC用户不稳定,AIGC行业人均使用时长同比下滑了23.5%。AI对话类APP功能虽多,却都是一些“花拳绣腿”,获客成果并不理想。


周鸿祎曾指出,通用大模型留存率低的原因主要在于承诺什么都能做的同时,却什么都做不精。也正是因为功能过多过于繁杂,AI对话类APP还没有找到那个让用户欲罢不能的killer feature。


互联网时代,使支付宝、微信、抖音、美团真正杀出重围的,是它们都找到了自己的“杀手锏”。购物支付会想到支付宝,社交聊天会想到微信,闲暇时间会想要看看抖音,“饭来张口”会想到美团外卖......反观AI对话呢?它好像什么都能做,又好像什么都做不好


目前,国内AI对话产品中,Kimi是较早找到应用场景的。知识高效获取一直都是职场、学生和科研人士的痛点问题,用户们拿到的资料往往都是大段资料,知识获取速度较慢。


Kimi抓住用户这一痛点,主打长文本和文档处理两个功能,能帮用户快速抓取文档重点,取得了还不错的用户体验。据AI数智源发表的8月国内AI榜单来看,Kimi仍以22.85M的数据领先其他家。但是实际上Kimi预训练较弱,模型本身能力并不强。但正是抓住了有效场景,Kimi的数据稳居国内大模型前列。


数据来源:Similarweb


目前其他家大模型,包括豆包、文心等,也都跟进了长文本处理和文档解读功能,能够满足用户日常工作所需。不仅如此,百度专门推出“橙篇”对标Kimi(橙篇提供专业的知识检索和问答、超长图文理解和生成、深度编辑和跨模态自由创作等功能)。这么看来,Kimi曾经的专长也并不显优势了。


而在龙头OpenAI内斗的这些日子里,Anthropic暗暗发力。据 Datos对ChatGPT调用场景的调查数据,编程问题占据了 29%,在所有使用场景中排名第一。Claude 3.5 Sonnet更新的“工坊模式”,强化编码能力,使生成代码速度更快,效率超过之前的GPT-4。编程作为最高频、刚需的AI应用场景之一,给市场带来了机会与收入。


OpenAI不放手编程场景。这次更新的o1模型主打强推理、强编码能力,有网友体验称其代码正确率确实有提升,“以前很少能一次run成功的”。o1还未正式开放,其效果究竟如何还待检验。


Claude 3.5的文本生成能力也在新Prompt“汉语新解”中得到了诠释。Claude于6月24日发布3.5模型,六月底,Claude流量激增135%。


图源:数字生命卡兹克


找到杀手级场景的AI对话产品风光创收,不禁让其他家焦虑了起来,各大AI公司都在绞尽脑汁找办法。


近日的外滩交流会上,阿里发布了“支小宝”全家桶,布局AI生活管家。百度也暗中转变战略,升级文心一言,并更名为“文小言”,定位“新搜索”智能助手。值得一提的是,百度改名的“文小言”,颇有“转战搜索”的意味。9月11日,字节也被爆出布局AI硬件的消息,开发与豆包大模型和豆包APP联动的智能耳机、智能眼镜,探索大模型与硬件结合的赛道。大家都在努力找杀手级场景,形成自己的特色能力。


AI对话现在像是一个天赋异禀但还在青春期的少年,有着无限的潜力,却还不知道如何施展自己的才华,正四处尝试。


但是,似乎行业的共识也正如周鸿祎所表达的,AI对话的未来不在于创造一个通用的超级助手,而在于为每个特定的人类需求打造契合的AI解决方案。也许这才是AI对话类产品,自己被用户新鲜感过后月抛,这一难题的的核心解决办法。


文章来自于“AI鲸选社”,作者“陈佳惠”。




关键词: 草莓 , AI , chatGPT , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0