兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

10524点击 2024-06-04 18:07

大模型开始“普世化”了，不必理解技术，在不知不觉中就能用得不亦乐乎。

一个不会编程的小学生，在手机上随便扒拉两下，就能创建一个外教“智能体”，陪自己练口语，比越练越烂的那些“英语角”可强多了——这样的例子并不少见。

最近，“智能助手”类产品成了手机应用商店中的新宠。这类鲜明的针对普通用户的AI应用，通常都是用各自的大模型作为“底座”支持，将散落的 AI 需求整合并封装到一个“聊天界面”之下，基于自然语言处理文本、图像的需求。

你能看到这类产品有，文心一言（百度）、通义（阿里）、Kimi（月之暗面）、海螺AI（MiniMax）、豆包（字节），还有刚刚发布就颇受关注的“元宝”（腾讯）等。一下子，用户恨不得给手机里装满了“助手”。

通过手机 app 使用 AI 大模型，比在电脑网页上方便多了，也更符合我们已经养成的操作习惯。经过了最初好奇尝鲜驱动的使用，这类 app 有没有可能变得像我们打开微信、美团、滴滴那样频繁呢？

本质上，用户的“线上”核心需求没有变，高效获取信息，提升效率，情感表达，社交娱乐等。那，“智能助手们”行么？

神仙打架 or 菜鸡互啄？

打眼几个助手类产品的第一印象：产品同质化。AI搜索、文档总结和问答、文案写作、图片生成等，能做的事情大差不差。但基于模型能力和对价值判断的不同，让用户在使用起来，体验还是各有不同。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

AI的“工作流程”，首先是信息搜集，接着对信息进行结构化处理，结合所理解的用户输入，进行内容生产（也可以称之为创作）。

面对确定的、已有的资料，大模型们都能给出不错的答案。但需要信息检索时，原本具备搜索能力的大模型厂商，在联网、时新类搜索上一般表现更好。

比如腾讯元宝接入微信搜一搜，搜狗搜索引擎。当你问它“现在适合买黄金吗？”，它会总结出投行和证券公司最近对于黄金价格走势的判断。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

元宝在时新类搜索上的回复丨元宝

决定回答质量的另一个因素是“信息源质量”。当前 AI 搜索大致工作原理，用户以自然语言的查询先被重构，输入进实时索引中搜索信源，再交给语言模型阅读，最后将阅读到的信息结构化一篇有条理的回答，同时附上相关参考链接，为的是克服“幻觉”问题——尽管，那些教AI说话的“老师”（信源）也总在胡说八道。

不得不承认，很多高质量的中文内容处于封闭的生态下。最典型的例子，是微信公众号——新近上线的“元宝”，就是得益于做了对微信公众号检索的打通，让AI回答的质量得到了巨大提升，甚至可以被当作微信生态内容的一个新入口。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

元宝覆盖了微信公众号的内容丨元宝app

一个“聊天框”，用自然语言提问解决了“不会搜索”的难题，而对于可能出现的各种“答非所问”，这类“智能助理”产品也提供了相应解决方案。

如果你在“百小应”中问，引擎盖打不开了怎么办？它不会直接泛泛而谈。而是先问什么品牌型号，哪一年的车。聚焦后再生成进一步的回答。通过多轮对话明确问题，搜索少量（不只调用通用搜索，也需要垂直搜索能力）的信息源，做出精准的回答。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

AI主动向用户提问丨百小应

一些AI产品中的“灵感提示”、“追问”也都是为了引导用户问出更“对”的问题。

回到讨论的核心。助手类产品的意义是什么？答案或是，提升用户解决问题的效率。

还是以这些AI app通用的主界面，AI搜索对话框为例，其背后都对应着问题的拆解和相对应模型功能的调用：翻译搜索结果、转成语音输出、生成结构化大纲等等，根据用户的特定需求，产品可以做到分别调用翻译模型，tts模型，对专业问题（对信息来源有要求）做对应论文文献搜索。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

这种多功能组合，是今天智能助理 app中集成大量智能体的原因之一。甚至，面对更多长尾需求，产品允许用户自建智能体。无论是通过自然语言，简单地构建一个智能体；

还是开放给专业开发者（至少是有编程思维的人），以自建workflow（工作流）的方式构建智能体。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

创建智能体丨扣子

普通用户对这类应用的日常需求已经呈现出一个清晰的主线：如何满足娱乐和如何提升效率。

AI产品总体渗透率不足1%，各家并没有拉开差距。功能上，产品处于同质化的状态。深究原因，是技术能力相对也同质化——回想一下，这是不是和当年各种同质化的app创业很像？

一个好的智能助手，必须能帮我怼老板

PC端与移动端产品的用户体验，各有优势。处理逻辑复杂，操作繁多的工作流（对于用AI类产品，尤其当涉及到上传多文件，对内容生产结果二创等），PC端用起来更方便。

那么移动端的优势是什么？至少一个智能助理，听起来应该像一个可随身携带的“百事通”。

GPT-4o发布中的一个惊喜是，语音交互竟丝滑流畅到这种地步了——延时缩短到不可察觉，AI助手能听懂语气词，增加了情感表达。当我们感受到“对方”能自主抬高，压低声音，就会不自觉将其看待成人，与之交互就会越来越频繁。

如今不少厂商将“语音交互入口”设置为默认交互界面。对语音交互体验做优化，包括但不限于，做基于大模型的ASR（自动语音识别），超自然的TTS（语音合成）音色。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

将语音设置为默认交互方式丨左文心一言，右豆包

不久前，Arc Search（一款浏览器产品）推出了一个名为“Call Arc”的功能，当检测到用户执行打电话手势时（举起手机，贴近耳旁），便能直接到用户与AI搜索聊天——一个移动端AI产品更为“激进”的尝试。

GPT-4o（还有Gemini Live）本质是多模态的进步。他们都在重新定义大模型产品的人机交互标准。所谓多模态，是能像人一样看，听，说，有触觉，调动摄像头，麦克风等手机上各种传感器（移动端天然优势）。行业的一个普遍共识是，接下来提高底座语言模型的能力，将多模态统一融合。

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

GPT-4o“看相”丨OpenAI

效率另外的提升，来自AI与原有产品生态形成联动。大模型厂商已经在做尝试。

比如钉钉（联合饿了么）群内，用自然语言“20杯拿铁，少冰，加浓”点单、拼单，无需离开群聊便可一键付款。

如何使用好手机上的“个性化”信息，也是这类 app 效率提升和使用体验优化的关键——理论上，如果 AI app能引用地图导航 app 和机票旅行 app 的购买偏好数据，就能为用户安排出行。类似利用好本地的实时的信息，可以创造很多高价值的场景。

“我就期待能有这样的搜索，跟微信联动起来，当老板呲牙咧嘴地逼问我为啥他交代的事情我没做时，我就当着他面让AI立刻查查，他到底说没说！”——我有一个朋友这么说到。

的确，没有比这个价值更高的场景了。

文章来源于“果壳”，作者“沈知涵”

兴高采烈下载了满屏AI助手，我尝鲜了一下就没再打开

关键词: AI助手 , AI应用 , 文心一言 , 通义 , Kimi , 豆包

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales