ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一年半了,AI 产品还没找到它的「张小龙」
5599点击    2024-08-09 11:30

2011 年 11 月,微信更新了 v3.1,首发于诺基亚的塞班上,带来了「二维码」。一周后,这一功能也上线到了安卓和 iOS。



来源:微信官网


2012 年 5 月,张小龙发了一条朋友圈:「互联网的入口在搜索框,移动互联网的入口在二维码。」



张小龙发的朋友圈


故事的结局大家都知道,微信赢下全场。


那么,AI 时代的「二维码」,在哪里?


以及,在 AI 时代,会不会有可以深挖的地方,而不是一味追求去粗暴的「卖课」?



01 

二维码的复盘


思考:移动互联网兴起的时候,我们撞出了哪些生态缺位?


我认为:新的流量,尚未与传统需求打通


智能手机兴起的时候,我们有了即时信息交换的需求,并高位替代「打电话问问」。与 PC 流量相比,更能满足在不同场景所需,如:几个人起意决定去吃东西,通过手机可以迅速搜索、预订、导航等。


但很显然,传统服务端并未满足这一变化(也无从满足),导致一系列的体验断层。而二维码的出现,借用手机的摄像头,通过扫码的方式,让信息可以「无人值守」的快速传递。


在实际落地中,「双边效应」是二维码能快速普及的一大原因。


回顾 2013~2015,微信支付刚刚兴起,那时:很多用户询问商贩是否支持扫码付款;另一方面商贩主动向用户展示收款码。这种互动推动了「扫码」的快速普及,形成了良性循环。



「我扫你」这个词,也被出口了


进而,我们发现,如果希望一个东西快速承接新的场景流量,就有两条可行策略:

  • 需要绑定人与人、人与事儿之间的高频场景(引起行业自推广)

  • 需要让用户,无需额外成本,用手里的东西就可以完成(降低推广门槛)

于是,我们看到了在支付、登录、加好友上,扫码成了必然。同时,微信也成为了大家通用的扫码枪。


02 

AI 的不同


在我看来,AI 从产业角度,带来的是信息处理的不同:

  • 互联网时期:你输入一个问题,由人或者机器,把相关的材料找到,然后返回并展示给你

  • AI 的当下:你输入一个问题,AI 检索到材料(来自你的提供、AI 的训练数据,数据库或者联网搜索),然后生成并展示给你


因此,当有需求时,我可以把所有信息都提供给 AI,让它筛选和录入,并根据我的输入识别意图,以更好的方式把结果返回给我。如果数据是实时、自动注入的,这就是所谓的 Copilot 模式。



我用 coze,搭了个公众号排版器


顺道提一嘴,在当前的路径下,AI 不存在「又变天了」。大模型从头到尾只在做一件事:输入足够的信息,然后输出相应的内容。如果用 y = f(x) 来表示,大模型做的事情就是:


结果 = 大模型 (提示词)


在产品里,这个过程可能会不断重复,比如在 agent 场景中的反思,就是让它先用 f(x) 输出一个结果,再用 g(x) 来检查。而多轮对话,就是把 f(x) 中的 x 改成历史对话。


再多嘴一句,绝绝绝大多数的 AI 产品,都只是对大模型 API 进行简单封装,找到着力的业务场景,结合行业 knowhow 和交互优化,来做品牌创新。


AI 在应用层,从来不是技术驱动。


03

AI 的缺位


首先,我提一个暴论:人类对 AI 的使用,既没有先天的基因,也没有后天的学习。因此使用门槛极高,存在巨大的差距。要弥补这一差距,需要在交互上进行创新。


如何理解「先天基因没有」?


在历史上,如果有两批男性,一批对军事和政治更感兴趣,而另一批则兴致寥寥,那么我们会认为,前者更适应人类社会的竞争,并会更广泛地传播自己的基因。进而,现在的男性普遍更喜欢竞技类和策略类的事物,也更喜欢看相关视频和玩这类游戏。


相比之下,AI 是一个全新的事物,没有经过这样的社会达尔文过程,因此没有人天生会使用 AI。



我们终其一生,在学习和基因共存


如何理解「后天学习没有」?


骑自行车是一个反直觉的技能,与 AI 有些相似。人们需要通过长时间的学习和训练才能掌握骑自行车的技巧。自行车经过了长期的发展,虽然不在学校课程中,但我们从小就看到身边的人在使用,也有各种各样的辅助工具(比如侧边的小轮子)。


而 AI 呢?刚刚崛起,变化迅速,没有现成的学习工具和环境。因此,我们需要创造一种新的方式,将 AI 的使用与我们已经熟悉的事物相结合,降低学习成本,让更多人能够轻松使用 AI,真正发挥它的潜力。



iPhone 在最早期,大量使用了拟物设计,方便人们理解


额外


做产品的时候,要顺人性,有一个事实是:我们在接受教育的普遍过程,是被动灌输,而非主动提问。

那么,一个更符合当下用户需求的产品,不应让用户主动提问:应预设一个场景,让用户参与



截图来自知乎


04

我的实践


作为 AI 从业者,我自己也在思考,如何更好的和 AI 进行交互。也尝试贡献了一些方案:

  • 前几天热议的「浏览器滑词弹框」交互,可能是我最早用在 AI 上的。去年 2 月,我写了款开源程序 Fluentify,可能是最早一批「AI 浏览器插件」,带来了划词弹框和右边栏的交互。
  • 去年收到 OpenAI 的邀请,在 ChatGPT 里实现了联网和搜索。
  • 应该下周的时候,我还会带来一些新的交互



Fluentify 带来了「划词+侧边」,大概是去年 2 月



Fluentify 被 FuturePedia 评为了本周最有趣的项目


于此同时,作为产品经理的我,也在寻找更多更好的解决方案:

  • 更好的陪伴响应
  • 更好的信息输入(不应该是让用户主动发问)
  • 更好的信息呈现
  • 无需用户额外购买设备


05 

好的探索 - PC


先说 PC 端,这里我认为最佳实践是俩:

  • Copilot
  • Copilot


你没看错,都叫 Copilot - 微软这胡闹的品牌部门,简直瞎搞 ahhhhhh


前者是 Github Copilot,代码补全工具,或者说是这一类工具(比如前段时间我介绍到的 MarsCode)



他懂 114514,很牛逼


后者是 Windows 里的期货,可以帮你自动操作电脑



注 1:夸赞仅针对发布会里的演示视频

注 2:产品以实物为准,谨防电信诈骗


这俩都有相同的特点:

  • 在不破坏原有流程的前提下,集成到了工作环境中
  • AI 自动进行实时的数据录入
  • 以用户熟悉的方式,进行处理结果交付(比如代码自动补全在各种 ide 里都有)


我们通常认为,PC 负责生成,工具要偏向于生产力工具;手机负责消费,让你快速体验到奶头乐。因此在落地的时候,会看到移动端的一些不同:

  • 优势:更加一致&有效的交互方式,比如语音输入;更多传感器
  • 限制:不能常驻后台,但要处理各种即时访问(如果做高频场景)
  • 挑战:解决输入问题,解决跨应用的结果交付问题


06 

好的探索 - 手机


移动端中,在过去一年里,我看到的 2 个有趣的尝试:

  • ChatGPT 小组件
  • 海螺的悬浮球

先说 ChatGPT 的小组件,允许你将 ChatGPT 放到锁屏页面下,点一下就能打开,在这里:

  • 缩短了用户「从现实业务」(手机并没有被打开),到 AI 询问之间的路径
  • 变相实现了「AI」常驻前台
  • 但也存在一个问题:这种操作还是颇为小众,所以相信用过的人不多



大概长这样


海螺的悬浮球,算是小组件的升级版:允许 AI 长期处于待命状态,放在屏幕最上层。形态就是系统层级的 Assistive Touch,辅助触控。就是这个小圆圈,点一下就能呼起自定义功能。


我假定:你知道海螺是 MiniMax 旗下的 ChatBot



冷知识:辅助控制是为了帮助肌无力,无法按下 Home 键的朋友设计的,之后广受好评



我可以把唤起行为,改成海螺提供的「识别屏幕」


这里有几个设计上的巧思:

  • 屏幕上的小圆圈,这个交互来自乔帮主,iPhone4 时代的产物,iPhone 用户挺熟悉的
  • 唤起的方法,是通过捷径实现,过程是明牌,避免了隐私麻烦
  • 默认的交互是发送当前页面截图(有手机上 copilot 的感觉了)


用起来的话,典型的场景是... 我拿他去写评价,薅个代金券



点评/美团/饿了么,完美伴侣


另一些我认为比较合适的用法,包括不仅限于教你打游戏,帮你算满减,帮你规避套路,等等。毕竟这些场景下的所有信息,都没办法直接复制,只能截屏。



杀戮尖塔 yyds


但还是得说一下,目前大模型对于图像的识别,以及指令遵循,还没有到非常好的程度。但我相信他会很快进化的,等风来就好了。


我再顺着给悬浮窗多设计一个交互 - 长按(这个不一定能通过「捷径」实现):

  • 长按后,唤起语音对话
  • 长按结束后,将语音和当前屏幕内容发送(左右滑动,决定是否发送屏幕信息)
  • 获取到 AI 的反馈后,可以一键复制,并进行包括不仅限于:进入对话,修改文字和追问等操作


比如在我炉石的时候(马上回归了!),面对一年没打的手牌,就可以让 AI 随时 copilot 的为我服务了。



停服?什么时候停服过?


07 

SuperAPP,在哪里?


提问:SuperAPP 的机会,在哪里?


我的回答:机会可能不多


这个问题,在过去的一年里,我被很多朋友问过。我的思考很简单:

  • 在以往,一个准 SuperAPP 在崛起的之初,因其先发优势,心智势能和资本开挂,在进入大众视野的前几周、几个月,可以迅速获得市场认可,进而成为头部明星。
  • 在当下,由于 AI 和类 Coze 产品的出现,点子可以被快速复制&落地,其流量也将被迅速分化,进而无法形成品牌合力(因此我一直在关注 Coze,并常与人说:Coze 是 VC 最大的竞争对手 - 它猎食了独角兽)



glif 做了个爆火的梗图生成器,几个小时后 coze 上到处是复刻


08 

时代机会,在哪里?


我觉得:在「超级入口」,人与 AI 共生的超级入口。


当功能本身不再是壁垒时,心智资源则变得弥足重要,要让你的产品成为用户的肌肉记忆,比如扫码微信。



去年二月,我做了一场分享「与 AI 共生」


在未来的时间里,AI 应用将更加注重如何无缝地融入用户的生活、工作以及其他场景,以更直观有效的方式与用户进行交互。这种交互,或许是类似 copilot 的实时补充,也或许会像锁屏按钮一样,不打扰地守在用户身边,直到一次触摸发生。


但最佳实践是什么,依然需要我们这些从业者不断地从各方面进行试探:无论是 transformer 的路线创新,还是 openai 的工程实践,又或是上文中所提到的悬浮球交互。


当下似不起眼,若以十年后回望,或是人与 AI 的指尖,首次相触。


文章来自于微信公众号Founder Park 作者 Founder Park






AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0