临近年关,打算开个新系列,从总结视角聊聊AI领域的新趋势,顺便填坑。第一篇先聚焦产品形态的变化。
2022.11上线的ChatGPT,既实现了2个月过亿的现象级增长,也为后来者刻下了chatbot的烙印。Gemini、Claude、文心一言、通义千问、元宝、豆包、kimi...,无论顶着什么样的名字,其中的设计逻辑都大同小异。
站在巨人肩膀上无可厚非,但chatbot的形态并不完备,和用户侧的具体场景存在割裂。用户不得不使用ctrl+c、ctrl+v往返于chatbot和其他软件之中。模型公司显然也了解这一点,Anthropic于今年6月推出了Claude Artifacts,收获了大量好评。而OpenAI也紧跟对手,于10月推出了Chatgpt Canvas。
除了两家明星初创,我们也可以从其他公司的产品中,观察到类似的理念,比如Cursor。本文将从几个典型产品切入,尝试对这一趋势做点发散和思考。
Canvas和Artifacts的诞生充满了相互借鉴的痕迹。事情最早可以追溯到2023年3月,OpenAI开始测试Code Interpreter(同年7月发布,后更名为Advanced Data Analysis),主要特性是可以上传文件、执行python代码、自助分析数据、生成可视化图表。Code Interpreter的本质是搭建了一个沙箱环境,所有代码、文件、数据都在沙箱中处理。
通过Code Interpreter调试聚类算法
而Artifacts某种意义上,是对Code Interpreter的换道超车。在持久化工作区的基础上,Artifacts极大地特化了“所见即所得“的可视化功能,被评价为“既懂模型,又懂产品”。无论是代码、文档、网页,还是SVG,Claude都能为你生成Artifacts的预览,分栏的设计也让“对象”的概念从chat窗口中独立出来。chat负责协作,Artifacts负责结果,各司其职。
Artifacts渲染html5小游戏
一度疯传的李继刚的花式prompt,就充分利用了Claude的语义理解和Artifacts的可视化能力,来生成富有内涵和意境的SVG。
李继刚的Claude prompt:一人一句
不过,Artifacts的体验也存在短板。对比Code Interpreter,由于Claude不支持run code within it,初版Artifacts“只能看、不能跑”,所以大家看到的出彩案例也都止步于前端渲染。Anthropic在10月份推出了更新《Introducing the analysis tool in Claude.ai》,开始补全沙箱和数据分析工具,逐步拓展Artifacts的适用场景。
另一方面,Artifacts也无法直接对预览内容进行修改。当你选中某个片段点击“improve”时,你只能回到chat窗口中发送修改需求,而AI的执行难免添油加醋,大大影响了编辑的精准性,比如下面这个例子。
我:合并了吗?AI:如合
(别误会,我的文章都是手打的,不然我直接一天一篇。)
Canvas的出现,明显改进了这方面的缺憾。Canvas进一步优化了主次逻辑,将需编辑的对象提升为绝对的主体,而AI的能力则打包为一个个具体的功能按钮。chat窗口弱化为sidebar,趋近于信息提示和交流辅助。现在,我们终于可以更优雅地编写文章或者代码了。
Chatgpt Canvas的写作demo
声明一下,我并不推荐你为了体验Canvas去专门开个plus会员,因为它也继承了半成品的优良传统,各种毛病是少不了的。比如:部分功能逻辑过于简陋,当使用“suggest edit”时,你可以看到光标上下飞跃,却不知道它具体改了多少;对前辈们的优点也没有充分吸收,沙箱和可视化这些优秀的feature均未体现。看来两家产品在互相借鉴的路上,还需进一步取长补短(低情商:抄快点)。
世上并不只有OpenAI和Anthropic两家公司,在聚光灯之外,也有不少产品的idea颇为有趣。其实,早在Canvas推出前,就有人在使用Cursor辅助文字创作了,没错,就是那个AI IDE Cursor。
相比Artifacts和Canvas这类由模型方推出的feature,Cursor首先是一款正儿八经的IDE产品。作为VS Code的分支,它的用户基础早已验证。而Cursor的AI功能设计也相当精巧,完全“融入”了IDE之中,体验更胜Github Copilot。
同每个IDE一样,Cursor的主体是编辑器,你可以在coding时快速触发inline的AI辅助,让AI为你修改、补全或解释代码。交流类内容会在右侧chat中出现,你也可以主动发球,和AI研讨思路,再apply到代码中。涉及到代码库和文档,加一个@,就可以将其加入上下文中。这也给读代码带来了很大的方便,你只需要@,剩下的事交给Cursor。
Cursor帮你改代码
这么看来,用Cursor客串写文不完全是邪道。它的UI理念和Canvas共通,并且在功能打磨上有更多积累。代码库就是知识库,补全和修改等同于续写和润色,而旁边的chat依旧是你的小小参谋。毕竟有Claude 3.5 Sonnet加持,coding和writing都不在话下。
当然,说到知识库和写作,还是笔记软件的血统更为“纯正”。Notion作为其中的翘楚,早在2022年底就开始探索与AI的结合,并在今年9月发布了全新的Notion AI。Logo的设计颇为复古,充满了早年office回形针的调调。
有点像简笔画的Notion AI
Notion AI的功能相比上面所举的应用,倒也没有特别的新意,无非就是问答、总结、改写、翻译等几板斧的排列组合。但由于笔记天然就是个人的专属知识库,所以它可以基于你的数据沉淀,更方便地实现内容和文风的量身定制,为习惯用Notion写作的你,提供更大的生产力。Notion本身丰富的内容格式和组件,也大大扩展了潜在的玩法。
使用Notion AI辅助创作
鹅厂最近出了个新产品ima copilot,被不少人认为是对大热的Google NotebookLM的模仿。实际上,这或许是知识库QA功能造成的错误印象。ima的内核并不像NotebookLM,更接近Notion AI。
区别其实很明显。NotebookLM是document-first的知识交互和共享工具,用AI做二次加工和内容转换。用户无法自由编辑相当于知识库的源文档,只能添加轻量化的备注。每个Notebook是一个独立的主题,也是知识库的组织形式和边界,你无法跨Notebook进行QA和协作。
强调来源的NotebookLM
而ima copilot则糅合了搜索、知识库和笔记。你可以用AI搜索获取外部资料,也可以对知识库做二次编辑(前提是对象为可编辑格式),最后结合二者辅助你的笔记创作。这完全就是Notion的理念——知识生产和管理工具。几字之差,产品逻辑完全不同。
ima copilot:搜索、知识库、 笔记
看多了面向代码、文本这些“古板”内容的产品,我们再来看一个异类,Flowith。从形态上,Flowith比Canvas更像Canvas(画布)。它对UI做出了较大胆的改变,并非线性地生成聊天内容或文档,而是在一张无限画布上动态展开节点。这种形式相当适合用来做头脑风暴和知识图谱,节点之间亦可以再次引用和发散,为你勾勒出一张AI驱动的思维导图。
画风迥异的Flowith
Flowith的发布时间是今年4月,先锋的理念在今天看来也颇有启发。要打破chatbox的套路,除了融入现有的生产力场景,也可以选择探索更自由的交互方式。
分析了一圈,不知你是否有感觉,AI产品的形态出现了继chatbot之后的又一个交汇点。无论是Canvas、Artifacts,还是Cursor、Notion、ima和Flowith,这些产品的核心设计,存在着或多或少的共鸣。
我们可以简单地将这个品类归纳为“AI白板”——搭建一个面向用户和AI助手的协作空间。目前大部分的AI白板产品,比如Canvas,有着强烈的“编辑器”风格,主要用于写作、coding等生产力场景。也有诸如Flowith的异类,在边界之外做着更多尝试。
随着产品的迭代,更丰富的内容、更广泛的场景、更有想象力的功能将会被解锁。AI白板也会逐步褪去编辑器的烙印,变成一块包罗万象的真正“白板”。
产品形态的趋同也折射了各公司对一个关键命题的思考——如何优化人与AI的协作。
早在这一轮LLM浪潮兴起的初期,AI的定位就被赋予了一个恰如其分的名字,copilot。商业叙事的高歌猛进,一度让我们低估这个阶段的长期性。现在看来,copilot仍是当下技术能力和产品体验交集下的最优解。
再仔细打量下Canvas,如果跳出本文的引导,你可能会找到另一个出乎意料又情理之中的参照——浏览器插件。Monica、豆包等插件的UI与布局,和Canvas不能说一模一样,简直是不谋而合。因为它们都是“copilot”,Canvas的主体是文档,Monica的主体是网页。
Copilot的核心是“配合”。化用一下Anthropic对computer use的阐述,让AI适应人,而非让人适应AI。高深的AI使用技巧固然重要,但始终是阳春白雪。更有效的方法是提升普通人运用AI的下限,而秘诀在于,提高“人”的参与比重。
AI是很好的杠杆,但人的创造力,才是协作的支点。
AI产品有一个简单的二分法,“AI+”还是“+AI”。前者通常是模型公司亲自下场,后者多半依托已经存在的产品,本质是增量和存量。短期内,“+AI”比较容易取得优势,长期看,两个路线没有绝对的高下。
虽然用户无所谓,但模型公司挺焦虑。模型层创业公司的生态位天然不利,一不像大厂可以仰仗成熟业务养家,必须更主动地探索产品侧的延伸;二是融资端的输血也有对价,即便是OpenAI,也得向投资者做出营收大幅增长的承诺。
而这种压力也投射在了具体的行为中。模型公司做产品的动机,从最初的打样示范,逐步变成要自己占领市场。算力吃模型的蛋糕,模型吃产品的蛋糕,如此一级一级地下探,对AI生态的共荣似乎不见得是件好事。
另一方面,做产品这事也讲究个基因禀赋。模型公司的产品技能显然还不ready,当下发布的各种新功能,总有点先首发占位的赶工味道。从模应一体的角度,或许Google是最值得看好的选手。NotebookLM的成功也向我们证明,Google仍然有做出好产品的能力。
这是我今年最常说的一句话。既然竞争已成定局,产品间的你中有我、我中有你,就是必然趋势。好的idea不足以成为壁垒,只能带来一时的流量。大厂摸着小厂过河,系统摸着应用过河,先发者的巧思难免被后来者摘果子。技术力、执行力、增长飞轮、错位突围,这终究是场持久战。
回顾近一年的发展,有基座模型的你追我赶,有视频和语音的多点开花,有pre-train和post-train的东边不亮西边亮,还有AI PMF的众里寻她千百度。除了关注纷繁的现象,也需要思考背后的趋势。本篇为2024 AI趋势总结的第一篇,下一篇计划聚焦执行任务的agent。
酒香也怕巷子深。写这样的内容花费不少精力,如果你觉得不错,请帮我点点三连、做做扩散,谢谢你的支持。
文章来自于微信公众号“左右横眺”,作者“左右横眺”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0