这是一轮新变化。
Copilot?什么意思?
别着急,我慢慢讲。国庆假期期间,OpenAI发布了新版的ChatGPT,叫做GPT-4.0 with Canvas。
大家已经看到不少新闻和报道,很多自媒体和专家都体验过这个新功能,并发表了看法。
比如:
沃顿商学院的教授Ethan Mollick就说,Canvas让聊天机器人有了新的突破,更像是在和同事合作。
我自己也用了三天,感觉它再次改变了人和AI的互动方式。这让我重新思考:GPT-4.0 with Canvas未来会变成什么样?
当我们再次谈起ChatGPT时,需要理解ChatGPT和AI的本质。很多人把ChatGPT当作一个普通应用,但这种理解是远远不够的。
我认为,ChatGPT意义不仅在于与人对话,更在于它提供了一种全新的交互方式,让AI与各行各业结合,解决很多过去无法解决的问题。
例如:
在医疗行业,AI可以帮助医生更快地分析影像数据,从而提高诊断准确率;制造业中,AI结合自动化技术,可以预测设备故障,降低停机时间,提升生产效率。这些都是显而易见的应用。
当我们谈论AI时,不应简单地认为“AI是加上一个行业”,而应该思考如何“让行业结合AI”。
ChatGPT不仅是一个对话工具,还是一个能够为各个领域赋能的应用平台,这种赋能不是技术的简单叠加,是一种全新交互方式,帮助解决实际问题的能力。
很多人认为AI只是一个工具,可以应用到不同领域,但我认为ChatGPT是一个应用平台,不同行业可以围绕这个平台构建自己的应用场景。
你可以利用ChatGPT来解决客户服务问题、处理自然语言需求,甚至进行复杂的数据分析等;所以,ChatGPT为各行各业打开了许多新的可能性,这就是它的真正意义。
还有一点,ChatGPT不仅仅是AI+的一个应用,它是一种基础设施,为AI与行业的结合提供了一个通用的框架。
在金融、教育、医疗等行业,ChatGPT已经被用来解决许多过去需要人类处理的复杂问题,这是AI+的真正价值所在,它是通过平台为行业赋能,带来深层次的变革。
因此,从这个角度看,ChatGPT有两个维度:第一,作为基础设施平台;第二,作为交互应用。我们应该从这个角度来看待它。
既然如此,再来谈谈gpt-4o with canvas。gpt-4o with canvas是什么?
官方说,这是一种新工具,可以把对话内容变成图形和文字,方便用户整理、扩展和分享,用户不仅能和AI对话,还能用画布来更好地组织和管理信息,这样能更方便地和AI互动,提高效率。
gpt-4o with canvas更像长在ChatGPT基础设施上的产品,用了它之后我想到了一款叫Anthropic的Artifacts的工具。
这是什么呢?简单点说,它能帮助用户更好地和AI合作,让互动变得更加透明和安全。通过Artifacts,用户可以更清楚地看到AI是怎么做决策的,并根据自己需要去调整和优化AI的结果。
比如:
在客服场景中,Artifacts可以显示AI是如何判断用户情绪并给出回复的,这样客服人员就能更好地调整回复内容,确保服务质量。
但是,它有一个问题,所有的交互一步一步进行的。也就是说,你输入一个Prompt,AI给你一个结果。如果你不喜欢这个结果,就要再输入新的指令。这种交互有点像什么呢?
就好比你对家里的小狗说:
把“孩子”叼过来。结果它真的把邻居家的小孩带过来了,但你想让它叼门口的鞋子,你可以不满意,再发出请求,但结果不一定总是你想要的。
因为AI真的还没聪明到像人一样(其实我和很多人交流时也得不到想要的结果)。
如果你真的想得到满意的结果,有一个办法,就是在结果不可控时,直接监控并干预过程;能让你对过程进行细致干预的,才是真正的Copilot。
很多人可能都听说过Copilot这个概念。它被称为一个小助手,能在工作中帮忙,协助完成各种任务,减轻工作负担。在代码开发领域,GitHub Copilot是一个很好的例子。
它可以理解你在写的代码,然后,推荐下一步可能要写的内容,这些推荐可以是一小段代码、一个功能,甚至是更复杂的代码块。
对于需要快速写代码、测试代码的程序员来说,GitHub Copilot特别有用,因为它能大大提高写代码的速度。
而且,它可以安装在Visual Studio Code、JetBrains IDE等编辑器中,让你在编写代码的同时得到智能建议。
GitHub Copilot还有一个聊天功能,程序员可以通过聊天和AI互动,生成或修改代码,写文档注释,创建单元测试,甚至帮忙修复代码中的错误。
不过,虽然GitHub Copilot功能很强大,但也有一些不足,比如它生成的代码依然要测试和人工检查,所以,它和Artifacts没什么区别。
如果我没记错的话,最早提出Copilot概念的是微软。
在2023年的Build开发者大会上,微软宣布将Copilot深度集成到Windows 11,并扩展到其核心产品和服务中,如Microsoft 365、Dynamics 365、Microsoft Viva和Microsoft Security等。
然而,一年过去了,这一重大决策似乎并未明显推动全面向人工智能辅助技术的转变。微软Office很难以做出重大改变,是有原因的。
它已经延续了16代以上,基础非常坚固。要改变这样一个产品的形态,绝不是简单地加个功能或去掉某些东西那么容易,其背后涉及到更复杂的组织调整等等,一年时间显然不够。
所以,什么样的Copilot才能真正对用户有用呢?
它应该是一个能够主动理解用户需求,并在过程中提供细致支持的助手,这种Copilot需要具备更高的智能,能够预测用户的下一步需求,提供更连续和自然的互动体验。
比如说:
你在用Office写文章,写到一半时,不知道哪个成语是什么?这时,Copilot能够帮你思考,提供相关建议和素材,甚至直接补充内容,减少中断和反复操作的麻烦。
这就是Copilot。至少这次OpenAI做到了。
我们再来思考一下gpt-4o with canvas主要应用场景, 官方表示,这款工具主要面向编辑和写作用户群体,这是openAI最大的两个用户群体。
用户只需选择模型,在对话框中输入特定指令,就能触发文本编辑和画布功能。这个新界面让用户能够在其中改进AI生成的内容。
Canvas是一个能够直接干预和精细控制过程的工具,用户不喜欢像拆盲盒一样,一次次输入提示再等待结果,他们需要能够精确控制、按需输出的工具。
坦率的说,除了Canvas,我还没见过其他产品能够更好地满足这种需求,GitHub Copilot还达不到这个水平。
OpenAI官方也提到,希望Canvas能够让ChatGPT更懂用户。例如:
用户可以高亮重点部分,指出错误,ChatGPT会帮忙调整;还可以一键撤销,轻松恢复到之前的版本。
同时,在Canvas界面中,用户也可以轻松编辑文字或代码。界面还配备了快捷方式,可以快速调整写作长度、调试代码,并执行其他有用的操作。
因此,这次OpenAI对Canvas的更新,一方面,在用户体验(UX)上已经超越了竞争对手,让我第一次真正感受到什么是理想中的Copilot。
不再是那种像抽卡一样反复尝试的交互,而是更加自然和高效的体验。
另一方面,我认为,这次更新也融入了对AI时代产品哲学的深入思考,不仅是在做模型,更是在精心打磨产品体验,从动画细节到交互细节,处处可以看出OpenAI这次是用心在做。
这样的交互产品,也更符合创作型交互产品的要求。
我们平时用的编辑软件,比如 Office、IDE,甚至是画图工具,都可以精确到编辑一个字、一个像素,而像 Prompt 这样的操作,根本算不上编辑,只是 AI 发展过程中的一个半成品。
而现在,Canvas结合 Prompt 的模式已经算是完成了大约 80%。如果它再进一步,比如支持图文混排、实时获取数据、利用其他文件作为辅助信息源,那它可能成为一个完成度高达 99% 的神奇工具,这个目标也不再遥远。
我不知道Copilot是否是ChatGPT的发展趋势,但从OpenAI首席产品官(CPO)Kevin Weil的履历来看,OpenAI在用户体验(UX)和产品方向上可能会有大的变化。
Kevin Weil之前是Twitter的产品副总裁,还在Instagram和Facebook的数字货币钱包项目Novi担任过高管。
他在社交媒体、金融科技和Web3领域有很多经验,尤其擅长管理产品生命周期,带领跨部门团队合作,理解用户需求,推动产品创新。
他非常重视用户体验,工作方式灵活,善于团队合作,这些有助于确保产品既满足市场需求,又超出用户期待。
OpenAI拥有强大的AI技术,有实现各种应用的潜力,如果他有足够的决策权,可能会对整个AI行业产生很大的影响,虽然现在市场上有很多公司在做类似的事,但未来这些公司可能不得不让步。
另外,关于Canvas能力,OpenAI研究主管Karina Nguyen在X平台上表达了她的愿景:
“我对终极AGI界面的设想是一块空白画布,它随着人类偏好不断演变,自我变形,创造出与人类互动的新方式,从而重新定义我们与AI技术和互联网的关系。”
My vision for the ultimate AGI interface is a blank canvas. The one that evolves, self-morphs over time with human preferences and invents novel ways of interacting with humans, redefining our relationship with AI technology and the entire Internet。
简单来说,Canvas的目标是成为一个更大、更适合复杂工作的协作空间,像notion一样?不敢想想。
虽然现在Canvas的功能还没有完全实现这个愿景,但这个想法对整个用户体验行业是一次冲击。
想象一下,一个能自我演变、自我变形的画布;根据每个人的使用,它会变成不同的交互形式和体验;这不就是大模型在交互领域的具体体现吗?
再说了,不谈交互设计,OpenAI的整体布局也一直重视生态系统。从去年的GPTs,到代码解释器、AI搜索,再到现在的Canvas,OpenAI一直在暗示他们想覆盖上下游整个生态链。
在Canvas上,我们还能看到很多OpenAI竞争对手的产品影子,比如Anthropic的Artifacts工具和AI代码编辑器Cursor等应用的功能,OpenAI在这些基础上进行了细节升级。
很明显,OpenAI正在加速应用端的发展,之前,OpenAI在应用的交互体验和细节设计上进展比较慢,但凭借GPT模型的领先优势,他们并未太关注产品本身。
而现在,模型能力的差距在缩小,很多大模型和消费级AI提供商都把可编辑工作空间看作生成式AI的最新突破点。
我认为,随着Claude Artifacts、Cursor等功能和工具的爆火,Canvas的推出也是为了弥补市场竞争的重要缺口。
至于Perplexity、谷歌和微软,看到这一切后,会采取什么行动呢?国内产品,又会如何应对这个新的挑战呢?只有简单问答功能的AI服务,已经无法满足人们对“副驾驶”级别的需求了。
这是一轮新变化。
一种悄无声息的错位竞争,至少,我这两天体验下来,它确实节省时间成本。
文章来源于“王智远”
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0