ChatGPT新能力要做Copilot？

7908点击 2024-10-08 18:46

这是一轮新变化。

Copilot？什么意思？

别着急，我慢慢讲。国庆假期期间，OpenAI发布了新版的ChatGPT，叫做GPT-4.0 with Canvas。

大家已经看到不少新闻和报道，很多自媒体和专家都体验过这个新功能，并发表了看法。

比如：

沃顿商学院的教授Ethan Mollick就说，Canvas让聊天机器人有了新的突破，更像是在和同事合作。

我自己也用了三天，感觉它再次改变了人和AI的互动方式。这让我重新思考：GPT-4.0 with Canvas未来会变成什么样？‍‍‍‍‍‍‍‍‍

01

当我们再次谈起ChatGPT时，需要理解ChatGPT和AI的本质。很多人把ChatGPT当作一个普通应用，但这种理解是远远不够的。

我认为，ChatGPT意义不仅在于与人对话，更在于它提供了一种全新的交互方式，让AI与各行各业结合，解决很多过去无法解决的问题。

例如：

在医疗行业，AI可以帮助医生更快地分析影像数据，从而提高诊断准确率；制造业中，AI结合自动化技术，可以预测设备故障，降低停机时间，提升生产效率。这些都是显而易见的应用。

当我们谈论AI时，不应简单地认为“AI是加上一个行业”，而应该思考如何“让行业结合AI”。

ChatGPT不仅是一个对话工具，还是一个能够为各个领域赋能的应用平台，这种赋能不是技术的简单叠加，是一种全新交互方式，帮助解决实际问题的能力。

很多人认为AI只是一个工具，可以应用到不同领域，但我认为ChatGPT是一个应用平台，不同行业可以围绕这个平台构建自己的应用场景。

你可以利用ChatGPT来解决客户服务问题、处理自然语言需求，甚至进行复杂的数据分析等；所以，ChatGPT为各行各业打开了许多新的可能性，这就是它的真正意义。

还有一点，ChatGPT不仅仅是AI+的一个应用，它是一种基础设施，为AI与行业的结合提供了一个通用的框架。

在金融、教育、医疗等行业，ChatGPT已经被用来解决许多过去需要人类处理的复杂问题，这是AI+的真正价值所在，它是通过平台为行业赋能，带来深层次的变革。

因此，从这个角度看，ChatGPT有两个维度：第一，作为基础设施平台；第二，作为交互应用。我们应该从这个角度来看待它。

02‍

既然如此，再来谈谈gpt-4o with canvas。gpt-4o with canvas是什么？

官方说，这是一种新工具，可以把对话内容变成图形和文字，方便用户整理、扩展和分享，用户不仅能和AI对话，还能用画布来更好地组织和管理信息，这样能更方便地和AI互动，提高效率。

gpt-4o with canvas更像长在ChatGPT基础设施上的产品，用了它之后我想到了一款叫Anthropic的Artifacts的工具。

这是什么呢？简单点说，它能帮助用户更好地和AI合作，让互动变得更加透明和安全。通过Artifacts，用户可以更清楚地看到AI是怎么做决策的，并根据自己需要去调整和优化AI的结果。

比如：

在客服场景中，Artifacts可以显示AI是如何判断用户情绪并给出回复的，这样客服人员就能更好地调整回复内容，确保服务质量。

但是，它有一个问题，所有的交互一步一步进行的。也就是说，你输入一个Prompt，AI给你一个结果。如果你不喜欢这个结果，就要再输入新的指令。这种交互有点像什么呢？

就好比你对家里的小狗说：

把“孩子”叼过来。结果它真的把邻居家的小孩带过来了，但你想让它叼门口的鞋子，你可以不满意，再发出请求，但结果不一定总是你想要的。

因为AI真的还没聪明到像人一样（其实我和很多人交流时也得不到想要的结果）。

如果你真的想得到满意的结果，有一个办法，就是在结果不可控时，直接监控并干预过程；能让你对过程进行细致干预的，才是真正的Copilot。

很多人可能都听说过Copilot这个概念。它被称为一个小助手，能在工作中帮忙，协助完成各种任务，减轻工作负担。在代码开发领域，GitHub Copilot是一个很好的例子。

它可以理解你在写的代码，然后，推荐下一步可能要写的内容，这些推荐可以是一小段代码、一个功能，甚至是更复杂的代码块。

对于需要快速写代码、测试代码的程序员来说，GitHub Copilot特别有用，因为它能大大提高写代码的速度。

而且，它可以安装在Visual Studio Code、JetBrains IDE等编辑器中，让你在编写代码的同时得到智能建议。

GitHub Copilot还有一个聊天功能，程序员可以通过聊天和AI互动，生成或修改代码，写文档注释，创建单元测试，甚至帮忙修复代码中的错误。

不过，虽然GitHub Copilot功能很强大，但也有一些不足，比如它生成的代码依然要测试和人工检查，所以，它和Artifacts没什么区别。

如果我没记错的话，最早提出Copilot概念的是微软。

在2023年的Build开发者大会上，微软宣布将Copilot深度集成到Windows 11，并扩展到其核心产品和服务中，如Microsoft 365、Dynamics 365、Microsoft Viva和Microsoft Security等。

然而，一年过去了，这一重大决策似乎并未明显推动全面向人工智能辅助技术的转变。微软Office很难以做出重大改变，是有原因的。

它已经延续了16代以上，基础非常坚固。要改变这样一个产品的形态，绝不是简单地加个功能或去掉某些东西那么容易，其背后涉及到更复杂的组织调整等等，一年时间显然不够。

03‍

所以，什么样的Copilot才能真正对用户有用呢？

它应该是一个能够主动理解用户需求，并在过程中提供细致支持的助手，这种Copilot需要具备更高的智能，能够预测用户的下一步需求，提供更连续和自然的互动体验。

比如说：

你在用Office写文章，写到一半时，不知道哪个成语是什么？这时，Copilot能够帮你思考，提供相关建议和素材，甚至直接补充内容，减少中断和反复操作的麻烦。

这就是Copilot。至少这次OpenAI做到了。

我们再来思考一下gpt-4o with canvas主要应用场景，官方表示，这款工具主要面向编辑和写作用户群体，这是openAI最大的两个用户群体。

用户只需选择模型，在对话框中输入特定指令，就能触发文本编辑和画布功能。这个新界面让用户能够在其中改进AI生成的内容。

Canvas是一个能够直接干预和精细控制过程的工具，用户不喜欢像拆盲盒一样，一次次输入提示再等待结果，他们需要能够精确控制、按需输出的工具。

坦率的说，除了Canvas，我还没见过其他产品能够更好地满足这种需求，GitHub Copilot还达不到这个水平。

OpenAI官方也提到，希望Canvas能够让ChatGPT更懂用户。例如：

用户可以高亮重点部分，指出错误，ChatGPT会帮忙调整；还可以一键撤销，轻松恢复到之前的版本。

同时，在Canvas界面中，用户也可以轻松编辑文字或代码。界面还配备了快捷方式，可以快速调整写作长度、调试代码，并执行其他有用的操作。

因此，这次OpenAI对Canvas的更新，一方面，在用户体验（UX）上已经超越了竞争对手，让我第一次真正感受到什么是理想中的Copilot。

不再是那种像抽卡一样反复尝试的交互，而是更加自然和高效的体验。

另一方面，我认为，这次更新也融入了对AI时代产品哲学的深入思考，不仅是在做模型，更是在精心打磨产品体验，从动画细节到交互细节，处处可以看出OpenAI这次是用心在做。

这样的交互产品，也更符合创作型交互产品的要求。

我们平时用的编辑软件，比如 Office、IDE，甚至是画图工具，都可以精确到编辑一个字、一个像素，而像 Prompt 这样的操作，根本算不上编辑，只是 AI 发展过程中的一个半成品。

而现在，Canvas结合 Prompt 的模式已经算是完成了大约 80%。如果它再进一步，比如支持图文混排、实时获取数据、利用其他文件作为辅助信息源，那它可能成为一个完成度高达 99% 的神奇工具，这个目标也不再遥远。

04‍

我不知道Copilot是否是ChatGPT的发展趋势，但从OpenAI首席产品官（CPO）Kevin Weil的履历来看，OpenAI在用户体验（UX）和产品方向上可能会有大的变化。

Kevin Weil之前是Twitter的产品副总裁，还在Instagram和Facebook的数字货币钱包项目Novi担任过高管。

他在社交媒体、金融科技和Web3领域有很多经验，尤其擅长管理产品生命周期，带领跨部门团队合作，理解用户需求，推动产品创新。

他非常重视用户体验，工作方式灵活，善于团队合作，这些有助于确保产品既满足市场需求，又超出用户期待。

OpenAI拥有强大的AI技术，有实现各种应用的潜力，如果他有足够的决策权，可能会对整个AI行业产生很大的影响，虽然现在市场上有很多公司在做类似的事，但未来这些公司可能不得不让步。

另外，关于Canvas能力，OpenAI研究主管Karina Nguyen在X平台上表达了她的愿景：

“我对终极AGI界面的设想是一块空白画布，它随着人类偏好不断演变，自我变形，创造出与人类互动的新方式，从而重新定义我们与AI技术和互联网的关系。”

My vision for the ultimate AGI interface is a blank canvas. The one that evolves, self-morphs over time with human preferences and invents novel ways of interacting with humans, redefining our relationship with AI technology and the entire Internet。

简单来说，Canvas的目标是成为一个更大、更适合复杂工作的协作空间，像notion一样？不敢想想。

虽然现在Canvas的功能还没有完全实现这个愿景，但这个想法对整个用户体验行业是一次冲击。

想象一下，一个能自我演变、自我变形的画布；根据每个人的使用，它会变成不同的交互形式和体验；这不就是大模型在交互领域的具体体现吗？

再说了，不谈交互设计，OpenAI的整体布局也一直重视生态系统。从去年的GPTs，到代码解释器、AI搜索，再到现在的Canvas，OpenAI一直在暗示他们想覆盖上下游整个生态链。

在Canvas上，我们还能看到很多OpenAI竞争对手的产品影子，比如Anthropic的Artifacts工具和AI代码编辑器Cursor等应用的功能，OpenAI在这些基础上进行了细节升级。

很明显，OpenAI正在加速应用端的发展，之前，OpenAI在应用的交互体验和细节设计上进展比较慢，但凭借GPT模型的领先优势，他们并未太关注产品本身。

而现在，模型能力的差距在缩小，很多大模型和消费级AI提供商都把可编辑工作空间看作生成式AI的最新突破点。

我认为，随着Claude Artifacts、Cursor等功能和工具的爆火，Canvas的推出也是为了弥补市场竞争的重要缺口。

至于Perplexity、谷歌和微软，看到这一切后，会采取什么行动呢？国内产品，又会如何应对这个新的挑战呢？只有简单问答功能的AI服务，已经无法满足人们对“副驾驶”级别的需求了。