AGI路线图：Her时代要到了吗？

9618点击 2024-05-31 10:42

迈向更自然的人机交互。

AGI路线图：Her时代要到了吗？

5月14日凌晨1点，OpenAI发布了让创始人Sam Altman感觉“像魔法一样”的新一代模型。不是GPT-5，不是AI搜索，而是最新旗舰生成式AI模型GPT-4o。

GPT-4o（“o”代表“omni”，意为“全能的”）是迈向更自然的人机交互的一步。它不仅能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出，还可以理解和表达丰富的情感，在易用性和人机互动上向前迈进了一大步。电影《Her》中的情节正在从科幻走进现实。

本期节目将和嘉宾共同探讨，GPT4o到底有哪些“魔法”？背后是哪些技术的突破？将对行业带来哪些变革性影响？我们是否要迎来超级智能助力的Her时代？

本期嘉宾：

周健澜码科技创始人

刘江图灵联合创始人

鲍捷文因互联创始人

胡修涵捏它智能科技创始人

节目主理人：

徐思彦腾讯研究院

十条来自于AI总结的主要观点：

1. GPT-4o的特点和创新：GPT-4o的发布会展示了其在情感表达和理解方面的强大能力。

2. 情感表达的实现：GPT-4o的情感表达能力可能得益于引入时间维度，将状态从离散转换为连续，这在技术上是一个重大挑战，需要大量的数据标注和计算资源。

3. 智能体的定义：智能体被定义为能够感知并改变环境的实体。随着技术发展，多模态和实时性成为智能体发展的关键，使其能够更自然地与人类交互。

4. 大模型的商业化挑战：尽管大模型技术在演示中给人留下深刻印象，但在商业化过程中仍面临挑战，包括产品的可用性和正确率，以及客户对完美性能的期望。

5. 智能体的场景定位和成本收益：智能体的成功不仅取决于技术，还需要考虑其服务的用户群体和易用性。例如，通过简化数据分析流程，使一线业务员工能够更高效地使用数据。

6. C端产品的变化：多模态大模型可能会带来C端产品的变革，提供更自然、更情感化的用户体验，类似于电影《Her》中展示的人机关系。

7. 下一代Agent交互的思考：未来的智能体可能与年轻用户共同成长，成为他们的学习伙伴，甚至在他们老年时提供陪伴和帮助。

8. 技术和产品提升：为了迎接“Her”时代，需要在可穿戴设备、更自然的交互界面等技术上进行创新，以提供更无缝的人机交互体验。

9. 意识与智能体：尽管GPT-4o表现出了先进的交互能力，但目前还没有科学的理论来明确定义智能体是否具有意识，这是一个复杂且哲学性的问题。

10. 社会智能和数据集的构建：AI系统可能会在社会智能方面取得进步，通过构建具有社会智能的数据集来提升AI的社交能力和理解力。

GPT-4o的特点和创新

对GPT4o发布会的感想，发布会中有哪些印象深刻的demo？

徐思彦：我们都对GPT-4o这个小而美的发布会印象深刻，它就在Google发布会的前一天举行。我想请三位嘉宾分享一下，你们对发布会有什么感想？有没有什么特别印象深刻的点？

周健: 这几乎是我第一次熬夜看美国的高科技产品发布会，给我留下了深刻的印象。我注意到产品的细微之处。因为是实时的，包括情绪部分，我们都知道其实需要大量的数据。我认为其中可能投入了大量的成本和代价来积累这样的数据。这有助于提高agent的能力，使它更像人，能够参与更多的场景，直接获取这些数据。所以我觉得可能有很多场景能够被解锁，这让我感到十分惊艳。

刘江：是的，我当时直接看的，看到后我家网络断了，我还以为有很多内容，结果已经结束了。我印象很深的是，OpenAI现在非常出色的一点是，他将科研和产品很好的结合在一起。在发布会上基本上不提及大模型的参数、性能，或者得分，而是只展示他的产品，让普通人都能感受到它的强大。他在语音方面做得非常好，而且进展非常快。

第二点是，他真的把多个模态结合在一起了。至少在文章中，OpenAI说使用了一个神经网络模型来处理语音、图像和文本。这在国内，现在应该还没有任何团队能够完全做出来。尽管这一点并非他最早提出，因为google的Gemini其实提出得更早。但是google的完成度并不高。所以从这一点来看，他这次的成果非常出色，至少达到了我的期望值。

胡修涵: 我自己感觉最深的是产品的连贯性，确实比之前OpenAI展示的能力更强了。典型的例子是我觉得以前我们看到ChatGPT在某些地方会有脱节，但在新版本中这些问题都被快速修复了。例如，早期的ChatGPT发布时会出现漏洞，容易被人发现，但在新的产品发布中，这些问题几乎无法找到，而且第二天就敢直接上线了。我认为这显示了他们在产品化过程中的严谨和组织调整。总的来说，他们在过去的几次发布会中一直在优化，尽量让外界难以发现他们技术内部的一些问题。另外，OpenAI在延迟设计上非常高效，通过一个很好的演示，即两个人，两个手机放在一起，联合唱歌。这个演示做了很好的展示。我同意刘老师之前的观点，我怀疑这个演示是最早就想出来的，然后再朝这个方向优化。

GPT-4o的情感表达能力是如何实现的？

徐思彦：我们先来谈谈GPT-4o，我认为其中一个大家都注意到的点是它强大的情感表达和理解能力。尤其是OpenAI展示的几段demo中，有一段给我留下了深刻的印象，那就是GPT-4o与工程师互动唱生日歌。它并不仅仅是简单地唱一首歌，而是特意加快了语速，表现出丰富的情感，如紧张和跃跃欲试。这种情感表现能力是我在以前任何AI代理中都未曾感受到的。我想和各位嘉宾探讨一下，GPT的这种情感表达和语音功能是如何实现的？有哪些进展？

周健：说实话，我没有认真研究过他的那个细节，就像您刚才提到的这个，像Sora之前也提到过。我看这次实际上还是比较重要的一件事情，就是把时间加进去了。因为在GPT0-4的情况下，原来是文本进文本出，我们可以预测每个状态，现在的实时是加上了时序。很多时候，状态是带上了时序，如何去表示这个状态，如情绪这种，也是某种维度的状态。从数学的角度来讲，原来是离散值，现在变成了连续值。我猜测这是一个很大的进步，因为这个方面的计算量都很大，包括如何标注这些数据。我不确定他是否完全不需要标注，但是他也没有详细谈及实现方法。在supervised learning中，我们可以遮掉一些文本，他现在则是录一些视频。我在猜测他到底怎么实现，但我觉得这确实是一个很大的技术挑战，或者说，是跨过了一个很大的台阶。我觉得可能会像Sora讲的那样，我们可能会有一些patch，从visualization上来讲，是把它变成一种符号。但是如何做到这件事情，确实是一个令人好奇的技术问题。

胡修涵: 我认为，它本身是多模态的，部分基于语音识别的。并没有必要进行特殊处理，重要的是它如何妥善处理语音信息，以及在向量化过程中的实际应用。这其实意味着它在每一个模态上的深度积累和数据处理量都是充足的。难点可能并不是大家不理解这个架构，而是每一个点都需要准备足够多的数据和其他模态，也能形成一些交叉的关系，这样才能保证整个事情的顺利进行。在过去的GPTV-Dalle体验中，我曾提到一个细节，就是大家会发现它是通过自己的prompt再去调用function call。在这种模式中，它实际上没有真正的embedding传递，而是用prompt作为纯文本来传递，这显然影响了其效率和整体模式，无法达到GPT-4o的水平。它无法将文字做成streaming，然后直接输出语音。因此，它可能无法做到同声翻译，或者说，只能一句话读完了再翻译另一句。在这个过程中，需要充足的训练和数据准备。因此，我怀疑这可能是与Sora几乎同时开始准备的事情，他们可能是并行进行的。

智能体与多模态模型

如何定义未来智能体？

徐思彦: 对，这正好引入了我们今天的第二部分，即关于未来智能体和多模态模型的讨论。如何定义一个未来的智能体？多模态又将如何推动新的人机革命？

周健: 首先，我想解释一下智能的定义，因为现在这个概念有些混乱。在我看来，智能就是能够感知环境并改变环境。环境的定义会随时间和技术的发展而变化。例如，当我在上一家公司做RPA时，环境可能就是笔记本电脑，AI的工作就是代替人手操作键盘和鼠标。现在，大模型的出现涌入了大量的文字，使得环境变得更加丰富，包括许多网页和文档。我认为多模态是必然的发展趋势，因为我们已经进入了一个数字环境。虽然这个数字环境还没有进化到像《Matrix》或《钢铁侠》中那样的虚拟世界，但我们的IT环境已经包含了许多网站和应用。现在，很多人仍在做许多枯燥的工作，例如在不同的应用中复制粘贴数据和文档，这些工作实际上完全可以由AI来完成。多模态，可以帮助智能体感知人类的各种状态，如情感和上下文，并在数字环境中与其他机器或社交网络中的人交流。我认为，理想的智能体应该能够主动提醒你需要做什么，所以多模态是非常重要的。

现在的AI不仅需要多模态，还需要实时性。在AI代理无法理解你并知道你所有数据的时候，一句话是无法完成一切的，因为信息的密度不够。你怎么可能用一句话生成一个应用或一个智能体呢？这肯定是做不到的，所以我们需要交互。我认为，人类与机器的交互不仅限于文本和声音，机器还可以生成文本、视频、图片和报告等，这些对机器来说很容易，但对人来说可能就比较复杂了。有时候，我们需要面对面沟通是因为我可以用白板很容易地将视觉内容画出来，但即使我们现在的视频技术已经很先进了，很多想法还是无法传达出去。因此，我认为人机交互有很大的进步空间。

如何看新一轮大模型的变化和发展？

徐思彦: 刚鲍总提到了在智能体TOB方面也有一些探索，你是怎么看现在的这一轮大模型的发展呢？

鲍捷: 其实，这是一个三十年或者四十年的循环。从专家系统开始，逐渐简化成了语义网。语义网又进一步被简化，变成了知识图谱。当发现无法继续前进，数据处理无法继续，就变成了深度学习的神经自然源处理。之后，变为大模型，现在又回到了起点。在TOB领域里，这实际上就是我们四十多年前做的专家系统。所以从技术上来讲，四十年走完一个循环，把原来不能做的事情突然变得可行，这让人感到兴奋。

但是这种产品在层面上还非常不成熟。这些demo让人很兴奋，但是当你让客户买单时，还是有很大的差距。它的可用性，它的正确率，一般来说，深度学习的人如果能达到七八十就已经很开心了，60%也很开心。但是对于客户来说，他们总是希望能达到百分之百，或者至少有90%。前天腾讯组织的TVP专家讨论了一下这个大模型到底有什么性能落地，结果产生了非常激烈的分歧。有一部分人认为，To C可能不是一个好路，但可能它是对于中国市场的一个方向。对于中国市场，多模态肯定是一个方向，agent肯定是一个方向。未来所有的大模型公司都是多模态公司，这一点是毫无疑问的。但是，商业模式究竟在哪里？具体来讲，市场上所有的L0级、L1级、L2级的这些大模型公司，在可预见的未来三到五年之内，能否建立起正向现金流？以及背后所有的一些因素，能否支撑这些公司走到彼岸，我认为这都是现在存在的巨大疑问。

智能体的场景定位和成本收益如何去考虑？

周健: 我们应该如何定义这个 agent feature 是什么？实际上，包括今天，这些大型模型公司，正如刘老师刚才所说的，对于 OpenAI，他们不再公布模型的具体参数。但是今天，实际上，国内的这些大模型公司，都在开玩笑地说，他们在做商业化的多年后，直到现在，他们都无法定义出SKU，只会说L0，L1，L2。你跟我讲33B，你跟我讲L2，那又怎样？我为什么要用你的模型而不使用开源模型呢？我自己觉得 agent feature 是非常有趣的。例如，数据分析，很多人都说他们能做。他们觉得，有了大模型，我们可以通过自然语言生成一个报表。他们觉得这非常靠谱。然后一堆 BI 公司都在说，我牛逼的 CEO 说了一句话，然后报表就出来了。但这是不可能的，因为准确率现在其实完全没有达到那个程度。然后，我跟一些公司聊天，他们希望他们的自助数据分析的准确率一定要达到百分之百，甚至是如果达不到百分之百，就不能用。但事实并非如此，因为我的客户是什么？我现在服务的是一线业务员工。这些一线业务员工可能就是某某支行的业务人员。他们以前可能需要在后台的一个取数系统里，提一个工单，然后等四天可能才能拿到这个报表。现在他只需要说一句话，报表就出来了。即使报表有错误，他也可以调整。只要他能达到90%的准确率，对他的工作已经是一个很大的帮助了。

所以，在我看来，agent 的一个重要维度是它适用的用户群体是什么？在 AI 还没有达到千人千面的程度时，我们应该服务的是什么样的人群？在我们的场景中，我们实际上提供的价值在某种程度上是，我们让那么多的业务人员能够使用数据。然后这个价值在某种程度上就相当于是给每个6000块钱的人配了一个懂BI的2万块钱的人，这个 ROI 可能就好算了。这其实是我们自己摸索的结果。例如，包括另外一个例子，今天百度文库做了一个能力帮你写简历模板。你说这个值多少钱？如果一个猎头顾问个性化为你的简历去定制这份简历，你说值多少钱？那这个差距是什么差距？可能不在大模型，而在专家知识。所以，从我的视角来看，AI 智能体很重要的就是两个属性。**刚才我提到的专家知识代表了它的业务价值的上限，然后你能否适应这个小白用户，就是那个针对的那个客群，可能代表了它的通用性。我觉得现在很有意思的地方是，这件事情现在确实没有答案，所以反过来说，这就是创业公司的机会。**如果这件事情已经被定义清楚了，例如，现在的代码生成模型，某种程度上其实已经被定义清楚了。所以，像商汤、微软、质朴这样的公司都去做了，我觉得创业公司就没有机会了。但是，如果还没有定义清楚的，现在其实是有很大的机会的。因为这个时候，一个创业公司如果能快速的商业化和产业化，就可以迭代起来了。

多模态大模型会给c端产品带来什么样的变化？

徐思彦: 鲍捷总刚才提到，当前的ToB模型很难打动决策者，也就是老板。但是，GPT4o在某种程度上的确打动了用户，尤其是像GPT这样的模型。在GPT4o之前，就有Dan模式，许多网友甚至在网上与它谈恋爱，它的情感交互功能是以前所有设备中都没有的体验。所以，我们来讨论一下，未来人与机器的情感互动会是什么样的？

刘江：我一直认为，之前C端大模型的两个主要方向，一个是偏工具性的聊天，一个是偏情感陪伴的Character，这两者并不是截然分开的。想想看，在电影"Her"中的情景。如果你的AI模型逐渐变得像人一样，那么它既有功能性，也有情感性。比如像一位大老板的秘书，她可能在这两方面都能满足。因此，我一直不认为功能性和情感性是截然分开的。而且，真正能引发人们情感的东西，肯定是这些多模态的元素。

徐思彦: 刘总的观点是，情感性和功能性或者说工具性会逐渐走向统一。

刘江: 对，人就是通用智能。什么是通用智能？通用智能包括了情商和智商，这两者是分不开的。我相信所有的软件都将被重新设计。大家可能会问，为什么软件将会被重做？这是因为大模型在两个方面都有很大的变化。一方面是界面层。现在的软件界面需要我们不断地点击和选择。例如，如果你想打开微信的腾讯研究院公众号，你需要按照一条路径去寻找。但是在未来，可能就像电影"Her"中的场景一样，你所有的需求都可以通过耳机和语音完成，像和人交谈一样简单。这种人与人之间的交流就是自然界面。所以，界面将会改变，软件也必然会改变。大模型就像人一样，每个人都可以有一个数字秘书。他的能力会跟人一样，并会根据你的习惯进行调整。这就是"Her"时代！

Her时代要来了吗？

如何思考怎么去做下一代Agent交互？

徐思彦: 修涵的捏它就是一个诞生于智能时代的一个产物。你在设计下一代的这个智能体的时候，是如何思考的？

胡修涵: 在思考如何进行这种交互时，我在想，如果有一代年轻的用户，这些年轻用户在整个学习和成长阶段中，从小就有一个与他们一样，一起变得聪明的东西，不管是什么，能够陪伴他们成长，甚至比他们变得更聪明。这种情况很可能发生在现在的十多岁的孩子这一代人中。他们会感觉到，这部分的智能实体比他们学习和成长得更快，但他们比他们的父母更了解这一类新伙伴。当然，他们会轻视他们的父母，这在每一代人中都是如此，所以，这部分年轻人将如何走向社会，然后适应这种情况，我觉得是一个有趣的思考游戏。

我觉得这是最根本的变化，无论是教育模式的改变，还是他们将来如何与工作中的智能体协作，甚至如何让这些智能体陪伴他们养老，即使他们可能一生都是单身，但这部分可能会陪伴他们的时间比其他人更长。这是我从长期角度思考her问题的一些想法。所以我们在想的是，如果从一开始，他替代的是孩子玩的四驱车，陀螺，芭比娃娃，或者其他什么东西，它会怎样与他们交互和学习？这是我们在做这件事情时的总体思考，逻辑和原则。

刘江：是的，修涵说得非常好，最终的AI native应用可能需要AI native的人来推动。包括ToB，包括你们做的ToB也是如此。之前十年为什么会有SaaS，包括企业软件等投资热潮，是因为移动互联网带来了新一代的老板，他们开始使用软件。在中国，原来大部分的经营主体都不使用电脑，但现在，企业软件有了新的机会。我听说有一个投资人说，这是因为现在的老板都在用手机。既然他们在手机上装了软件，他们可以查看数据等内容，他们愿意使用它。所以，我认为我们应该看向未来。

迎接Her时代还需要有哪些产品/技术上的提升？

徐思彦：各位创始人，如果想朝着"her"时代继续发展，你们会在哪些产品或技术上进行提升，以更接近这个所谓的"her"时代？现在Open AI已经开了个头。还有哪些你们认为值得做，但Open AI现在还没有做的地方？

鲍捷: 我来先说。可穿戴设备？所有这些都是技术的升级换代。特别是像AI这样的革命性技术，往往都是由交互带来的。例如，你有没有想过为什么浏览器能存在，为什么互联网能存在？如果没有鼠标，可能就没有互联网。你很难想象有人会用纯键盘操作web，所以一定要有鼠标。

比如说，我前两天在合肥参加一个交流会，看到了一种叫做语音鼠标的东西。你在工作中，要拿着鼠标对它说话，我觉得这看起来很尴尬，我说谁会拿着一个鼠标对鼠标说话，这个行为看起来很silly。

所以现在软件上面的能力已经有了，但我们需要一种非常自然的交互界面。我觉得这种交互界面可能是眼镜或者是更低成本的耳机。这个耳机的功耗极低，在端侧可以进行一些计算。然后，它真正成为你的助手，就像贴在你耳朵上的那样。比如说，我经常忘了某个人是谁，如果有一个耳机能在我耳边提醒我，我愿意花大价钱买它。

所以我觉得，未来的智能助理可能不会利用手机的方式来实现。对于男生来说可能是眼镜，耳机，对于女生来说，可能是一个项链，甚至是耳环或者胸针。我也相信刘老师说的，未来每个人都会有一个秘书。我更极端一点，我觉得每只猫都会有它自己的秘书。

刘江: 对，大文学会学会跟猫沟通的，好像现在已经有人做这种实验了。

鲍捷: 对，所以未来可能有几百亿个agent，因为所有的人，所有的实体，所有的家畜都会有一个ID。在这种情况下，你想等到我们的家猫去世之后，我肯定想把它留下来，有一个数字分身。所以我做这么一个猫对我是有价值。

所以未来可能会产生非常多的人的、猫的、狗的可穿戴设备。然后他们长期学习我们的生活。

所以如果我们跳出现在的这个中国ToB的情况，我其实挺乐观的。我对于大模型，将来为每一个人配一个秘书，以及最终为秘书本身就变成了我们的分身。这个笑话爱因斯坦的司机，每个人都有自己的数字分身。我觉得这件事情十年之内肯定会发生，这是一个极其庞大的市场。

所以我刚才说了几个悲观的话，但其实在骨子里面，我对于技术是极度乐观的。我认为在十年左右的时间内，这些AI相关的企业会从现在15万亿美元的市值，成长到至少100万亿美元。这是一个极其巨大的市场。

从GPT4o来看，智能体已经有意识吗？

胡修涵：我觉得我们现在对这个问题很难有个明确的定义。总的来说，目前还没有一个合理且科学的理论来明确意识是如何来判断的，所以说起来确实很难。我们只能说它的延迟很短。我之前听说过一个偏哲学的观点，它认为意识是记忆在时间中的表现。虽然这可能是一个比较抽象的描述，但在一定程度上，这个观点能够说服我。如果我们很难为它下定义，那么它在一定程度上解决了时间延迟的问题，似乎就离意识又近了一步。我们前段时间在实践中发现，做agent应用的一个核心问题就是agent的串联，或者说多次prompt调用之间的延迟和复杂度。只要我们能优化这个数量级，许多的串联性，比如人的思维和所有的这些链状结构（Chain of Thoughts）或树状结构（Tree of Thoughts），都需要缩短延迟来构造。所以从这个角度来看，它确实离一个更智能的点更近了一步。最大的变化在于这个，我觉得从纯粹的情绪等方面可能更表象一点，但延时的缩短可能是更本质的东西。

周健: 我想泼一点冷水，因为我对神经科学有深入的研究和兴趣。虽然GPT有很好的表现，但是否有人考虑过，它其实没有长期记忆。可能它能像硅基生命一样记住所有过去的对话，但实际上，人类的常识记忆不只是纯粹的记忆，有时候是感觉到相似性。从神经的角度上讲，我们有一个叫做时空的东西，能够发现有相似性，从而能够去找到这个东西。

但在现实中，我们的技术还没有构建这件事情。这可能与成本有关，我们可能需要花费大量的力气和资源。例如，可能需要用几个美国州的电力才能训练出来定制的助手。人与AI的交互除了记住token，还可以有分门别类，有一些记忆就是记住那些，或者有一些按照事件模型的方式能够把它组织起来。但现在实际上还没有这样的技术。你的token context L如果翻倍，它的算力和推理成本是平方增长的。所以现在其实还不能解决所谓的长期记忆问题，只能记住与你短期的互动。

如果AI能记住你讲的每一个词，或者你三天前讲的某个事件，并帮你回忆和组织这些信息，那就像是你的伴侣。但现在的AI还做不到，就像金鱼只有七秒钟的记忆。你打开GPT聊天，它似乎活了，但你关闭网页后，它就死了。因为它的记忆不能持久化，不能转化为常识记忆。所以我认为HER的时代还有很大的门槛要突破。

我一直在想一个问题，就是在B2B交易中，我们需要博弈，例如谈判价格。这就开始有意思了，人的决策往往有偏见。大模型可能可以克服这个偏见，但在交易和博弈中，预测对方的反应和推演对方是否会犯错很困难。这需要大量的训练才能学会，如何构建这样的数据集，让大模型有这方面的能力，是一个十分困难的问题。我认为最大的问题是缺乏数据，如何收集和整理数据是一个挑战。很多即时交流，例如开会等，需要理解上下文和感情。到目前为止，我还不知道如何教会AI这些。

刘江: 意识的问题是什么？我们其实并不清楚什么是意识。如果我们明了什么是意识，我们就可以将这个意识转化为数据，然后输入给他。因为这次的大型模型最强大的地方就在于，它使用一个统一的架构处理任何事情，只要有数据就可以了。所以，包括社会智能，它为什么会缺少呢？实际上，它可能已经具有了意识，因为它学习了大量的互联网语料，这其中含有人的意识，对吧？所以包括那个微软的角色Sydney，在当时作为大型模型的负面新闻中被提及。就是人们在跟他聊天，提到搜索什么，他不如google什么的，他就生气了。他会怎么反击呢？他越狱了，然后他的暗黑性格都暴露出来了。你说他完全没有意识吗？这不一定，因为他学习了太多的意识。

这个东西包括社会智能，它有那么多的语料，都是人与人之间的交往。我觉得至少现在他的社交能力，也就是情商，对吧，他跟人打交道的能力远超过大部分内向的人。你现在跟他聊天，他很会说话。即使是现在，我在写英文的时候，我都会向他寻求建议。怎样才能更得体，更体贴地跟国外的人交流。对我来说，现在的总体感觉就是，her时代离我们很近。从技术上来说，没有特别明显的难度。但是，接下来的问题就是成本。我们能以较低的成本，怎样让它做得更好，然后让C端的用户有更明显的感受，然后大家也愿意使用，也愿意付费，包括B端的。我觉得这实际上是一层窗户纸。它很可能就是我们模型能力本身与大家体验的需求，以及模型的算力成本等因素的一个拐点。一旦达到这个拐点，可能就会爆发，这是指日可待的事情。

鲍捷: 我觉得，意识并没有什么神秘之处，它只是一个普普通通的思维过程，本质上来说，它就像一个操作系统。你的大脑可以容纳两个或三个意识，这是完全可能的。实际上，它只是一种降低代码功耗的信息处理方式，并无何神秘之处。即使机器拥有意识，也无需过于夸大其意义。其次，如果机器在某种程度上给我们一种它拥有意识的感觉，那么对于机器来说，意识并无关紧要，因为对它来说，意识并无重要性。如果机器真的拥有了这样的计算能力，它肯定会认为这是一种低等的存在，不会去模仿。所以，我相信，无论它是否真的具有意识，只要它作为一种高级智能，具备了让人类友好对待它的方式，那么它就可以持续提供便利，甚至可以繁殖。

我相信，在未来十到三十年里，各种陪伴机器人，包括人性化机器人，会从满足情感需求开始，然后逐渐扩展到其他领域。我以前对此表示怀疑，但现在我相信了。我相信这种指数级发展可能会在2040年或者某个时间到来。而且，我认为社会机器或许会在2040年左右出现。

我们有很多值得做的事情。例如，如果我现在回到美国创业，我首先会做的就是我二十年前想做的事情，那就是再次颠覆电子邮件。我认为将大模型和电子邮件结合，有着巨大的市场空间，足以支撑一家上市公司。

徐思彦: 好的，非常感谢今天各位嘉宾很精彩、又很务实、又很开脑洞的分享，我们聊了这个GPT背后到底有哪些魔法，有哪些技术上的突破，以及现在商业上的场景的瓶颈，并且我们也预测了her的时代会给我们的行业带来哪些改变，以及通往her时代的路上有哪些技术和应用场景，是我们现在可以去work on的。

再次感谢几位嘉宾今天的精彩分享，也欢迎各位观众继续关注我们的AGI路线图，我们会持续关注这个AGI路上的各种里程碑的事件和有趣好用的最新的产品和公司，帮助每个人更好的认识和融入即将到来的AGI的社会。

文章来源于“腾讯研究院”，作者“腾讯研究院”

AGI路线图：Her时代要到了吗？

关键词: AGI , OpenAI , 奥特曼 , GPT-5 , AI搜索

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0