比尔·盖茨昨日发表一篇博客称:个人AI代理将彻底改变人们使用计算机的方式。这一言论出现在OpenAI刚刚宣布其“ Assistants API”迈出的“婴儿步”几天后。盖茨表示,个人AI代理将在科技行业和社会中掀起一场“冲击波”。
比尔·盖茨在博文中写道:“在不久的将来,任何上网的人都将能够拥有由人工智能驱动的个人助手,远远超越今天的技术水平。这些代理将能够帮助几乎任何活动和生活领域。这对软件业和社会的影响将是深远的。”
在博文中未提到的是,比尔·盖茨已经在个人AI领域投入了大量资金。在今年5月的一次与高盛和SV Angel关于人工智能的活动中,比尔·盖茨表示,首家开发出颠覆SEO的个人代理的公司将在竞争中占据优势。
“谁能赢得个人代理,那才是大事,因为你将永远不会再去搜索网站,永远不会再去生产力网站,你永远不会再去亚马逊。”他说道。
今年6月,比尔·盖茨与Nvidia、微软、Reid Hoffman和Eric Schmidt一起参与了Inflection AI的投资,该公司完成了高达13亿美元的融资。
比尔·盖茨在旧金山的一次活动上提到了Inflection AI,称“数字代理背后的AI赢家可能来自大科技公司或初创公司,这是一个50-50的概率”,并表示对Inflection等几家初创公司印象深刻。
此时,Inflection AI刚刚推出名为“Pi”的产品,代表“个人智能”,旨在表现得更个性化、口语化,比OpenAI的GPT-4、微软的Bing或谷歌的Bard更具亲和力,同时又不显得过于诡异。
尽管像Pi这样的聊天机器人离比尔·盖茨所想象的个人AI代理还有很长的路要走,而且他计划在这一领域进行哪些其他投资并不清楚,但显然,他希望能够尽早参与到AI代理的领域。实际上,比尔·盖茨在博文中提到,他已经“思考代理近30年了,并在1995年的《未来之路》一书中写到过它们,但由于AI的进步,它们直到最近才变得实际可行”。
他补充说:“代理不仅将改变每个人与计算机互动的方式。它们还将颠覆软件行业,带来自从我们从键盘输入命令到点击图标以来的计算机领域最大的革命。”
【以下是盖茨先生的博客原文】
AI即将彻底改变你使用计算机的方式
时至今日,我仍然像微软刚创立时那样热爱软件。但尽管几十年来软件已经取得了很大改进,在许多方面它仍然相当愚蠢。
要在电脑上完成任何任务,你都必须告诉设备使用哪个应用程序。你可以用Word和谷歌文档来起草商业提案,但它们无法帮助你发送邮件、分享自拍、分析数据、计划派对或购买电影票。即使是最好的网站,也只对你的工作、个人生活、兴趣和关系有不完整的理解,并且能力有限,无法像亲密的朋友或私人助理那样为你做事。
在未来五年内,这种情况将发生彻底改变。你不必再为不同的任务使用不同的应用程序。你只需要用日常语言告诉你的设备你想要做什么。根据你选择与它共享的信息量,软件将能够给出个性化的回应,因为它对你的生活有着深入的理解。在不久的将来,任何上网的人都能拥有一个由人工智能驱动的个人助理,其功能将远超今天的技术。
这种对自然语言做出反应、根据对用户的了解完成多种不同任务的软件,称为代理。我思考AI代理已经近30年,并在1995年的《通往未来之路》一书中写道,但由于AI的进步,它们直到最近才变得实用。
代理不仅将改变每个人与计算机交互的方式,还将颠覆软件行业,引发自我们从敲打命令转向点击图标以来计算机领域最大的革命。
每个人的个人助理
一些评论者指出,软件公司以前就提供过这种东西,用户并不完全接受。(人们还在开玩笑说Clippy,我们在Office中内置、后来移除的数字助手。)为何人们会使用代理呢?
答案是它们将大大优于过去。你将能够与它们进行细微的对话。它们会更加个性化,不会仅限于相对简单的任务,如写一封信件。Clippy与代理的共通点就像旋转电话与移动设备一样。
如果你愿意,代理将能帮助你完成所有活动。如果允许它跟踪你的在线交互和真实世界位置,它将对你参与的人、地点和活动形成强大的理解。它将了解你的个人和工作关系、爱好、偏好和时间表。你可以选择它在什么时候以及如何帮助你做某事或要求你做出决定。
要看到代理将带来的剧烈变化,我们来比较一下它们与当今可用的AI工具。大多数这些工具都是机器人。它们仅限于一个应用程序,通常仅在你写下特定单词或请求帮助时才会介入。因为它们不记住你每次的使用方式,所以它们不会变得更好,也不会学习你的任何偏好。Clippy是一个机器人,而不是代理。
代理更智能。它们是主动的——能在你请求之前提出建议。它们可以跨应用程序完成任务。随着时间的推移,它们会变得更好,因为它们会记住你的活动,并在你的行为中识别意图和模式。根据这些信息,它们会提供你认为需要的东西,尽管你始终做出最终决定。
假设你想计划一次旅行。旅游机器人将识别符合你预算的酒店。代理将知道你要旅行的时间,并根据它对你是否总是尝试新目的地还是喜欢重复返回同一地点的了解,它将能够建议地点。当被询问时,它将根据你的兴趣和冒险倾向推荐要做的事情,并预订你会喜欢的餐厅。如果你今天想要这种深度个性化的计划,你需要支付旅行代理人的费用,并花时间告诉他们你想要什么。
AI代理最激动人心的影响是它们将为大多数人民主化当今过于昂贵的服务。它们在四个领域将产生特别大的影响:医疗保健、教育、生产力和娱乐与购物。
医疗保健
如今,AI在医疗保健中的主要作用是帮助完成行政任务。例如,Abridge、Nuance DAX和Nabla Copilot可以在就诊期间录音,然后为医生写摘要进行审查。
真正的转变将发生在代理可以帮助患者进行基本的分类,就如何处理健康问题提供建议,并决定是否需要求诊时。这些代理还将帮助医护人员做出决定并提高工作效率。(例如,Glass Health应用可以分析患者摘要,并为医生考虑的诊断提供建议。)帮助患者和医护人员对那些从未看过医生的贫困国家尤其有益。
由于事关生死,这些临床医生代理要慢一些推出。人们需要看到证据表明,健康代理总体上是有益的,即使它们不会完美无缺并会出错。当然,人类也会出错,完全得不到医疗照顾也是一个问题。
美国有一半需要心理健康照顾的军人得不到照顾。
心理健康护理是代理将使几乎所有人都能使用的另一项服务。如今,每周一次的治疗看起来像奢侈品。但还存在很大的未满足需求,许多可以从治疗中受益的人无法获得治疗。例如,兰德公司发现,一半需要心理健康照顾的美国军人得不到照顾。
训练有素的心理健康AI代理将使治疗更加负担得起,更容易获得。Wysa和Youper就是这里的两个早期聊天机器人。但代理将走得更深入。如果你选择与心理健康代理分享足够的信息,它将理解你的生活历史和你的关系。它随时为你提供帮助,永远不会不耐烦。如果你允许的话,它甚至可以通过你的智能手表监测你的身体反应,比如当你谈到和老板的问题时心跳加速,然后建议你何时应该看人类治疗师。
教育
几十年来,我一直对软件将使教师的工作更轻松,帮助学生学习的所有方式感到兴奋。它不会取代教师,但会补充他们的工作,为学生提供个性化的学习材料,并让教师免于文书工作和其他任务,以便他们可以花更多时间在最重要的工作上。这些变化终于以戏剧性的方式开始发生。
当前的顶尖技术是可汗学院开发的基于文本的机器人Khanmigo。它可以辅导学生数学、科学和人文学科,例如,它可以解释二次函数公式并创建数学问题进行练习。它还可以帮助教师完成制定课程计划等事项。我长期以来一直是Sal Khan的粉丝和支持者,最近在我的播客节目中采访了他,讨论教育和AI。
但基于文本的机器人只是第一波,代理将开辟更多的学习机会。
例如,很少有家庭负担得起一对一聘请导师来补充学生的课堂学习。如果代理可以捕捉到导师的有效因素,它们将为每一个想要的学生解锁这种补充指导。如果一个辅导代理知道一个孩子喜欢Minecraft和Taylor Swift,它会用Minecraft来教他们计算形状的体积和面积,用Taylor的歌词教他们讲故事和押韵格式。与今天的基于文本的导师相比,体验将更丰富,比如具有图形和声音等。
生产力
这个领域已经存在很大竞争。微软正在将其Copilot整合到Word、Excel、Outlook和其他服务中。谷歌也在产品工具中做类似的事情,比如Assistant with Bard。这些Copilot可以做很多事情,比如把书面文档转化为幻灯片,用自然语言回答有关电子表格的问题,并从每个人的观点总结邮件线程。
代理将做得更多。拥有一个代理就像有一个专门帮助你完成各种任务的人,如果你愿意,它可以独立完成这些任务。如果你有一个商业创意,代理将帮助你写商业计划、为其创建演示文稿,甚至生成你的产品外观的图像。公司将能够将代理提供给员工直接咨询,并成为每个会议的一部分,以便它们可以回答问题。
无论你是否在办公室工作,你的代理都能像当今高管的私人助理那样帮助你。如果你的朋友刚做完手术,你的代理会主动提出发送花束,并能帮你订购。如果你告诉它你想和你的大学室友联系,它会与对方的代理配合,找到时间聚会,就在你到达之前,它会提醒你他们的大孩子刚进入当地大学。
娱乐与购物
AI已经可以帮助你挑选新电视,推荐电影、书籍、节目和播客。类似地,我投资的一家公司最近推出了Pix,你可以提出问题(“我会喜欢哪些罗伯特·雷德福德的电影,在哪里可以观看?”),然后根据你过去喜欢的内容提出建议。Spotify有一个由AI驱动的DJ,不仅会根据你的喜好播放歌曲,还会跟你说话,甚至可以叫出你的名字。
代理不会简单做出建议;它们会帮你采取行动。如果你想买个相机,你的代理会帮你阅读所有评论,为你总结,给出建议,然后在你做出决定后帮你下单。如果你告诉你的代理你想看《星球大战》,它会知道你是否订阅了正确的流媒体服务,如果没有,它会主动为你注册。如果你不知道自己想看什么,它会给出定制建议,然后搞定你选择的电影或节目的播放。
你还可以获得针对你兴趣定制的新闻和娱乐。CurioAI最近推出的关于你要求的任何主题的定制播客就是未来方向的一个预演。
技术行业的冲击波
简而言之,代理将能够帮助几乎所有活动和生活的各个领域。对软件业和社会的影响将是深远的。
在计算机行业,我们讨论平台,应用程序和服务建立在其上的技术。Android、iOS和Windows都是平台。代理将是下一个平台。
要创建新的应用程序或服务,你不需要知道如何编写代码或进行图形设计。你只需告诉你的代理你想要什么。它将能够编写代码、设计应用程序的外观和感觉、创建logo,并将应用程序发布到在线商店。OpenAI本周推出的GPTs提供了未来非开发者也可以轻松创建和共享自己的助理的预演。
代理将影响我们使用软件的方式以及编写方式。它们将取代搜索网站,因为它们在找到信息和为你总结方面更出色。它们将取代许多电商网站,因为它们会为你找到最佳价格,不会仅限于几家供应商。它们将取代文字处理器、电子表格和其他生产力应用。如今作为独立业务的搜索广告、社交网络广告、购物、生产力软件,都将成为一项业务。
我不认为任何一家公司将主导代理业务,将有许多不同的AI引擎可用。如今,代理嵌入到文字处理器和电子表格等其他软件中,但最终它们将独立运行。尽管一些代理可以免费使用(由广告支持),但我认为你会为大多数代理支付费用,这意味着公司会有动力让代理代表你而不是广告商工作。从今年刚刚开始研发AI的公司数量可以看出,竞争将异常激烈,这将使代理的价格非常低廉。
但是在我描述的复杂代理成为现实之前,我们需要面对关于这项技术及其使用方式的许多问题。我以前写过AI带来的问题,所以在这里我将具体关注代理。
技术挑战
还没有人弄明白代理的数据结构会是什么样子。要创建个性化代理,我们需要一种新型数据库,可以捕获你的所有兴趣和关系的细微差别并快速检索这些信息,同时保护你的隐私。我们已经看到了储存由机器学习模型生成的数据的新方法,比如向量数据库,这可能更适合存储代理数据。
另一个开放性问题是人们将与多少个代理互动。你的个人代理是否与你的治疗师代理和数学导师代理分开?如果是这样,你希望它们何时协同工作,何时应该各司其职?
你将如何与你的代理互动?公司正在探索各种选择,包括应用程序、眼镜、吊坠、胸针甚至全息图像。所有这些都有可能,但我认为人机交互的第一个重大突破将是耳机。如果你的代理需要与你联系,他们会与你通话或显示在你的手机上。(“你的航班延误了。你想等吗?或者我可以帮你重新预订吗?”)如果你愿意,它会监控进入你耳朵的声音,并通过阻挡背景噪音、放大难以听到的语音来增强声音,或者更容易理解口音很重的人说话。
还有其他挑战。目前还没有一个标准协议允许代理相互交谈。成本需要降低,以便每个人都能负担得起代理。需要更容易地向客服人员提示,以便为你1提供正确的答案。我们需要防止幻觉,特别是在健康等准确性非常重要的领域,并确保代理人不会因为偏见而伤害人们。我们不希望特工做他们不应该做的事情。(尽管我担心的不是流氓Agent,而是人类罪犯利用其来达到恶意目的。)
隐私和其他重大问题
当所有这些结合在一起时,在线隐私和安全问题将变得比现在更加紧迫。你将希望能够决定代理可以访问哪些信息,以便你确信您的数据仅与您选择的人员和公司共享。
但是谁拥有你与代理共享的数据,以及如何确保这些数据得到适当使用?没有人愿意开始收到与他们告诉治疗师代理人的事情相关的广告。执法部门可以使用你的代理人作为对你不利的证据吗?你的代理什么时候会拒绝做可能对你或其他人有害的事情?谁选择代理中内置的价值观?
其中许多问题已经成为科技行业和立法者最关心的问题。最近,我与其他技术领袖一起参加了由参议员查克·舒默 (Chuck Schumer) 组织、许多美国参议员参加的人工智能论坛。我们分享了有关这些问题和其他问题的想法,并讨论了立法者采取强有力立法的必要性。
但其他问题不会由公司和政府决定。例如,代理可能会影响我们与朋友和家人互动的方式。今天,你可以通过记住某人的生活细节(例如他们的生日)来向他们表明你关心他们。但是,当他们知道你的Agents可能提醒过你这件事并负责送花时,这对他们来说还有意义吗?
在遥远的未来,Agents甚至可能迫使人类面对关于目的的深刻问题。想象一下,代理变得如此优秀,以至于每个人都可以享受高质量的生活,而无需付出同样多的工作。在这样的未来,人们会用时间做什么?当代理拥有所有答案时,还会有人想接受教育吗?当大多数人都有大量空闲时间时,你能拥有一个安全、繁荣的社会吗?
但我们距离那个目标还有很长的路要走。与此同时,AI代理也来了。在接下来的几年里,它们将彻底改变我们的生活方式,无论是线上还是线下。
原文:https://www.gatesnotes.com/AI-agents
文章来自微信公众号 “ 三次方AIRX ”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI