ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
「代理人战争」!微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱
8500点击    2024-05-05 19:55

大模型发展至今早已火成了一个「概念」。


不管是学术界还是工业界,都要套上一层LLM的皮,方可彰显自己位于浪潮之巅。


但是,搞AI的公司赚到钱了吗?或者说应该怎样赚钱?



大家或许容易想到文生图、云服务等,但是微软、OpenAI 、谷歌、Meta等科技大厂,纷纷瞄准了另一个赛道:Agent。


相比于千亿参数、万块显卡、为自家冲榜的大模型,或者每秒几百个token的超级芯片集群,再或者栩栩如生、以假乱真的AI视频,


Agent似乎显得朴实无华。


但是,对于商业公司来说,与其玩得遍地开花,不如赶紧搞钱才是王道!


当泡沫逐渐冷却,不管是投资人还是用户,最终都要关注自己的投入是否能够值回票价。



仰望星空固然浪漫,但你得像马老板一样,先把电动车的钱赚了,再去收推特、炸火箭。


抓紧变现


目前,许多企业对当前的大模型并不买账,——归根结底,AI要能给我带来效益才行。


虽然这愁坏了微软、OpenAI和谷歌等人工智能供应商,但这也说明了,这里很可能有一片蓝海!


于是大家竞相推出新功能,让LLM变得更加有用,尤其是在几乎不需要客户指导的情况下,处理复杂的任务。



这就是Agent,让企业能够产生依赖的Agent,让大公司能够继续有动力烧钱的Agent。


大型数据库提供商MongoDB的首席执行官Dev Ittycheria表示,Mongo的员工和客户都在等待更好的功能,然后才会在人工智能上投入巨资,「Agent工作流将是下一个重大突破」。


OpenAI


OpenAI正在悄悄地设计能够接管计算机的Agent,——就像钢铁侠的AI助手「贾维斯」(Jarvis)一样。


它可以同时操作不同的应用程序,例如将数据从文件传输到电子表格,或者自动为你制作下一次会议所需的PPT。



再比如,让ChatGPT帮你写作业,它会打开浏览器、搜索分析信息、撰写论文,最后使用打印机帮你打印出来。


另外,OpenAI和Meta还在开发另一类Agent,它们可以处理复杂的网络任务,比如创建行程并预订旅行住宿等。


OpenAI的爸爸


据现员工透露,微软正在开发新的Agent来自动执行多种操作,比如根据客户的订单历史记录创建、发送和跟踪客户发票,或者用不同的语言重写应用程序的代码,并验证其是否按预期运行。


新的Agent将采用OpenAI的技术,并用于改进微软的Copilot套件。



知情人士表示,微软计划在下个月举行的年度Build开发者大会上宣布其中一些功能。


Meta


随着Llama 3的重磅发布,Meta终于重回开源LLM的王座,而新的模型能力也已经被用于Meta的AI助手。


不久前,Meta推出了全新的AI系统,小扎称其为「你可以自由使用的最智能的AI助手」,也就是新一代的Agent。



Facebook的在线帮助页面显示,如果受到邀请,或者有人在帖子中提出问题,但一小时内没有人回复,Meta AI Agent将加入群组对话(管理员可以将其关闭)。


不过Meta的这个Agent过于自主,没事就进个群聊几句,还不时给大家伙提提建议,导致部分用户感到「困惑」。


比如Agent为了跟「妈妈群」中的用户建立联系,便表示自己在纽约市学区,有一个孩子......


谷歌


谷歌的核心人工智能团队DeepMind也在开发能解决复杂任务的AI Agent。


目前在谷歌DeepMind工作的Anmol Gulati,曾与他人共同创办了一家名为Adept的初创公司,专门开发使用计算机的Agent。



据知情人士透露,Adept公司已经筹集了4亿多美元,将在今年夏天推出自己的Agent。


Adept公司首席执行官David Luan表示,Adept公司从零开始构建人工智能,并利用人们在电脑上工作的视频对其进行训练(制作Excel表格等)。


Adept的人工智能模型可以像人一样在电脑上进行操作,比如浏览网页在Redfin上找房子,或者在客户关系管理系统中记录电话。


Agent 到底行不行?


随着Agent也成了一个概念,大公司们有时会扩大并淡化了Agent的定义。


比如,有些公司发布的Agent,实际上只是ChatGPT这种对话式聊天机器人的不同版本,但经过训练后可以处理特定任务,它们并不是我们理想中的Agent。


另外,虽然一些可用的Agent能够列出需要完成的任务清单,但它们的执行却时好时坏,很容易陷入动作循环。


慢慢来


其实技术的进步嘛,大部分都是循序渐进的,没必要急着肯定或者否定。


据一位微软员工透露,今年早些时候,微软云计算和人工智能执行副总裁Scott Guthrie组建了一个新团队,专门为Copilot产品开发Agent功能。



比如在面向销售人员的Dynamics应用程序中,主动建议可以采取的多步骤行动。


再比如,可以检测到企业客户尚未完成的大额产品订单,起草发票,并询问企业是否愿意将发票发送给下订单的客户。之后,Agent可以自动跟踪客户的回复和付款情况,并将其记录到公司的系统中。


另外,微软研究部门负责人Peter Lee曾领导探索如何构建更复杂的Agent,不过防止Agent「叛变」,误删用户设备上的文件或执行其他有害操作是个难题。


GitHub Copilot


程序员很可能是第一批体验高级Agent的专业人士,比如GitHub Copilot的代码推荐功能。


GitHub首席执行官Thomas Dohmke表示,在未来一年里,GitHub Copilot将做得更多,Agent将能够审查用户提出的问题,给出修复计划,并自动编写和运行代码。



高校出马


除了工业界,学术界也看准了Agent这片蓝海,而主要原因还是Agent能确实地提高LLM的能力,并解决复杂的问题。


最近的两项进展可以帮助人工智能提供商,开发出用途更广泛的Agent。


第一项进展来自合成数据。


UC伯克利计算机科学教授Ion Stoica表示,开发人员在使用LLM生成合成数据方面已经有了长足的进步,而这些数据可以用来训练其他模型。


这对代码生成尤其有帮助,开发人员可以指导模型在一组参数范围内创建并解决问题。



第二项进展是在一个名为grounding的领域:建立人工智能模型的过程可以自动验证另一个模型的输出是否有效,例如测试模型生成的代码是否正确地解决了手头的问题。


Ion Stoica表示,未来一年,我们将看到模型解决问题和推理的能力大幅提升,如果能够自动验证输出是否有效,那么就可以利用LLM本身来改进输出。


MIT


下面浅浅看一篇今年ICLR的工作:


来自MIT和华盛顿大学(University of Washington)的研究人员开发了一个框架,可以根据人类或Agent的计算约束,对非理性或次优行为进行建模。这项技术可以帮助预测Agent的未来行动。



——对人类行为进行建模,是构建能够真正帮助人类的Agent的重要一步。


在有限理性的标准模型中,次优决策是通过向最优决策添加同方差噪声来模拟的,而不是显式模拟约束推理。


在这项工作中,研究人员引入了一个潜在推理预算模型(L-IBM),该模型通过控制迭代推理算法运行时的潜在变量(与目标模型共同推断),显式地对Agent的计算约束进行建模。L-IBM 可以使用来自不同次优参与者群体的数据来学习代理模型。


CMU


另一篇来自CMU、NVIDIA、微软和波士顿大学的论文介绍了AgentKit:一种使用自然语言构建AI Agent的机器学习框架。



Agent设计中一个普遍存在的问题是对复杂编程技术的依赖。


通常情况下,Agent是使用代码密集型方法构建的,需要深入熟悉特定的API,而这种方法可能会扼杀创新和灵活性,限制Agent在专业领域之外的潜在应用。


而AgentKit采用基于图的设计,其中每个节点表示由语言提示定义的子任务。这种结构允许直观地将复杂的行为拼凑在一起,从而增强了用户可访问性和系统灵活性。


本文来自微信公众号“新智元”









关键词: OpenAI , chatGPT , Meta , AI , Agent , 智能体
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md