ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
吴恩达,对 Agentic Workflow 持续兴奋
5669点击    2024-09-06 11:48


继吴恩达在今年 4 月红杉 AI 峰会演讲过去之后,Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)。


又做了两三次演讲/访谈,其中无不例外都着重提到了 Agentic Workflow.


吴恩达教授此前也开源了一个 Translation-Agent.


https://github.com/andrewyng/translation-agent


包括最近也做了一个新的 Vision-Agent.


https://github.com/landing-ai/vision-agent


吴恩达教授也与 ARK Invest 展开了一次对谈,以下是提炼出的关键观点。


对 AI 未来的能力十分乐观


Gen AI 和 LLM 受到广泛关注,可以完成的任务将远超目前的实际应用。人工智能作为一种通用技术,已经取得了很大的进步,有些进步只是刚刚出现,在不久的将来,我们可以用 AI 完成的任务会迅速增长。


GPU 和推理能力是 AI 应用落地的一个瓶颈,但这个问题会得到解决。无论是 GPU 还是其他类型的硬件,都有非常强大的经济上的动力来解决供应问题。现阶段一些有想法的、做了产品原型的、想做有不错的 ROI 的应用的人,会受限于高昂的 GPU 或 token 成本,落地时会受到一些阻碍。


有很多好的、相当可行的想法可以驱动 ROI,并且有信心各类问题在未来一两年内会得到解决。会有更多有价值的人工智能项目落地,因为应用瓶颈如 GPU 之后会被供应解决。


随着芯片供应链的改善和更好的芯片上线投入使用,AI 的训练和推理成本将会降低,如 ARK 机构的报告中估计,训练价格每年下降 75%,推理价格每年下降 86%。训练和推理成本的下降反过来又会带来进一步的创新。


未来几年 AI 的应用将会增加很多,新技术也正在积累。现在拥有的能力实际上还没有真正应用到商业市场,如果证明能在商业市场跑得通,那么会大大提高 AI 应用开发的生产力,而模型架构上的改进会带来更多性能上的进步。


自然语言的革命先出现在大语言模型中,图像处理革命会晚一点出现,这些革命性不仅在于生成,更在于分析。在接下来的几年里,我们将看到 AI 不仅在分析文本方面,而且在分析图像方面会取得很大进展。


我们需要明确 AI 能做什么和不能做什么。AI 是一种通用的技术,适用于各行各业,如医疗、金融、物流、教育等,我们不能同时成为所有应用领域的专家,需要与熟悉行业 know-how 的专家合作。凭借人工智能方面的通用技术知识和在特定行业领域的专业知识,我们将共同构建一些非常独特的东西。


人们用 AI 做了很多工业自动化和重复性工作,能更快速帮助许多企业重新思考他们的工作流,AI 无疑正在改变许多知识工作,今天每个知识工作者都可以通过使用生成式 AI,用更好的工具提供更多选择,取得更好的发展


人工智能与人类智能是不同的,两者都很有价值。我们一直在努力将人工智能与人类智能进行比较,这没什么不好,但由于人类智能如此不同,实际上很难让 AI 做到人类所能做的一切,当然我们尝试让 AI 做到这一点。


看好 Agentic Workflow


拿写文章做类比。例如和另一个人说:“想让你为我写一篇关于给定主题的文章,需要一次性打字从头到尾”,虽然人们可以这样写,但实际上我们没有用这种方式写出很好的作品。


但是,我们可以用工作流来做更好的思考和写作,如从大纲、到研究、初稿、批判等,这是一个迭代的过程,这一系列迭代的工作流可以让我们自己更好的工作产品。


Agentic Workflow 能做到完成拆解的各任务环节,我们已经看到许多具有 Agentic Workflow 的 AI 应用的准确性有了巨大提高。同样,工作流的瓶颈之一也在于推理能力,因为用户使用产品需要反复调用 LLM,所以我们需要更快的推理能力来实现预期效果。


AI Agent 具备自我批判能力,在工作流中可以检查步骤,然后修正自己的错误


吴恩达举了个例子,之前做过一个在线写调研报告的 Agent,某次在斯坦福大学给一个小组做演示,不知什么原因,那次调用网页搜索失败了,可能是 API 调用错误;但是这个 Agent 发现调用网络搜索失败之后,转而去用维基百科搜索代替。


其实他本人都忘了自己给 Agent 做了联网搜索和维基百科搜索的能力,而这个编写出的 Agent 足够聪明,当网络搜索失败时,它转向维基百科搜索,然后成功完成那次 demo。


AI Agent 也许也会出错、有缺陷,但当 Agentic Workflow 可能在某个步骤上出错时,它会发现是什么错误、自我批判修正,这会使它们更加稳健。AI Agent 在这方面就像人类一样,当我们做一些事情时,很多事情第一次都不起作用,但我们反思、批判和修复的能力,使人类的行动与思想更加强大。建立在当前模型基础上的 Agentic Workflow 可以让我们在做有商业价值的应用上取得很大进展。


快速推理的重要性


吴恩达认为是否有比 Transformer 更好的模型来支撑 Agent 的工作,可能不是绝对必要的,但如果有会更好,真正更重要的是快速推理和 token 快速生成


很多大公司都在花费巨额预算来购买 GPU 进行训练,这非常棒,为我们提供了大模型基础,包括闭源和开源模型。但是现在越来越多 AI 应用的瓶颈在于真正快速推理的能力。所以当 Meta 发布了 Llama-3-70B 开源模型时,如果我们能以 10 倍快的速度进行推理,就能让 Agent 运行得更快。


更快的 token 生成也是游戏规则的改变,可以显著提升用户体验,让用户在 2 分钟或 1 分钟内得到结果,而不再需要 20 分钟或 25 分钟。这就是为什么到目前为止,更多的工作是应当做在真正快速生成便宜的 token 上。


这就是 Meta 正在做的,可以将更多信息压缩到更小参数的模型中,这样可以更快、更便宜地运行,从而可以减少延迟、减少推理成本,同时得到性能提升和成本下降。


做 AI 应用层相对于基础模型层的竞争激烈程度会更小一些。Gen AI 时代的一个精彩之处是开发成本比以前低得多,你可以在一天内建立一个引人注目的 demo,但要收集数据和评估效果可能需要更长的时间。


因此,AI 中的模型效果评估实际上是一个让人们不愿意切换模型的因素。不过有越来越多的人开始建立更好的模型评估方法,让人们更有效地从这些不同的模型中总结出经验。


而当各种模型的表现几乎没有区别时,在在这种情况下,开发者会选择成本最低的大模型供应商。更好的模型评估方法会让人们更有效地评估多个模型,然后从价格、性能、速度各方面考虑,选择最合适的模型来完成工作。


开源和闭源的思辨


吴恩达认为更多的开源会让世界变得更好,让很多人过得更好;闭源实际上是非常危险的,这不利于创新,不利于融入世界 LLM 的供应链中;开源带来的好处远大于闭源造成的伤害


反对开源的一方的观点包括,其他人利用开源分散了训练模型的非常昂贵投资的价值,大模型的开源会增加人工智能的不安全性,不利于国家安全;但我认为这些论点已经失去了实质性的可信度。


而我看到的一件有趣的事情是,开源是有利于全球人工智能供应链的,并且技术往往反映了一个国家下的开发者们的价值观。例如 Google Docs 的开放性是一种开放的价值观,端到端加密的消息是重视隐私的价值观。


如果民主国家不积极参与 LLM 供应链中,其他国家就会加入,我非常希望 LLM 能够反映民主的价值观。但开源带来的好处,例如,Llama-3 的原始版本是有限的上下文窗口长度,但由于它是开放的,开发者现在不断修改 Llama-3 的不足,并且从商业的角度来看是非常理性的。


Meta 确保其在 AI 生态系统中有一个开源基础模型,然后就可以在此基础上发展构建,就像 iOS 之于应用开发一样;相比之下,Meta 没有多少动力去保持其模型的专有性和售卖 API 调用。所以这是非常理性的商业活动。


参考来源


1. 视频:


https://www.youtube.com/watch?v=8lH1mUcxODw&t=987s


2. 播客:


https://open.spotify.com/episode/3Im5DtvSf5gr0JWPQFMLos


文章来源“特工宇宙”,作者“特工女巫”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
百科搜索

【开源免费】Semantic Search on Wikipedia是一个索引数百万维基百科文章的AI搜索引擎。该项目开源免费,通过维基百科数据创建了一个语义搜索引擎和一个RAG聊天机器人。

项目地址:https://github.com/upstash/wikipedia-semantic-search?tab=readme-ov-file

在线使用:https://wikipedia-semantic-search.vercel.app/