很多小伙伴都在使用 AI 搭配 workflow 来完成各种事情。
但是呢,要让这些 AI 真正地协同工作,我们要花超多时间来写指令、调试程序 ╮(╯▽╰)╭ 好麻烦啊!
这也是很多公司都在招募 Prompt Engineer(提示词工程师)来处理这些繁琐的工作的原因。
不过,现在 workflow 也有了自己的智能助手啦!
MetaGPT 开源的 AFLOW 可以完全自动地构建和优化 workflow 了!
AFlow 论文共同第一作者为香港科技大学(广州)的博士生张佳钇和 DeepWisdom 研究员向劲宇(特工鲸鱼)。
共同通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖(MetaGPT 代码作者、论文通讯作者)和香港科技大学(广州)的助理教授骆昱宇。
作者还包括中国人民大学的于兆洋、滕枫蔚和程信,南京大学 LAMDA 实验室博士生陈雄辉,复旦大学的陈家祺和郑炳南,阿卜杜拉国王科技大学的博士生诸葛鸣晨(MetaGPT 论文共同一作), DeepWisdom 研究员洪思睿(MetaGPT 论文共同一作)和王金淋,蒙特利尔大学与 MILA 实验室的助理教授刘邦。
论文地址:https://arxiv.org/abs/2410.10762
项目地址:https://github.com/geekan/MetaGPT/tree/main/examples/aflow
由于鲸鱼就是这次工作的共同一作,下面就让鲸鱼以第一人称给大家介绍一下这是个什么东东。
技术小白也别担心,鲸鱼在中间写了很多有趣的小故事方便理解~
有了 AI 编排工作流之后,是不是意味着以后不用手写代码、调试提示词,而且效果还能比手动构建的更好?别着急,让我们慢慢道来。
我们都知道啊,想要用自动生成的方式搞定一个好的 workflow,经常还是需要人工在半路上插手干预。
( •́ _ •̀)?而且,生成的 workflow 往往很难同时满足“复杂性”和“有效性”这两个要求。有时候看起来超酷超复杂的 workflow,实际效果却糟糕透顶,还特别难维护!
但是呢,如果选择一个简单的 workflow,我们又都清楚它的效果上限远不止于此...
因此,AFLOW 要解决的问题,就是把这个琐碎复杂的过程交给 AI.
Prompt需要调整?交给 AFLOW!
代码需要调整?交给 AFLOW!
查找优秀的结果?交给 AFLOW!
你只管摸鱼,剩下的就交给 AFLOW 和时间(●'◡'●)
AFLOW 的目标是在特定的任务下,找到一个最佳表现的工作流,这些任务可能是求解数学题,根据需求完成代码或者是从一个长上下文中进行多步的推理。
但是呢~无论是哪一类问题,它们的优化起始点都应该是没有工作流,这样的目的是所有问题的起点都可以归于一个状态,这样我们无需由于更换问题类型和原因而担心起始状态的配置。
随后,AFLOW 通过 MCTS(一种搜索算法)的四个主要步骤进行迭代:选择、扩展、评估和反向传播。这样,它能持续不断地迭代,优化工作流。
接下来,我们把 AFLOW 的优化过程,想象成在研究一道新的美食,需要一步步调配食材,AFLOW 也在不断调整 workflow,直到做出最美味的结果。
1. 回忆选择阶段(选择)
AFLOW 每一轮迭代开始时,都会翻翻自己的食谱笔记本(认真脸)。“今天要做什么美食呢?”一边回忆着之前成功的配方,一边也充满好奇地张望着没试过的新食材(〃'▽'〃)。
有时它会选择最拿手的招牌菜,有时又会大胆尝试全新的配方。在熟悉与创新中寻找最完美的味道!
2. 美味创新阶段(扩展)
有了主意后,AFLOW 就会进厨房啦!以回忆起的某个版本美食为基础创新。“这道菜也许可以加点新香料~”, “这个酱料再调整一下~”。
3. 品鉴评定阶段(评估)
端出新出炉的美食后,AFLOW 会特别认真地品尝每一口。要确认味道是否美味,还要看看火候是否恰到好处,摆盘是否精致。
4. 经验积累阶段(反向传播)
每次烹饪后,AFLOW 都会仔细记录这次的心得,“这道菜的火候要小一些更好”、“那个配料的比例可以再高一点”...像写食评一样详细记录,为下一次的创新积累经验。
渐渐地,它的美食笔记本就会变得越来越厚,厨艺也会越来越精湛!(经验积累的过程)
1. 显著的性能优势
在评估时,我们也需要让 AFLOW 参加各种的美食大赛(在不同 Benchmark 上跑测)与其它制作美食的方法进行比拼。
比赛分成三个美食组别:
🍝 代码美食组(考验基础厨艺的 HumanEval 杯和进阶技巧的 MBPP 杯)
🧮 数学美食组(需要精确计算的 GSM8K 杯和高难度的 MATH 杯)
📚 知识美食组(考验综合能力的 HotpotQA 杯和创新能力的 DROP 杯)
(◍•ᴗ•◍) 比赛成绩超级棒哦!
1. 比其他人类手动烹饪的分数平均高出 5.7 分!
2. 比其它机器人做菜的方法更是高出了 19.5 分!
最厉害的是,在所有六个比赛项目里,AFLOW 都拿到了特别好的成绩,不管是简单的家常菜,还是复杂的创新料理,都完成得特别出色!
2. 显著成本降低
之前大家都觉得要做出米其林级别的美食,一定要去请最厉害的厨师(像 GPT-4o 这样的大模型)。
但是!AFLOW 发现了一个超厉害的省钱秘诀。
只要掌握了完美的烹饪工作流,去找一个普通的厨师(像是gpt-4o-mini)也能做出一样美味的料理呢!而且...
✨只需要花以前 4.55% 的钱✨
这样一来,不管是小餐厅还是大饭店,都能用平价食材做出超级美味的菜啦!
3. 自动化的效率提升
AFLOW 彻底改变了传统的人工调试模式!通过自动化的工作流生成与优化机制,让我们不必再在电脑前苦苦等待,开发者也不再需要花费大量时间进行反复调试和优化,系统能够自动发现最优的工作流组合,大幅缩短了开发周期。
回到我们最初的问题,这个工作是否代表未来我们再也不需要设计 workflow?
特工鲸鱼觉得答案是否定的,至少短期内还没有那么快。
为什么这样说呢?
人类在设计工作流时,往往没有明确的反馈,我们在靠着自己的创意设计不同的工作流,例如文案的生成,图像生成或者是一些搜索工作流,这些任务并不像算算术,写代码有明确的“正确”和“错误”的反馈,它更多来自于我们人类的经验和对世界的理解与认知,这些领域都是 AFLOW 还未解决的问题,即在没有明确反馈信息的任务上自动优化。
值得欣喜的是,虽然从学术领域的有效转向落地还需要一定的时间,上面的问题也还需要解决,但这个过程来的不会太慢。
我们已经将代码开源,并且我们相信如果 AFLOW 作为一个 Agent 能设计迭代一个新的 Agent,在我们的进一步优化下,也许 AFLOW 可以实现设计和迭代自己,达到“自我进化”的最终目标。
项目地址:https://github.com/geekan/MetaGPT/tree/main/examples/aflow
最后放一个腾讯元宝 AI 总结生成的海报!
文章来自于微信公众号“特工宇宙”,作者“特工鲸鱼”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0