LLM Agent 火了两年了,但业界仍然存在许多非共识。智能体数量卷上去了,概念炒上去了,但质量参差不齐,娱乐向的不好玩,提效向的不好用,具体企业落地更是各种大小问题不断。
Prompt 和智能体出现幻觉、效果不理想该如何高效调优?模型和 Agent 成本消耗如何监测?复杂需求无代码平台无法满足,现有 Agent 开源开发框架又不太好用?做 Workflow 还是通用 Agent?企业具体可以落地哪些场景?
而扣子于昨天(4 月 8 日)进行了一次品牌升级和产品更新,升级为一站式 AI Agent 开发工具。这次更新就很好的回答了以上这些行业痛点问题。我们去年一整年跟许多人聊过太多的畅想,其中真正有益的实践如今都在今天这个新版本扣子上体现了出来。
特工们最大的一个切身感受是,你可以永远相信扣子,他们真的听开发者声音。Agent 的开发与落地包含许多环节,如果这些环节看成一张拼图,扣子是最先把它拼齐的。
我们把这次升级的内容分成了三大更新和三个彩蛋,把这次接下来就让我们一起来盘点一下有哪些更新和彩蛋。
扣子推出扣子罗盘(CozeLoop),是新一代 AI 应用 DevOps 解决方案,面向专业 AI 开发者,提供一站式服务开发、协作、测试、部署和监控 AI 大模型应用。
啥意思呢?翻译成大白话就是,相当于把“开发、测试、运维”三个工程师合体,打包成了一个超好用的工具平台,从写 Prompt、调试、测试效果,到上线后出问题时怎么查、怎么优化,一条龙全包了。
就像程序员有 IDE、调试器、监控工具这些必备装备,搞 Agent 的人就可以用扣子罗盘来全流程搞定所有事儿。
开发 Agent,写 Prompt 是基本功。但是优化 Prompt 其实挺难的,要调试、对比效果、还得反复改。扣子罗盘的好处是:
有一个可视化界面,可以实时预览不同模型的回答效果;有 AI 帮你优化 Prompt,不用靠拍脑袋;所有改动都有历史记录,可以随时对比、还原,就像 Git 一样管理 Prompt 版本。
总之就是:Prompt 写得又快又稳,试错成本大大降低。
啥是评测(Evaluation)?啥又是观测(Observation)?举例来说,你开了一家餐厅,评测就像是顾客吃完饭之后打分:味道如何、上菜快不快、有没有踩雷。它是结果导向的,关注的是“成品质量”。观测就像是你在后厨装了一堆监控,能看到厨师做菜的每一步。它是过程导向的,关注的是“怎么做出来的”。
写完 Prompt,做好智能体,不知道效果好不好?就可以扣子罗盘的评测功能,它能:自动帮你打分,评估 AI 的回答是不是准确、合规、简洁;支持自定义数据集和评估标准,适合不同业务场景;每次测试的结果都会被详细记录,方便回头对比和分析。
扣子罗盘提供了一个 Demo 空间,可参考其构建的数据案例
以前更多“凭感觉”的测试,现在全靠数据说话,科学又靠谱。
Agent 上线之后,如果用户说“它回答错了”,如果没有很好的观测是容易一头雾水。
扣子罗盘的观测功能支持:能看到整个 AI 的工作流程:从用户输入,到 Prompt 解析、模型调用、再到调用工具,都有记录;出错的地方自动提示,还能看到每一步耗时、消耗多少 token;和主流开发框架(像 Langchain)也能打通,数据自动上报。
意味着可以像调试代码一样调试 AI 的整个决策链,出了问题马上能找到原因并优化,实现了从 “黑盒模型” 到 “透明决策” 的跨越。
相比于之前我们看到的一些评测和观测系统,扣子罗盘的功能更加全面易用。我们近一年在 AI 虚拟陪伴(让智能体更加符合人物设定,不出戏更能聊)以及 AI 生成营销内容(用 Agent 替我们做公众号、小红书,写 SEO 等)方向做了非常多的尝试,而它们的调优和问题溯源就很复杂,但有了扣子罗盘这样的工具之后,生产效率会大大提升!
绘制 by 特工宇宙,Powered by Napkin AI
扣子还推出了个 Eino 框架,Eino 是 Go AI 应用开发框架,提供了丰富的辅助 AI 应用开发的原子组件、集成组件、组件编排、切面扩展等能力,可以帮助开发者更加简单便捷地开发出架构清晰、易维护、高可用的 AI 应用。
快速开始:https://www.cloudwego.io/zh/docs/eino/overview/bytedance_eino_practice/
项目地址:https://github.com/cloudwego/eino
简单来说 Eino = 用 Go 写 AI 应用的全家桶 + 积木拼图系统 + 流处理引擎 + 调试运维工具箱。
Eino 的框架结构
我们看到 Eino 文档里的比喻介绍非常好,引用如下:
“开发基于大模型的软件应用,就像指挥一支足球队:组件是能力各异的队员,编排是灵活多变的战术,数据是流转的足球。Eino 是字节跳动开源的大模型应用开发框架,拥有稳定的内核,灵活的扩展性,完善的工具生态,可靠且易维护,背靠豆包、抖音等应用的丰富实践经验。初次使用 Eino,就像接手一支实力雄厚的足球队,即使教练是初出茅庐的潜力新人,也可以踢出高质量、有内容的比赛。”
由于时间和篇幅原因,后续我们会来详细测评 Eino 框架~最后放一个一图流介绍。
为满足不同用户群体的多样化开发需求,扣子全面升级订阅体系:
推出覆盖个人进阶、团队协作及企业级应用的多档订阅套餐,采用“包年包月 + 按量计费”的灵活计费模式。各套餐在功能权限和服务权益上存在差异,具体价格及权益内容请届时关注扣子官网获取最新信息。
智能体调用不再按次收费。无论是免费用户,还是升级后的个人进阶版、团队版或企业版用户,与智能体的文字交互将仅按所使用模型的 Token 消耗计费,无需额外支付调用费用。
详细规则可查看:https://www.coze.cn/premium
产品上的更新大抵就这些,下面是彩蛋环节!
首先,扣子这次还预告了将上线一个神秘产品!目前官方没有透露任何新产品的信息,但特工宇宙猜测应该与最近火热的通用 Agent、MCP 相关。
https://www.coze.cn/space-preview/
点击上面链接可以调整,填写邮箱可以预约。
第二个彩蛋是,官方文档里悄然上线了许多客户案例。
https://www.coze.cn/customers
让 AI 真正用起来!扣子已经和许多企业合作多场景落地 Agent 了,开发者或企业可以此作为参考。
第三个彩蛋!扣子将于 4 月 19 日在上海举办开发日-企业专场。
文章来自于“特工宇宙”,作者“特工少女”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0