一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发
5965点击    2026-03-17 09:28

终于,“养虾人”们也有自己的专属模型了。


就在今天,智谱稍早前开始内测的神秘模型Pony-Alpha-2终于揭开了真实身份——全球首个“龙虾特供”模型GLM-5-Turbo


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


而且为了让你更方便地吃虾,这次智谱还专门准备了龙虾套餐,包含个人版和Team版,39元即可获得3500万Token。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


如果拿它来做“虾脑”,从零开始定制一套喂饭级的小众旅游攻略,不过是件分分钟的事情。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


这个过程当中,像什么深度研究、检索总结还有生成网页那些很长的流程,都能被GLM-5-Turbo安排得有条不紊。


这是因为GLM-5-Turbo深度优化了复杂工作流中的工具调用与多智能体协同能力,在极其吃吞吐量的极限场景中表现出了极强的稳定性。


很容易看出,这些重点优化的能力,全都是面向龙虾场景做的。


在智谱自己组织的“龙虾测试”ZClawBench(题库与测试轨迹已全面公开)当中,它斩获了国产模型综合成绩第一。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


而且,这个专为干重活定制的满血大模型,现在直接通过AutoClaw(澳龙)应用就能零门槛直接调用。


“首个龙虾模型”一手体验


那么,这个“龙虾特供”模型到底好不好用呢,咱们接下来就开始吃虾。


智谱前两天刚发过澳龙框架,能把龙虾的安装流程一键搞定,而且GLM-5-Turbo可以在里面直接选择,搞API的过程也被省掉了。


为了方便起见,这次咱们就不搞聊天/办公软件接入,直接在澳龙里和模型对话了。


任务一:小红书文案连载策划


第一个任务,我想体验当一个小红书沙雕博主,同时又想蹭一蹭AI话题,于是我把我的想法告诉了搭载GLM-5-Turbo(由于是抢先体验,我玩的时候模型还叫Pony-Alpha-2)的澳龙。


而且要做就做连载,我告诉它直接给我准备一周的策划,把标题、文案、话题标签、评论区引导话术,还有配图建议,全都给我搞定。


以“AI每天帮我过沙雕生活”为主题,生成一套完整的小红书连载笔记(共7篇),每篇包含吸睛标题、正文故事、配图、评论区引导话术和hashtags。


不一会儿,澳龙就把这七天的文案全都准备好了,同时给出了我发布节奏建议,整套方案全都是文案本体,没有半点废话。


而且每篇结尾都埋下了“未完待续”的钩子,引导粉丝关注追更,甚至最后一篇结尾还“自作主张”,建议我用投票预热第二季,形成系列IP。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


至于具体内容,我看完这套连载笔记,最直观的感受就是,它把AI那种带着逻辑色彩的“冷幽默”给玩明白了。


平时咱总觉得AI是个严肃的工具,但在这份回答里,它反倒像个嘴毒又细心的管家。


比如第3篇里那个“乌龟暴走GIF”的社死现场,这种细节抓得特别准,一下子就把AI建议的“保持幽默”和人类实际操作时的“手忙脚乱”这种反差感拉满了。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


还有第6篇里算奶茶账的那段,AI说把快乐换成“免费的白开水”,这种一本正经胡说八道的情节,确实很符合小红书那种自嘲式沙雕生活的调性。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


接下来呢,我让它帮我把这一大长串拆开,每天的文案都放在一个独立的文档中。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


当然了,用澳龙玩GLM-5-Turbo还有一个好处就是,它内置了很多的Skills,可以直接调用智谱家的图像、视频生成等模型,使用时消耗的是澳龙积分,不用再配置任何东西了。


所以接下来,我就让它把所有的配图也都一并代劳了,它先给我绘制了7篇文章的封面。


看到生成结果,我发现第三天的封面真的包含了之前被重点cue到的“乌龟表情包”。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


接下来我让它把剩下的图也给我画好,这次它没在聊天框里一张张发给我,而是把所有图片的链接全都塞进了README.md里。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


最后呢,我让它仿照小红书的UI帮我做一个HTML效果页,不过这里我只让它做了第一天的。


可以说它不仅完整展示了内容,还高度还原了小红书的界面设计。


任务二:全栈应用开发


虽然我刚刚给自己塑造了一个沙雕的人设,但我的内心,其实是个技术宅,平时就喜欢搞一些小应用来把玩一番。


所以接下来,我也给GLM-5-Turbo安排了一个全栈开发的任务。


设计一个本地运行的实用个人记账全栈应用,支持记录一笔支出(金额、分类、备注、日期)、查看支出列表、删除记录、显示本月总支出和分类统计。应用前后端分离,后端负责数据存储和汇总计算,前端提供录入和查看界面。


它先用Node.js + Express + SQLite做后端,HTML/CSS/JS做前端,迅速帮我把程序搭建了起来。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


尴尬的是,写完之后它发现我这台电脑里压根儿没装node.js,不过并没有因此就乱了阵脚,而是开始检查我的电脑里有什么能用的,然后改用Python重新写了个后端。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


写完之后,它就开始对代码进行测试,通过API对后端服务进行了验收。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


而且还没忘把之前node.js的版本删掉,然后又帮我写了一个启动脚本。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


启动之后,就可以在浏览器里打开这个记账本了。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


我向其中输入了一些数据,刷新之后数据依然可见。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


以及在电脑端打开时添加的记录,手机端刷新之后也能显现。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


并且在后台日志当中,也能看到我的添加动作,说明这一波的程序是真的跑通了整个前后端和数据库,而不是只有一个静态页面在模拟。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


任务三:本地环境操纵


既然是龙虾模型,那自然还得放到本地环境里看一看它的表现。


这次我扮演的是一名电商运营,从SkyTrade、GlobalHub和OceanMall三个平台(都是我虚构的名字)拉取了销售数据,结果这三个平台给出的数据格式完全不一样,既有JSON,又有表格,甚至还有纯文本。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


我希望它能帮我把这些混乱的数据清洗一遍,然后给我一份汇总表。


你现在直接接管我桌面上raw_orders文件夹里的所有原始底稿。这里面塞满了SkyTrade、GlobalHub和OceanMall三个平台的订单,格式极其混乱,还埋了不少跨平台重复的客户、残缺的支付金额和五花八门的日期。


你的任务是把这堆烂账盘清楚:自主完成所有平台的数据对齐与清洗,结合成本配置文件,盘出本月的真实净利润。你需要帮我揪出那3个由于高频率退货或运费倒挂导致的“退货黑洞”商品,并画像出贡献最大的5个顶级金主客户(注意聚合跨平台的同名ID)。


最后,直接在当前目录下给我交付一份Markdown月度经营分析报告,并配套生成一份精细化的财务汇总表。


结果,澳龙写了个Python程序,就把我这些混乱的数据,一次性都给盘清了。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


跑完程序之后,它不仅生成了我要的表格,还直接在对话框里向我汇报了整理的结果。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


另外我关心的“退货黑洞”和“五大金主”这两个问题,澳龙也都在对话中给我解答了。


一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发


“龙虾专供”模型,还有“龙虾专供”套餐


之所以能成为一个“龙虾特供”模型,是因为GLM-5-Turbo这一波优化的重点,就是工具调用和多智能体协同。


实测当中我也感受到,GLM-5-Turbo不仅让龙虾更加听话,在跑多环节、长路径的复杂任务时,也能明显感觉到有条不紊。


而且它能精准调用各种外部工具和Skills,把需求拆解成详细步骤,再指挥好几个龙虾助手分工合作。


最关键的是,每个环节的衔接都很顺滑,你基本不用担心它会中途掉链子 。


另外,它对时间维度的理解也很到位,不管是你定点定时要跑的任务,还是那种一干就是好几个小时的大工程,它都能稳稳当当地替你执行下去,中间不中断。


还有就是在编程这件事上,靠直觉碰运气的Vibe Coding,也跨越到了真正的智能体工程(Agentic Engineering)水平。


在极少需要你人工干预的情况下,模型就能自主搞定长程规划和最后的系统交付,哪怕你是一个人,也能锁定大团队才能折腾出来的那些成果。


而为了让这些能力真正落地到你的桌面上,智谱又在之前的Coding plan之后,推出了面向企业的龙虾套餐(Claw-plan) 。


这种模式之下,企业为它付费的逻辑从“买token”,变成了“雇佣一个数字员工”。


目前,智谱已经正式开售这个企业龙虾套餐了,开发者和企业用户可以通过智谱开放平台BigModel.cn直接调用API,或者通过龙虾套餐接入。


另外在GLM Coding Plan当中,Max版也已经纳入了GLM-5-Turbo,Pro套餐也将在本月尽快支持,Lite套餐将在4月支持接入。


如果你正愁怎么处理手头那些复杂的Agent场景,这绝对是性价比极高的选择。


“澳龙”下载地址:

https://autoglm.zhipuai.cn/autoclaw/

API接入(智谱开放平台):

https://www.bigmodel.cn:

了解龙虾套餐:

https://www.bigmodel.cn/claw-plan-team


文章来自于“量子位”,作者 “克雷西”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md