任务成本仅为Claude Opus 4.6 1/9,阶跃Step 3.7 Flash刷新Flash模型效率

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
任务成本仅为Claude Opus 4.6 1/9,阶跃Step 3.7 Flash刷新Flash模型效率
9252点击    2026-06-02 11:58

1492 年,哥伦布驶向大西洋深处。远洋航行当然需要速度,但真正决定船队能否抵达彼岸的,是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的,正是这种并不浪漫的工程逻辑。


后来,荷兰人设计出「福禄特」商船:造价更低、船员更少、货舱更大,能在大西洋航线上稳定往返。远洋航行由此从冒险家的孤勇,变成一门可复制、可计算、可扩张的生意。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


今天的 AI 模型竞争,也走到了类似的十字路口。


过去,人们谈模型,习惯谈参数、榜单和峰值能力,但 APPSO 在使用 Claude Code、Codex 这类 coding agent 之后,明显感觉到当 AI Agent 开始走向生产环境,真正在乎的问题变得有些不一样了:能不能持续处理高频请求,能不能稳定调用工具,能不能理解复杂界面,能不能嵌入企业既有流程并长期运转。


这些问题的答案,往往不在跑分榜单里。


最近,阶跃星辰正式发布并开源 Step 3.7 Flash。作为面向生产级 Agent 的新一代 Flash 模型,它主要服务 Agent、Coding、Search 与多模态工作流。


它出现的时机,恰好踩在这个路口上。生产级 Agent 要的早就不只是快和便宜,更重要的是够可靠、够好用、够容易部署,还能在真实工作流里一天天产出结果。


Flash 模型,不再是旗舰的平替


过去,Flash 模型常被当成旗舰模型的轻量版,卖点无非就是快和便宜。但当 Agent 成为工作流的核心,Flash 模型的角色就变了。


如果模型在多轮任务中容易偏离目标,无论是企业还是个人都很难放心采用。相反,一个模型若能在速度、成本、工具调用、多模态理解和生态兼容之间取得平衡,才有机会成为 Agent 系统真正可依赖的基础能力。


某种意义上,Agent 时代要的 Flash 模型,已经从「更快的小模型」升级成了「生产效率最高的基座模型」。


它既要够得着旗舰模型的能力上限,又要扛得住大规模 Agent 调用的效率压力。Step 3.7 Flash 的定位,正是后者——新一代 Agentic 基座模型。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


而生产级 Agent 的第一道门槛,是理解真实工作环境。


大量 Agent 任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。只擅长文本问答的 Agent,很难真正处理这些任务。


Step 3.7 Flash 重点强化的,正是原生多模态理解与执行能力。它可以理解 UI、图表、文档、图片和应用界面,也可以在复杂视觉问题中自主裁剪、放大、重读图像。遇到信息不确定的情况,模型还能主动发起搜索,并对文本和图像信息进行交叉验证。


这里有个反直觉的设计思路。对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃反其道而行:权重里只留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度,用「多看几眼、多查几遍」去换「参数本来不够用」的那部分能力。


低延迟和高吞吐,到这里就不只是部署时的优势,直接变成了能力本身的一部分,巧妙且机智。比如在这个驾驶舱操作的演示中,用户只输入「如何起飞」,模型就会自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并生成分步骤教程。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


这里的重点不止在于它能识别一张驾驶舱图片,更关键的是,它能把一个密集、陌生、强依赖上下文的视觉环境,转换成一个人可以照着做的任务指引。


能看懂,和能教你动手,难度系数完全不一样。


我们还把 Step 3.7 Flash 接入了一套手机 GUI Agent 流程,并用一台 vivo 手机完成演示。


手机通过 USB 连接 Mac,打开 ADB 调试授权后,终端就可以获取手机当前截图,并通过 scrcpy 同步显示手机画面。随后,脚本把这张截图发送给 Step 3.7 Flash,让模型判断屏幕里正在发生什么。


比如我们让 Step 3.7 Flash 看了一眼手机里的微信读书热搜榜。它不只是把页面上的字读出来,还能理解榜单结构:哪些是书名,哪些是封面,当前排名是多少,有多少人在读,推荐值又对应哪本书。


这类能力的意义在于,Agent 面对的是真实 App,而不是整理干净的截图。它要先看懂页面,才有可能继续帮用户找书、比对热度、整理榜单,甚至执行下一步操作。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


我们又把它放到美团小判官这样的页面里,让它处理一条商家申诉场景。页面里同时有用户评价、图片证据、商户回复,以及「用户更有理」「商家更有理」这样的处理按钮。


对模型来说,这已经不是简单的 OCR,它是在理解一段业务流程:谁在投诉、争议点是什么、证据是什么、平台接下来允许做什么。多模态 Agent 要进入真实工作流,遇到的往往就是这种混合了文本、图片、判断和操作入口的界面。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


换到 Blender 场景里,用户输入「怎么删除这个方块」,模型会识别 Blender 的界面结构、图层、工具栏和当前编辑状态,再给出删除指定方块的操作步骤。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」,模型会识别不同图片中的信息内容,理解设计元素之间的关系,并生成专业分析。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


Step 3.7 Flash 另一项关键能力,是联网与视觉搜索增强。


Agent 在真实业务里碰到的问题,往往牵扯动态信息、外部资料、多源证据,还有一堆残缺的输入。模型要是只啃自己肚子里那点知识,时效性和准确性上很容易翻车。


「瑞石楼」这个演示就很典型。模型先从用户上传的图片里读出可见的线索,围绕这些线索生成检索词,用网页抓取工具去外面查资料,最后把图里的视觉信息和网上的文字信息拼成一个完整回答。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


搜索到这里,已经不是返回一串网页链接那么简单,模型是围着任务目标,主动去找、去筛、去对、去组织证据。这正是 Search Agent 和 Research Agent 真正需要的干活方式。


官方提到,Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等复杂视觉任务 Benchmark 上,展现出接近更大规模旗舰模型的表现。这也意味着模型能够在信息不充分的情况下继续推进任务,并减少未经验证的回答。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


让 40 个 Agent 同时开工,这才是大模型下场干活的正确姿势


Agent 与普通聊天机器人的区别,在于调用密度更高。


一次普通问答往往只有一轮交互,而 Agent 完成任务时,需要反复观察环境、调用工具和读取结果。Coding Agent 要读代码、改文件、运行命令;Search Agent 要检索、核对和整理信息;办公 Agent 要处理表格、文档和邮件。


调用次数一旦大幅增加,模型速度和成本就会成为系统级问题。


Step 3.7 Flash 采用稀疏 MoE 架构,总参数为 196B 加 1.8B ViT,激活参数仅 11B,最高生成速度可达 400 Tokens/s。对于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent,这意味着同样时间内可以完成更多轮观察、调用和推理。


比如,Step 3.7 Flash 可以构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,并实时汇总它们对 5 个 MVP 方向的偏好。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


批量跑 Agent 的价值,就在这里了。


过去一个模型做一次分析,成本和延迟都还能忍。可一旦企业同时跑几十个 Agent,分别扮演用户、专家、销售、产品、运营、客服,吞吐能力立马成了前提。速度不够,反馈就慢;价格太高,规模化根本无法成立。


类似地,Agent 并行实时构建大型知识图谱,同样属于高频、多步骤任务。模型价值不仅体现在生成速度,更体现在单位时间内完成更多观察、检索和推理。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


再看信息整理。我丢给它一句「我要写一篇自动驾驶的综述,分头去查技术路线、政策法规、市场格局、代表公司四个方向」。


这类任务看似只是汇总资料,实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长,调用次数越密,模型吞吐的差距就越容易被放大。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


Step 3.7 Flash 给我的直观感受是快,但快的同时质量没有打折——从全网搜集四个方向的资料各自归到对应板块,技术路线讲得清楚,政策法规和市场格局的信息也分得开,没有出现把不同方向揉成一团的情况,结构化输出该有的层级都在。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


值得一提的是,Step 3.7 Flash 完成任务的性价比极高,尤其是对 Agent 这种高频任务形态更友好。


一次 Agent 任务往往包含拆解、检索、读网页、调工具、比对结果和整理输出,调用次数远高于普通问答。单次成本差异,放到完整任务链里会被迅速放大。


官方数据显示,开启 Advisor Mode 后,Step 3.7 Flash 的编程能力达到 Claude Opus 4.6 的 97%,但每个任务成本大约只有后者的九分之一。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


也正因为如此,Step 3.7 Flash 的价值不能只用「快」来概括。放到 Agent 工作负载里看,它同时解决了三件事:高吞吐减少等待,更低任务成本支撑规模化运行,接近头部模型的编程能力则让它有机会进入真实工作流,承担持续、复杂的任务。


此外,Agent 要进入生产系统,关键还在于稳定调用工具。Step 3.7 Flash 在高可靠工具调用与编排上做了优化。官方称,它可以在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,并保持任务轨迹一致,降低任务偏移和执行失败的概率。


官方披露了几组数据。Step 3.7 Flash 在考察多工具协同的 Toolathlon 上达到 49.5%,在考察真实环境下日常自主任务执行的 ClawEval 1.1 上达到 67.1%,在横跨 44 种职业任务的 GDPval 上达到 45.8%。在 τ²-bench Telecom 的低、中、高三档推理难度下,通过率均超过 98%。


当然,Agent 生产化还有一个容易被低估的条件:模型必须适配工作流。模型通常被放进一套 harness 里,周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。


对此,Step 3.7 Flash 针对 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容优化,也面向 MCP、Skills 等工具调用协议和开发链路进行适配。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


开发者因此可以更容易地把模型放进已有 Agent 框架中,而不必重新改造整套流程。对企业来说,适配价值不言而喻:模型越容易进入既有系统,试用和部署周期越短,工程成本越低。


目前,Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 与开发者生态项目中完成接入验证。阶跃星辰也在与 Fireworks AI、DeepInfra、Modal Labs 等 AI 基础设施与推理平台推进适配,后续还会接入 OpenRouter、ZenMux 等海外模型聚合与开发者平台。


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率

🔗 https://huggingface.co/stepfun-ai/Step-3.7-Flash


截至目前,官方还提供关于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、国内开放平台 API、海外开放平台 API、Studio 在线体验,以及阶跃 AI App 入口。


这些入口意味着,它同时面向开发者试用、企业 API 接入和开源生态使用。更重要的是,Step 3.7 Flash 支持云端和本地部署。官方还提供了端侧多精度版本,面向个人工作站和本地环境进行优化。


海外开发者的实测反馈,也补上了官方数据之外的视角。有人在本地 MoE 测试中对比 DeepSeek V4 Flash、Step 3.7 Flash 和 Minimax M2.7,Step 3.7 Flash 在 agg@64 下运行速度超越其它模型,达到 2123.13 tok/s;


任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率


也有开发者提到,自己用 Gemini 3.5 Flash 写代码后,再让 Step 3.7 Flash 检查,能找出 7 个以上小 bug 和错误。无论是指向本地吞吐,还是指向代码排错,都切实地说明 Step 3.7 Flash 已经开始进入真实开发流程,并被开发者当成可以长期使用的生产力工具。


基座模型,就该为 Agent 而生


体验完 Step 3.7 Flash,APPSO 发现它比起追求某个维度的跑分,更强调工程实用性。


多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些单拎出来都不算新鲜,可它们凑在一起,恰好补上了 Agent 在生产环境里最需要的短板。


这条路径并不花哨,但很适合 Agent 当前所处的阶段。我们过去问一个模型,问的是它够不够聪明。可 Agent 时代,真正该问的是另一个问题:这个模型,是为谁设计的。


这两个提问背后的出发点就不一样。


一个是模型为人优化,意味着它默认面对的是一个会读、会等、会自己脑补的人类。你问一句,它答一句,慢几秒没关系,偶尔含糊也能靠你补上。


但 Agent 不会,Agent 要在观察、调用、推理、纠错的循环里连轴转,它一天发出的请求,可能比一个人一年说的话还多。它不会替模型打圆场,模型跑偏了,它就跟着跑偏。


为人优化的模型,未必适合 Agent 。这也是为什么 Flash 这个词,在 Agent 时代有了新的含义。它不再只是旗舰的廉价替身,而要从头按 Agent 的脾气重新设计了一遍。


Step 3.7 Flash 这些特点恰好对应了这个逻辑。


原生多模态,是因为 Agent 得先看见任务现场;400 Tokens/s,是因为高频调用经不起慢;工具调用的稳定性,是因为长程任务断一环就全断;harness 适配,是因为模型再强,进不去现成的系统也白搭。


它不是冲着榜单去的,是冲着「Agent 究竟怎么高效、高性价比干活」去的。从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰一路强化的,其实都是同一件事:让模型为 Agent 而生,推动 Agent 进入规模化商用。


这也会成为模型今后一个重要的进化路线,Step 3.7 Flash 也还不是终点。但它让我们看到了一个变化:评判 Agent 时代的模型,不该只盯着它有多聪明,而要看它愿不愿意把那些琐碎的工程账,一笔一笔算明白。


1492 年真正改变世界的,其实不是哥伦布那一次惊险的横渡,反而是后来那些福禄特商船能一趟趟稳稳地出海、返航、装货,然后再出发。冒险家负责抵达彼岸,商船负责让彼岸变成航线。


模型竞争走到 Agent 这个阶段,道理也类似。真正拉开距离的,不只是跑分上的惊艳,更是那些能让 Agent 反复出发、可靠抵达,并把能力沉淀成航线的模型。


文章来自于"APPSO",作者 "APPSO"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0