任务成本仅为Claude Opus 4.6 1/9，阶跃Step 3.7 Flash刷新Flash模型效率

9252点击 2026-06-02 11:58

1492 年，哥伦布驶向大西洋深处。远洋航行当然需要速度，但真正决定船队能否抵达彼岸的，是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的，正是这种并不浪漫的工程逻辑。

后来，荷兰人设计出「福禄特」商船：造价更低、船员更少、货舱更大，能在大西洋航线上稳定往返。远洋航行由此从冒险家的孤勇，变成一门可复制、可计算、可扩张的生意。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

今天的 AI 模型竞争，也走到了类似的十字路口。

过去，人们谈模型，习惯谈参数、榜单和峰值能力，但 APPSO 在使用 Claude Code、Codex 这类 coding agent 之后，明显感觉到当 AI Agent 开始走向生产环境，真正在乎的问题变得有些不一样了：能不能持续处理高频请求，能不能稳定调用工具，能不能理解复杂界面，能不能嵌入企业既有流程并长期运转。

这些问题的答案，往往不在跑分榜单里。

最近，阶跃星辰正式发布并开源 Step 3.7 Flash。作为面向生产级 Agent 的新一代 Flash 模型，它主要服务 Agent、Coding、Search 与多模态工作流。

它出现的时机，恰好踩在这个路口上。生产级 Agent 要的早就不只是快和便宜，更重要的是够可靠、够好用、够容易部署，还能在真实工作流里一天天产出结果。

Flash 模型，不再是旗舰的平替

过去，Flash 模型常被当成旗舰模型的轻量版，卖点无非就是快和便宜。但当 Agent 成为工作流的核心，Flash 模型的角色就变了。

如果模型在多轮任务中容易偏离目标，无论是企业还是个人都很难放心采用。相反，一个模型若能在速度、成本、工具调用、多模态理解和生态兼容之间取得平衡，才有机会成为 Agent 系统真正可依赖的基础能力。

某种意义上，Agent 时代要的 Flash 模型，已经从「更快的小模型」升级成了「生产效率最高的基座模型」。

它既要够得着旗舰模型的能力上限，又要扛得住大规模 Agent 调用的效率压力。Step 3.7 Flash 的定位，正是后者——新一代 Agentic 基座模型。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

而生产级 Agent 的第一道门槛，是理解真实工作环境。

大量 Agent 任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。只擅长文本问答的 Agent，很难真正处理这些任务。

Step 3.7 Flash 重点强化的，正是原生多模态理解与执行能力。它可以理解 UI、图表、文档、图片和应用界面，也可以在复杂视觉问题中自主裁剪、放大、重读图像。遇到信息不确定的情况，模型还能主动发起搜索，并对文本和图像信息进行交叉验证。

这里有个反直觉的设计思路。对一个 11B 激活的 Flash 模型来说，把海量视觉知识硬塞进权重是不划算的。阶跃反其道而行：权重里只留最核心的推理引擎，把感知边界和世界知识外推到推理阶段，靠极快的速度，用「多看几眼、多查几遍」去换「参数本来不够用」的那部分能力。

低延迟和高吞吐，到这里就不只是部署时的优势，直接变成了能力本身的一部分，巧妙且机智。比如在这个驾驶舱操作的演示中，用户只输入「如何起飞」，模型就会自动框选驾驶舱区域，识别仪表、按钮和关键操作信息，理解当前界面的操作逻辑，并生成分步骤教程。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

这里的重点不止在于它能识别一张驾驶舱图片，更关键的是，它能把一个密集、陌生、强依赖上下文的视觉环境，转换成一个人可以照着做的任务指引。

能看懂，和能教你动手，难度系数完全不一样。

我们还把 Step 3.7 Flash 接入了一套手机 GUI Agent 流程，并用一台 vivo 手机完成演示。

手机通过 USB 连接 Mac，打开 ADB 调试授权后，终端就可以获取手机当前截图，并通过 scrcpy 同步显示手机画面。随后，脚本把这张截图发送给 Step 3.7 Flash，让模型判断屏幕里正在发生什么。

比如我们让 Step 3.7 Flash 看了一眼手机里的微信读书热搜榜。它不只是把页面上的字读出来，还能理解榜单结构：哪些是书名，哪些是封面，当前排名是多少，有多少人在读，推荐值又对应哪本书。

这类能力的意义在于，Agent 面对的是真实 App，而不是整理干净的截图。它要先看懂页面，才有可能继续帮用户找书、比对热度、整理榜单，甚至执行下一步操作。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

我们又把它放到美团小判官这样的页面里，让它处理一条商家申诉场景。页面里同时有用户评价、图片证据、商户回复，以及「用户更有理」「商家更有理」这样的处理按钮。

对模型来说，这已经不是简单的 OCR，它是在理解一段业务流程：谁在投诉、争议点是什么、证据是什么、平台接下来允许做什么。多模态 Agent 要进入真实工作流，遇到的往往就是这种混合了文本、图片、判断和操作入口的界面。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

换到 Blender 场景里，用户输入「怎么删除这个方块」，模型会识别 Blender 的界面结构、图层、工具栏和当前编辑状态，再给出删除指定方块的操作步骤。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」，模型会识别不同图片中的信息内容，理解设计元素之间的关系，并生成专业分析。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

Step 3.7 Flash 另一项关键能力，是联网与视觉搜索增强。

Agent 在真实业务里碰到的问题，往往牵扯动态信息、外部资料、多源证据，还有一堆残缺的输入。模型要是只啃自己肚子里那点知识，时效性和准确性上很容易翻车。

「瑞石楼」这个演示就很典型。模型先从用户上传的图片里读出可见的线索，围绕这些线索生成检索词，用网页抓取工具去外面查资料，最后把图里的视觉信息和网上的文字信息拼成一个完整回答。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

搜索到这里，已经不是返回一串网页链接那么简单，模型是围着任务目标，主动去找、去筛、去对、去组织证据。这正是 Search Agent 和 Research Agent 真正需要的干活方式。

官方提到，Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等复杂视觉任务 Benchmark 上，展现出接近更大规模旗舰模型的表现。这也意味着模型能够在信息不充分的情况下继续推进任务，并减少未经验证的回答。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

让 40 个 Agent 同时开工，这才是大模型下场干活的正确姿势

Agent 与普通聊天机器人的区别，在于调用密度更高。

一次普通问答往往只有一轮交互，而 Agent 完成任务时，需要反复观察环境、调用工具和读取结果。Coding Agent 要读代码、改文件、运行命令；Search Agent 要检索、核对和整理信息；办公 Agent 要处理表格、文档和邮件。

调用次数一旦大幅增加，模型速度和成本就会成为系统级问题。

Step 3.7 Flash 采用稀疏 MoE 架构，总参数为 196B 加 1.8B ViT，激活参数仅 11B，最高生成速度可达 400 Tokens/s。对于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent，这意味着同样时间内可以完成更多轮观察、调用和推理。

比如，Step 3.7 Flash 可以构建 Agent 集群，让 40 个不同身份的虚拟 persona 扮演产品评测团，对一个产品问题进行并行判断，并实时汇总它们对 5 个 MVP 方向的偏好。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

批量跑 Agent 的价值，就在这里了。

过去一个模型做一次分析，成本和延迟都还能忍。可一旦企业同时跑几十个 Agent，分别扮演用户、专家、销售、产品、运营、客服，吞吐能力立马成了前提。速度不够，反馈就慢；价格太高，规模化根本无法成立。

类似地，Agent 并行实时构建大型知识图谱，同样属于高频、多步骤任务。模型价值不仅体现在生成速度，更体现在单位时间内完成更多观察、检索和推理。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

再看信息整理。我丢给它一句「我要写一篇自动驾驶的综述，分头去查技术路线、政策法规、市场格局、代表公司四个方向」。

这类任务看似只是汇总资料，实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长，调用次数越密，模型吞吐的差距就越容易被放大。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

Step 3.7 Flash 给我的直观感受是快，但快的同时质量没有打折——从全网搜集四个方向的资料各自归到对应板块，技术路线讲得清楚，政策法规和市场格局的信息也分得开，没有出现把不同方向揉成一团的情况，结构化输出该有的层级都在。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

值得一提的是，Step 3.7 Flash 完成任务的性价比极高，尤其是对 Agent 这种高频任务形态更友好。

一次 Agent 任务往往包含拆解、检索、读网页、调工具、比对结果和整理输出，调用次数远高于普通问答。单次成本差异，放到完整任务链里会被迅速放大。

官方数据显示，开启 Advisor Mode 后，Step 3.7 Flash 的编程能力达到 Claude Opus 4.6 的 97%，但每个任务成本大约只有后者的九分之一。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

也正因为如此，Step 3.7 Flash 的价值不能只用「快」来概括。放到 Agent 工作负载里看，它同时解决了三件事：高吞吐减少等待，更低任务成本支撑规模化运行，接近头部模型的编程能力则让它有机会进入真实工作流，承担持续、复杂的任务。

此外，Agent 要进入生产系统，关键还在于稳定调用工具。Step 3.7 Flash 在高可靠工具调用与编排上做了优化。官方称，它可以在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统，并保持任务轨迹一致，降低任务偏移和执行失败的概率。

官方披露了几组数据。Step 3.7 Flash 在考察多工具协同的 Toolathlon 上达到 49.5%，在考察真实环境下日常自主任务执行的 ClawEval 1.1 上达到 67.1%，在横跨 44 种职业任务的 GDPval 上达到 45.8%。在 τ²-bench Telecom 的低、中、高三档推理难度下，通过率均超过 98%。

当然，Agent 生产化还有一个容易被低估的条件：模型必须适配工作流。模型通常被放进一套 harness 里，周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。

对此，Step 3.7 Flash 针对 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容优化，也面向 MCP、Skills 等工具调用协议和开发链路进行适配。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

开发者因此可以更容易地把模型放进已有 Agent 框架中，而不必重新改造整套流程。对企业来说，适配价值不言而喻：模型越容易进入既有系统，试用和部署周期越短，工程成本越低。

目前，Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 与开发者生态项目中完成接入验证。阶跃星辰也在与 Fireworks AI、DeepInfra、Modal Labs 等 AI 基础设施与推理平台推进适配，后续还会接入 OpenRouter、ZenMux 等海外模型聚合与开发者平台。

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

🔗 https://huggingface.co/stepfun-ai/Step-3.7-Flash

截至目前，官方还提供关于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、国内开放平台 API、海外开放平台 API、Studio 在线体验，以及阶跃 AI App 入口。

这些入口意味着，它同时面向开发者试用、企业 API 接入和开源生态使用。更重要的是，Step 3.7 Flash 支持云端和本地部署。官方还提供了端侧多精度版本，面向个人工作站和本地环境进行优化。

海外开发者的实测反馈，也补上了官方数据之外的视角。有人在本地 MoE 测试中对比 DeepSeek V4 Flash、Step 3.7 Flash 和 Minimax M2.7，Step 3.7 Flash 在 agg@64 下运行速度超越其它模型，达到 2123.13 tok/s；

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

也有开发者提到，自己用 Gemini 3.5 Flash 写代码后，再让 Step 3.7 Flash 检查，能找出 7 个以上小 bug 和错误。无论是指向本地吞吐，还是指向代码排错，都切实地说明 Step 3.7 Flash 已经开始进入真实开发流程，并被开发者当成可以长期使用的生产力工具。

基座模型，就该为 Agent 而生

体验完 Step 3.7 Flash，APPSO 发现它比起追求某个维度的跑分，更强调工程实用性。

多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些单拎出来都不算新鲜，可它们凑在一起，恰好补上了 Agent 在生产环境里最需要的短板。

这条路径并不花哨，但很适合 Agent 当前所处的阶段。我们过去问一个模型，问的是它够不够聪明。可 Agent 时代，真正该问的是另一个问题：这个模型，是为谁设计的。

这两个提问背后的出发点就不一样。

一个是模型为人优化，意味着它默认面对的是一个会读、会等、会自己脑补的人类。你问一句，它答一句，慢几秒没关系，偶尔含糊也能靠你补上。

但 Agent 不会，Agent 要在观察、调用、推理、纠错的循环里连轴转，它一天发出的请求，可能比一个人一年说的话还多。它不会替模型打圆场，模型跑偏了，它就跟着跑偏。

为人优化的模型，未必适合 Agent 。这也是为什么 Flash 这个词，在 Agent 时代有了新的含义。它不再只是旗舰的廉价替身，而要从头按 Agent 的脾气重新设计了一遍。

Step 3.7 Flash 这些特点恰好对应了这个逻辑。

原生多模态，是因为 Agent 得先看见任务现场；400 Tokens/s，是因为高频调用经不起慢；工具调用的稳定性，是因为长程任务断一环就全断；harness 适配，是因为模型再强，进不去现成的系统也白搭。

它不是冲着榜单去的，是冲着「Agent 究竟怎么高效、高性价比干活」去的。从 Step 3.5 Flash 到 Step 3.7 Flash，阶跃星辰一路强化的，其实都是同一件事：让模型为 Agent 而生，推动 Agent 进入规模化商用。

这也会成为模型今后一个重要的进化路线，Step 3.7 Flash 也还不是终点。但它让我们看到了一个变化：评判 Agent 时代的模型，不该只盯着它有多聪明，而要看它愿不愿意把那些琐碎的工程账，一笔一笔算明白。

1492 年真正改变世界的，其实不是哥伦布那一次惊险的横渡，反而是后来那些福禄特商船能一趟趟稳稳地出海、返航、装货，然后再出发。冒险家负责抵达彼岸，商船负责让彼岸变成航线。

模型竞争走到 Agent 这个阶段，道理也类似。真正拉开距离的，不只是跑分上的惊艳，更是那些能让 Agent 反复出发、可靠抵达，并把能力沉淀成航线的模型。

文章来自于"APPSO"，作者 "APPSO"。

关键词: AI新闻 , Step 3.7 Flash , 阶跃星辰 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0