大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新
8538点击    2025-12-28 09:57

“阶跃星辰怎么静悄悄…”


这就是年底国产大模型轮番冲刺热议一线时,阶跃星辰面临的外部评价。


Kimi靠K2重新获得证明,摆脱DeepSeek冲击波逆境;


DeepSeek靠OCR、金牌数学模型热传热议,让人更加期待后面的大招;


智谱和MiniMax一手新SOTA模型交卷,一手提起IPO进程……


而依然留在自研大模型牌桌上的“六小龙”选手阶跃星辰,甚至相比之前的“卷王”本王,都神秘安静得多。


直到刚刚,用最新的图像模型NextStep-1.1,扳回一球。


大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新


NextStep-1.1


总体来看,这次开源的NextStep-1.1解决了之前NextStep-1中出现的可视化失败(visualization failures )问题。


其通过扩展训练和基于流的强化学习(RL)后训练范式,大幅提升了图像质量。


大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新


相较之前发布的NextStep-1,NextStep-1.1的更新主要有两方面:


  • RL增强视觉保真度 : 通过RL显著改进了图像纹理,并大幅减少了视觉伪影(Visual Artifacts),确保输出更加清晰和专业。
  • 技术稳定性: 解决了自回归流匹配模型RL过程中固有的数值不稳定性(Numerical Instability)问题。


目前,NextStep-1.1已率先在GitHub和Hugging Face开源,但对应的技术报告尚未发布。


从已披露的信息来看,1.1版本的方法论基础仍然沿用NextStep-1论文中提出的自回归流匹配(autoregressive flow-matching)路线。


接下来,我们具体来看。


自回归流匹配的图像生成


NextStep-1系列架构的关键在于使用流匹配目标对连续图像Token进行直接、自回归建模


这种方法旨在取代传统的“AR+重型扩散模型”混合架构,NextStep-1通过逐Patch自回归生成,只用一个轻量级流匹配头,避开了对计算密集型DM的依赖。


具体来说,NextStep-1是一个拥有140亿参数(14B) 的自回归模型。


核心架构由Transformer骨干网络、用于处理离散文本 Token的标准语言建模头、用于处理连续图像Token的轻量级流匹配头,以及一个图像Tokenizer组成。


大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新


其中,NextStep-1采用因果Transformer来处理离散化后的文本与图像Token。


在训练阶段,Flow Matching Head基于输出的隐藏状态,预测从噪声样本到下一个目标图像patch的连续流(continuous flow)。


在推理阶段,该机制使模型能够通过迭代方式引导噪声,逐步生成下一个图像patch,从而完成整幅图像的生成。


在文生图任务中,NextStep-1展示出了接近传统扩散模型的生成质量,并且在图像编辑方面也表现优异。


然而,NextStep-1 在高维连续潜在空间下运行时,仍存在数值不稳定性,这可能导致输出图像出现块状或网格状的伪影。


大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新


最新的NextStep-1.1版本正是针对这一核心问题进行了优化与改进。


Kimi智谱Minimax轮番交卷


事实上,最新放出的NextStep-1.1只是阶跃最近密集更新节奏的一部分。


阶跃也当然没有“静悄悄”,自11月底至今,阶跃先后——


  • 开源GELab-Zero,主打安卓端本地部署与低门槛移动端智能体开发。
  • 开源8B推理模型——PaCoRe,在数学方面超越GPT-5。
  • 推出Step-GUI,包含云端模型、GUI Agent的MCP协议及开源端侧模型Step-GUI Edge,深化智能终端布局。
  • ……


但问题还是出在友商们太热闹了。


智谱和MiniMax不仅相继通过聆讯,冲刺IPO,还同步发布了自家最新的模型GLM-4.7和MiniMax M2.1。


Kimi也先后接入微软Azure,亚马逊Bedrock,其最新开源推理模型Kimi K2 Thinking也是广受好评。


当这些动作被放在同一时间轴上,实际上也体现着大模型竞争格局的变化。


在技术层面,Coding、Agent、多模态成为大模型主战场,开源生态成为主要策略。


而在资本层面,智谱和MiniMax的IPO也意味着大模型玩家在第一轮“百模大战”之后,胜者开始寻求更大的资本杠杆,开启更大战场的竞速。


大模型创业六小龙,实际已经名存实亡。


依然在坚持预训练、自研通用大模型路线的创业玩家,只剩下智谱、MiniMax、Kimi和阶跃星辰。


而他们接下来要竞速的玩家,都是巨头和小巨头。


但不论如何,创业明星们一步一登台,拿到了通往决赛圈入场券。


是否依然有能力自研基础大模型?是否粮草充足?是否可以构建商业模式飞轮实现造血可持续?


就是大模型玩家2026年竞速里无法回避的三大问题。


参考链接


https://x.com/StepFun_ai/status/2003746642026185055


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md