提一个冷知识。
在 2024 年年初的时候,中国的大模型独角兽是五家——当时业内常把智谱、月之暗面、MiniMax、百川智能、零一万物这几个备受资本方青睐的大模型初创企业称为大模型五虎。
这事儿,在去年年中的时候,发生了变化。
2024 年 6 月,由前微软全球副总裁姜大昕创办的 AI 大模型公司「阶跃星辰」,被曝出正在进行一轮估值 20 亿美元的新融资。
大模型五小虎,从此变成了六小虎。
坊间提到阶跃星辰时,还常伴随着“低调”和“神秘”两个词。
自此之后,我也一直在关注这家公司的动态,因为我知道,长期低调之后必有大招。
果然,终于等到了!
不过,本以为临近年底,要发一个重磅模型。
结果,我错了,是六个——语言、语音、推理、视频生成、视觉理解全模态覆盖。
其中,阶跃星辰在最擅长的多模态上继续领跑国内。全新发布的 Step-1o 系列模型,拿下了国内外 LMSYS Org 和 OpenCompass 多模态 + 视觉双榜中国 TOP1。阶跃多模态的上一个版本 Step-1V 系列,就曾拿下 LMSYS Org 中国大模型第一,这次继续霸榜。此外,阶跃新推出的推理模型 Step R-mini 在视觉推理领域取得突破性进展。
名副其实的多模态卷王。
多模态是阶跃的传统强项了,此前就霸榜了中国大模型第一,所以这次最大的看点便是 Step-1o 系列的全新发布和升级。
包括了一个视觉模型 Step-1o Vision 和一个语音模型 Step-1o Audio。
要注意的是,这俩模型跃问 APP 里已经能体验了,Step-1o Vision 也可在跃问网页端(https://yuewen.cn)调用。
Step-1o Vision 刚上线,在大模型竞技场 Chatbot Arena 最新榜单上,便拿下视觉领域国产大模型第一。
而且,在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,也是第一。
据阶跃官方说法,Step-1o Vision 相比于 step-1v 系列模型(上一代视觉模型),对模型架构进行了升级,视觉性能更强大,在视觉识别、感知、指令跟随、推理等任务上都有大幅提升。
我比较怀疑,阶跃在模型的文科能力上,做了一些普适性的训练黑科技,因此在模型的行为上,能明显感知到它在这方面的一些差异性。
众所周知,无论国内还是国外的模型,其普遍对于网络梗图的理解能力一般甚至 get 不到,因为这不只涉及要素理解,还要求模型要具备相当的背景知识和关联。
但我发现,对于下面这种梗图,Step-1o Vision 竟然都做到了准确理解——
下面这道图形题就更有意思了——
哈?跃问说 C 选项的牛少了一只牛角,这也太细节了,我看了三次都没发现。
这是我第一次在视觉问题上输给 AI。
Step-1o Audio 是 1o 家族的首个模型,也是国内首款千亿参数的端到端语音模型,实现了语音理解和生成一体化,一个月前发布的,这次我发现升级后的 Step-1o Audio,在情绪感知与理解、多语种和多方言、通话体验上均有不错的体验。
先来看看情绪感知——
这个回答给足了对方情绪价值,一直在安抚对方的情绪,让我觉得“有点舒适”。
而且我发现,这个语音模型竟然支持了多语言,配合着这个超低延迟,感觉可以当个同声传译 AI 来用了,英语陪练更不用说了。
实话说,虽然阶跃这波升级的视觉 + 语音模型的表现出色,但我并不意外。
因为,阶跃公司从创立之初,“多模态”就是其主打特色。
这次还让我眼前一亮的,是阶跃这波连类 o1 推理模型都安排上了,名为“Step R-mini”(全称 Step Reasoner mini )
跃问网页端就能体验,左上角中选择“Step R-mini”
传送门:https://yuewen.cn/chats
关于 Step R-mini,官方非常有意思的定位是“文理兼修”。
也就是说,Step R-mini 与其他国内外类 o1 模型的定位不同,Step R-mini 模型不仅强调数学、编程等传统的理科推理任务,而且还在文科推理任务上做了模型效果优化,率先让模型具备了文科类的推理和创作能力。
首先来看看理科能力。
根据官方的定位,Step R-mini 在理科上直接对标的是 o1-mini,并且官方放出了学术测试集上的评测结果:
其在 AIME2024 和 MATH500 两个数学测试集上都超越了 o1-mini 和 o1-preview。
我先简单跑了几个经典的理科测试 case。
比如曾经难倒一众类 o1 模型的取水问题——
Step R-mini 成功给出了答案。
再来一道概率题!
做对 +1。
再来看看阶跃首发的“文科推理”能力。
首先,我觉得“文科推理”这个切入点确实是有现实意义的,推理能力不仅适用于理科任务场景,在一些文科任务上,同样需要推理。
比如,算卦
起名字这事儿,看似是个拍脑袋、跟推理不搭边的文科任务,而在现实场景中,其实是根据父母的期许、生辰八字等诸多信息来综合推理,找到候选集。
但由于文科类任务很难定义出标准化的答案和优化目标,且难以构建封闭获取 reward 信号的“沙箱环境”,因此模型训练的难度会比单纯优化理科任务大得多。
这里,我找了些文科推理能力测试题。
比如我这里找了一道「对对联」的题目,不仅涉及对联仄起平收和对偶的一些语法知识,还考察信息的提取、筛选、概括,并进一步“推理”实现“条件满足”的思考过程。
从分析思考过程来看,确实 Step R-mini 的语法推理是在线的,最终得出了正确的答案。
再来一道中学时期不少小伙伴遇到过的语文题——
同样,Step R-mini 经过一顿“文科推理”后,找到了正确答案。
总之,我觉得 Step R-mini 是另辟蹊径,找到一条奇妙的蓝海赛道。会玩的小伙伴,可以脑洞更多的文科推理题目为难一下 Step R-mini,欢迎评论区分享结果!
值得关注的是,在推理模型的研发上,阶跃也在将自己擅长的多模态融入进去,打造视觉推理模型,将推理能力融入更多交互形态的大模型中。我找阶跃的小伙伴要到了剧透信息——
我们正针对复杂视觉场景下的 Reasoning 问题,引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。多模态视觉推理模型预计将在今年发布。
虽然阶跃的多模态能力很强不意外,但阶跃的小伙伴和我说,这波全家桶竟然还有视频生成模型 Step-Video V2,这事儿意外到我了。
因为我觉得,他们今年发布的模型已经够多了,而且赛道跨度相当大。这里面,视频生成又是一个非常吃算力、吃数据和吃人才的赛道,国内能玩转的大模型公司一只手都能数得过来。
结果,阶跃也杀进来了。
直接贴官方的 showcase 感受一下——
prompt:低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色 T 恤和浅色裤子,戴着帽子,手臂上有纹身。
我们知道,运动控制一直是视频生成中极具挑战的镜头,非常考验模型对物理规律的理解和掌握,即使每一帧的画面都是合理的,按照时间轴串起来也不一定合理。甚至,生成反物理规律的镜头一度成为了短视频流量密码...
从上面这个 case 来看,无论是人物与物体之间的空间关系,击鼓的落脚点还是击鼓轨迹,都没有出现反物理规律的情况。尤其是,这还叠加了旋转运镜,一不留神就容易穿帮。从这一点来看,运动控制的细节着实到位。
除此之外,我发现 Step-Video V2 似乎在人物生成方面表现更优秀,无论是面部细节还是人物表情,都非常细腻。比如生成外国小姐姐——
prompt:视频展示了一位人物在阳光下的特写镜头。背景中可以看到围栏和一些建筑物,阳光柔和地洒在人物的头发上,增加了画面的温暖感。人物的表情自然,时而微笑,时而眨眼,给人一种轻松愉悦的感觉。整个视频运用了特写镜头,突出了人物的表情和细节,具有写实风格。
当然,我实测了一些 case 后,发现 Step-Video V2 跟其他视频模型类似,也免不了强依赖“抽卡”动作。但作为早期版本,我觉得表现已经可圈可点了。
除了多模态,阶跃的语言模型同样能打。最后两款模型是对标 GPT-4o mini 并提供了 API 调用的 Step-2 mini 模型,以及擅长文学创作的 Step-2 文学大师版。
这两款模型都脱胎于 Step-2,Step-2 是国内最早的创业公司发布的万亿大模型,国内外榜单打榜第一的常客就是它。
这里贴下 Step-2 mini 模型的关键数据——
直接贴 API 传送门:
(https://platform.stepfun.com/
而 Step-2 文学大师版,则顾名思义,是为文学创作而生的。其在记忆海量世界知识的基础上,进一步强化了写作时对文字细节的把控能力,避免通用模型在文字创作时经常出现的“泛泛而谈”的空洞感。
我尝试用这个 Step 文学大师版给本瑶写了一部穿越小说。
实话说,我直接看楞了——
长图警告
好家伙,这也太长了吧,足足 5000 字,直接给我把一部短篇小说干完了。
而且看到跃问写到“我,夕小瑶,大明洪武皇帝的孙女”时,还挺开心,没想到后面就被当成凄惨的妖女了。这剧情,我真想试试发布到小说平台恰点稿费...
愿意为这个小说付费的,请在评论区扣 1
体验完这六个模型之后,我对阶跃的认知,发生了很大的变化。
我常常根据对 AGI 的笃定程度,来把大模型创业公司分为两类——
对于后者“实用主义派”,你常常能感觉到的是,对方公司不会很强调 AGI 概念,以及基础模型能力建设,而是把大部分精力和资源放在了 AI 应用方面。
而对于前者“AGI 信仰派”,你则会感受到对方很强烈的 AGI 概念和模型能力布局。其中,一个很突出的感知就是「实现了全模态能力覆盖」。
阶跃已经是模型矩阵最全的公司之一,多模态能力更是有口皆碑,从频繁的更新动作就能感受到它的多模态上的“卷”。
此前,我不太确信阶跃是哪一个流派。
现在我很明确了,是绝对的 AGI 信仰派。
国内敢做全模态能力栈的大模型公司非常少,若没有强大的 AGI 信仰,是不敢这么做的。
算下来,就算加上 BAT 等老一代互联网大厂,如今国内能做到语言、视觉、语音、视频、推理这五大模态 + 模型范式全覆盖的公司,细数下来也仅有 3 家——阿里、智谱、阶跃。
要知道,用户对于 AI 的预期是越来越高的。
2023 年,大家谈论多的还是写作,2024 年,大家谈论多的已经到 AI 的智商乃至情商问题了。而到了 2025,几乎可以确信——只做单边能力建设的大模型公司,与 AGI 的距离很可能会日行渐远,进而难以支撑起用户对 AI 能力的预期。
而阶跃,不仅坚守住了 AGI 信仰,又于上个月,刚刚完成数亿美元的 B 轮融资。我对其在 2025 年的大模型&产品期待值已经拉满了。
六小虎中最晚亮相的「阶跃星辰」,很可能成为 2025 年率先杀出的黑马。
文章来自于“夕小瑶科技说”,作者“夕小瑶编辑部”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0