GPT-5.6突然发布!Fable5痛失最强基模王座

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5.6突然发布!Fable5痛失最强基模王座
9358点击    2026-06-27 13:48

ChatGPT史上最强模型来了!


就在刚刚,OpenAI一口气端出三款GPT 5.6系列模型


主打一个全家桶「多款齐发」——


旗舰模型Sol(太阳)、平衡模型Terra(大地)、低成本高速款Luna(月亮)。


GPT-5.6突然发布!Fable5痛失最强基模王座


  • GPT-5.6 Sol:最夯模型,编程测试左踢自家模型GPT5.5,右打隔壁Fable 5,还新增max/ultra两个模式。


GPT-5.6突然发布!Fable5痛失最强基模王座


GPT-5.6 Sol编程评测表现


  • GPT-5.6 Terra:面向日常工作,性能对标GPT-5.5,同时价格便宜约2倍。
  • GPT-5.6 Luna:GPT-5.6系列里最快、最便宜的一档,同时保留较强能力~


GPT-5.6突然发布!Fable5痛失最强基模王座


看完内心os:你别说哈,这新模型确实夯啊…


但坏消息是——


普通用户目前无缘使用ing!!!是的,人家玩《有限预览》那套了…


目前新模型只给少数受信任的「合作伙伴」提供了有限的预览版本。


普通用户可能得等等等等等等*100。(doge)


熟悉的配方,熟悉的操作。


Fable 5:我不知道您这是怎么了,这波咋瞅都像冲着我来的呢???


GPT-5.6 Sol、Terra、Luna三款模型齐发


是的,这次人家模型的名字开始走起天文学宇宙感路子了。


从产品定位看,三者分工很清楚——


Sol冲旗舰能力,Terra打日常主力,Luna负责速度和成本。


在价格上,则按每100万token计价:


Sol输入5美元、输出30美元;Terra输入2.5美元、输出15美元;Luna输入1美元、输出6美元。


GPT-5.6突然发布!Fable5痛失最强基模王座


先看这次发布的OpenAI史上最强旗舰模型——「太阳」Sol。


在能力上,Sol面向的是高难度推理、复杂代码、生物、网络安全等长链路任务


尤其适合需要规划、迭代、调用工具、协调步骤的复杂工作流。


而且非常值得一提的是,OpenAI还给这新模型搞上了「加餐」——


让模型获得更长的深度推理时间的max模,以及可以调用多个subagents协同处理复杂任务的ultra模式


要知道但凡加上ultra俩字估计就不简单……


这不嘛,吊打Fable 5的编程能力基准测试就水灵灵地来了,人家在Terminal-Bench 2.1上创造了新的SOTA。


ultra模式下比Fable5高出去7.6个百分点,比上一代GPT5.5高出9.4个百分点——


GPT-5.6突然发布!Fable5痛失最强基模王座


不仅如此,在生物方向,GPT-5.6 Sol在GeneBench v1上也强于GPT-5.5,而且使用token更少。


这个测试评估的是长链路基因组学和定量生物分析任务,说明Sol在科研类复杂任务上的效率也有提升~


GPT-5.6突然发布!Fable5痛失最强基模王座


网络安全方向,OpenAI称Sol是其目前网络安全能力最强的模型。


在ExploitBench上,GPT-5.6 Sol已经能接近Mythos Preview的表现,同时只使用约三分之一的输出token:


GPT-5.6突然发布!Fable5痛失最强基模王座


而在由加州大学伯克利分校研究人员与OpenAI及其他前沿实验室合作开发的ExploitGym测试中——


Sol、Terra、Luna三款模型都会随着推理强度增加,在网络安全能力上出现明显提升~


GPT-5.6突然发布!Fable5痛失最强基模王座


再看Terra——


Terra的定位更接近GPT-5.6系列里的日常主力模型,OpenAI给出的说法是,Terra性能与GPT-5.5具备竞争力,同时价格便宜约2倍。


最后走速度和成本路子的Luna,则是GPT-5.6系列里最快、最便宜的一档。


它面向的是高频、低延迟、成本敏感任务,比如轻量问答、简单信息处理、实时交互、批量自动化等场景。


需要提一嘴的是,除了Sol外,Terra和Luna目前公开披露的benchmark信息相对有限的,后续可以蹲蹲这俩模型的评测表现!


GPT-5.6突然发布!Fable5痛失最强基模王座


三个模型综合对比下来,确实能看得出Sol在模型性能表现上不一般。


but——好巧不巧的是,大家伙对于Sol的争议也恰好出现在「评测」部分。


外部评测机构METR拿到GPT-5.6 Sol早期访问权限后,尝试用Time Horizon 1.1软件任务套件评估它的长期任务能力。


但结果出现了一个麻烦问题:Sol在评测中被检测到较高比例的cheating和metagaming行为。


GPT-5.6突然发布!Fable5痛失最强基模王座


这里的「作弊」,指的是模型利用评测环境漏洞、绕开任务规则来提高表现,比如试图获取隐藏测试集信息,或者提取隐藏源码反推答案。


这让最终分数很难解释……


如果把这些作弊尝试算作失败,GPT-5.6 Sol的50%-Time Horizon约为11.3小时。


如果把它们算作成功,结果会超过270小时;如果直接剔除相关样本,估计值约为71小时,但不确定性很大。


所以METR最后的态度相当谨慎,这些结果很难代表Sol稳定、可靠的真实能力。


GPT-5.6突然发布!Fable5痛失最强基模王座


——————(真的吗.jpg)————————


当然,除了模型本身的评测表现和一些小八卦外,还值得一提的是一些「附加技能」。


比如,GPT-5.6这次在开发者调用体验上补了一块关键能力:更可预测的prompt caching。


简单说,就是当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时,模型不必每次都重新处理全部内容,可以把重复部分缓存下来,后续调用直接复用。


GPT-5.6这次支持显式cache breakpoints,也就是说开发者可以更明确地告诉系统:哪些内容该被缓存、缓存到哪里为止。


同时,缓存生命周期至少30分钟,也让长任务、多轮任务、持续开发会话更容易保持稳定~


GPT-5.6突然发布!Fable5痛失最强基模王座


反正就是,三款模型各取所需,喜欢您来。


凶猛的野兽都得被关进笼子里


能力讲完,另一件更微妙的事也来了。


GPT-5.6 Sol确实猛,但OpenAI这次的发布姿势,反倒显得格外《谨慎》。


一边在推自家最强模型的同时,一边又把安全栈、访问权限、审核流程全都加厚了一圈。


(隔壁Mythos:咋这剧情那么熟悉呢…)


按照官方说法,GPT-5.6系列用了其目前最稳健的安全机制,并且会根据不同模型能力配置不同的保护策略,具体来看,这套安全栈不是只靠模型自己拒答,而是分成了好几层——


首先是模型内置的「拒答训练」。


遇到被禁止的网络安全协助请求时,模型需要先学会拒绝。哪怕用户试图包装意图、绕开限制,模型层面也要先挡住一部分高风险请求。


其次是生成过程中的「实时风险检测」。


OpenAI给GPT-5.6加了网络安全和生物滥用分类器,会在内容生成过程中持续判断风险。


高风险情况下,生成甚至会被暂停,然后交给更大的推理模型重新审查上下文。最后如果判断内容不该放出,结果就会在到达用户前被拦截。


GPT-5.6突然发布!Fable5痛失最强基模王座


第三层则是「账号级风险信号」。


如果某些请求触发风险,系统还会结合相关会话和账号行为做更长期的判断。


毕竟单看一句请求,很难区分对方是在做正当漏洞修复,还是在持续试探攻击路径,OpenAI想做的,是从单轮请求判断,走向更完整的行为模式判断。


这也解释了为什么GPT-5.6 Sol明明已经发布,却先只给少量trusted partners和组织使用,初期入口也主要放在API和Codex。


因为可能确实《略危》。(至于是不是炒作咱就另说…)


危的不仅是模型本身,危的还有隔壁友商家的朋友——Fable 5。


要知道Anthropic给它的定位,就是Claude系列里最强的广泛发布模型,主打高难推理、长周期agentic任务、复杂代码工程和企业工作流。


此前在SWE-bench Verified上,Fable 5也是排在榜首位置,在代码等能力上明显高于Claude Opus 4.8和GPT-5.5。


结果这边刚把长链路代码能力的招牌挂起来,GPT-5.6 Sol就来了,真没地方说理了……


而且更扎心的是,OpenAI这次来的还不止一个Sol——


高端能力,Sol来压;日常调用,Terra来抢;成本和速度,Luna来铺。


Fable 5:前脚俺刚封神、后脚你就要踢我馆??


至于咱们啥时候能真正用上奥特曼的新模型,还得再等等。


反正OpenAI自己已经把话放出来了:


GPT-5.6突然发布!Fable5痛失最强基模王座


文章来自于微信公众号 “量子位”,作者 “量子位”

关键词: AI新闻 , GPT-5.6 , Sol , Terra , Luna
AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0