AI资讯新闻榜单内容搜索-GPT-5.4

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣

来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎意料的问题：如果 AI"看到" 的图，根本不是你肉眼看到的那张，会发生什么样的后果呢？他们把这种现象称作 AI 权威清洗（AI Authority Laundering）。

来自主题: AI技术研报

8910 点击 2026-05-31 11:27

国产万亿参数模型Ring-2.6-1T开源！养“龙虾”实力超GPT-5.4

今天，蚂蚁百灵开源旗舰级思考模型Ring-2.6-1T，该模型于5月9日发布，引入了可调节的Reasoning Effort机制，支持high与xhigh两种推理强度，开发者可以根据任务特性动态分配推理资源。

来自主题: AI资讯

10122 点击 2026-05-15 19:55

token级，精准控制生成长度：3B模型击败GPT 5.4、Claude

LenVM将长度建模提升到token级别，开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型；相同token预算下推理准确率提升10倍（63% vs 6%）；沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining

来自主题: AI技术研报

5794 点击 2026-05-08 14:06

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

一个3B激活参数的端侧模型，在全球Agent权威评测中，以94%任务完成率，超越了Claude、GPT-5.4、Gemini等国际主流云侧和端侧大模型。商汤绝影Sage来了，它不是「更聪明的语音助手「，而是第一个真正能在车里「办成复杂事「的智能体基座。

来自主题: AI资讯

8549 点击 2026-04-22 18:52

实测OpenRouter黑马模型，批量任务秒级响应，成本只有GPT-5.4-mini的1/10

用AI跑批量任务的人，手里基本都有一个干活的模型，不是最聪明，但要快、要便宜，稳定不出岔子。

来自主题: AI产品测评

7206 点击 2026-04-22 16:36

OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

就在刚刚，Agents SDK迎来一次彻底的架构重写。原生harness、原生沙盒、Codex级的文件系统工具，外加七家头部沙盒厂商一键接入。3月初，GPT-5.4带着原生computer use（计算机使用）高调登场时，开发者就已经吐槽过一件事。

来自主题: AI资讯

8893 点击 2026-04-16 20:39

OpenAI也搞「Mythos」？刚刚，网络安全版GPT-5.4-Cyber亮相

没放出大家伙心心念念的 GPT-5.5 或 GPT-6，OpenAI 刚刚发布了全新的、强调网络安全版本的「GPT-5.4-Cyber」。

来自主题: AI资讯

9741 点击 2026-04-15 10:09

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

今天，智谱正式开源其最强模型GLM-5.1，这一模型在专业软件开发基准测试SWE-Bench Pro中，GLM-5.1刷新全球最佳成绩，得分达到58.4，超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型，和MiniMax M2.7、Kimi K2.5等开源模型。

来自主题: AI资讯

9447 点击 2026-04-08 14:15

Qwen3.6-Plus 深度测评报告

本报告基于XSCT Arena平台，对 Qwen3.6-Plus-Preview（阿里云，2026-04-02 发布）在文字能力（xsct-l）、网页生成（xsct-w）、Agentic 任务（xsct-a）三大场景下的表现进行系统评测，并与Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、

来自主题: AI产品测评

9226 点击 2026-04-04 16:19

88岁算法祖师爷惊呆！Claude联手GPT攻破30年难题，14页论文0修改

「哈密顿分解」难题，终于破解！88岁「算法祖师爷」高德纳再更论文，Claude 4.6+GPT-5.4联合破解了奇偶数情形。甚至，GPT-5.4直出一篇14页论文，引爆全网。

来自主题: AI技术研报

7345 点击 2026-04-01 17:05

AI资讯新闻榜单内容搜索-GPT-5.4

AI权威清洗： 一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣

国产万亿参数模型Ring-2.6-1T开源！养“龙虾”实力超GPT-5.4

token级，精准控制生成长度：3B模型击败GPT 5.4、Claude

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

实测OpenRouter黑马模型，批量任务秒级响应，成本只有GPT-5.4-mini的1/10

OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

OpenAI也搞「Mythos」？刚刚，网络安全版GPT-5.4-Cyber亮相

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

Qwen3.6-Plus 深度测评报告

88岁算法祖师爷惊呆！Claude联手GPT攻破30年难题，14页论文0修改

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4、Claude Opus 4.6集体造谣