AI资讯新闻榜单内容搜索-GPT-5

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-5
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。

来自主题: AI技术研报
8293 点击    2026-04-27 15:18
奇点临近!全球AI终局战,只剩OpenAI和Anthropic的双人舞

奇点临近!全球AI终局战,只剩OpenAI和Anthropic的双人舞

奇点临近!全球AI终局战,只剩OpenAI和Anthropic的双人舞

全球AI终局战,牌桌上只剩OpenAI和Anthropic了!现在,两家已经开启了指数级双雄争霸,GPT-5.5救了老黄,Blackwell重锤反击。面对30GW的算力对决和步骤坍塌,谁能拿稳AGI的头等舱门票?

来自主题: AI资讯
7638 点击    2026-04-27 15:17
AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

1946年至今,「人类最高智商俱乐部」门萨将迎来第一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro文本IQ 130踩上门萨会员线,视觉IQ直接飙到145,杀进天才区。一年前「LLM过不了130」还是技术圈共识,今天,这堵墙彻底被砸碎!

来自主题: AI资讯
9337 点击    2026-04-26 23:48
DeepSeek-V4和GPT-5.5第一波实测对决,结果出人意料!

DeepSeek-V4和GPT-5.5第一波实测对决,结果出人意料!

DeepSeek-V4和GPT-5.5第一波实测对决,结果出人意料!

昨夜,GPT-5.5果然按期发布了,全网没有白等。更炸裂的是,就在同一天,DeepSeek-V4紧随其后发布了!实测后,结果出人意料。

来自主题: AI产品测评
7809 点击    2026-04-25 09:56
Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

就在GPT-5.5发布的前后脚,Claude招了: 模型降智属实,所有使用额度均已重置。嘴硬了一个多月,这降智bug终于从A社自己嘴里蹦出来了:三个bug叠在一起,Claude使用体验全面拉垮。

来自主题: AI资讯
8474 点击    2026-04-24 15:51
GPT-5.5 发布,详细解读

GPT-5.5 发布,详细解读

GPT-5.5 发布,详细解读

凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新

来自主题: AI技术研报
7568 点击    2026-04-24 10:13
GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻

GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻

GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻

就在刚刚,奥特曼深夜掷出GPT-5.5!全方位暴击Claude Opus 4.7,重新夺回地表最强王座。从写代码到搞科研,AI独立接管电脑的时代真的来了!

来自主题: AI资讯
10020 点击    2026-04-24 08:17
GPT-5.5,刚刚泄露了

GPT-5.5,刚刚泄露了

GPT-5.5,刚刚泄露了

就在刚刚,Codex平台爆发重大泄漏事故,内部测试环境疑似误推生产环境。GPT-5.5、「风速狗」Arcanine、「海森堡」以及神秘的Glacier集体亮相。奥特曼口中那个「比Transformer更伟大的架构」,难道已经藏在这些模型背后?

来自主题: AI资讯
8471 点击    2026-04-23 15:26
3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一

3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一

3B激活参数!商汤绝影Sage登顶PinchBench,端侧第一

一个3B激活参数的端侧模型,在全球Agent权威评测中,以94%任务完成率,超越了Claude、GPT-5.4、Gemini等国际主流云侧和端侧大模型。商汤绝影Sage来了,它不是「更聪明的语音助手「,而是第一个真正能在车里「办成复杂事「的智能体基座。

来自主题: AI资讯
8391 点击    2026-04-22 18:52
实测OpenRouter黑马模型,批量任务秒级响应,成本只有GPT-5.4-mini的1/10

实测OpenRouter黑马模型,批量任务秒级响应,成本只有GPT-5.4-mini的1/10

实测OpenRouter黑马模型,批量任务秒级响应,成本只有GPT-5.4-mini的1/10

用AI跑批量任务的人,手里基本都有一个干活的模型,不是最聪明,但要快、要便宜,稳定不出岔子。

来自主题: AI产品测评
6964 点击    2026-04-22 16:36