AI资讯新闻榜单内容搜索-GPT-5

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名，仅次于 Claude Opus 4.7。除了真实场景的用户选择，在传统的大模型固定评测榜单上，像是终端能力 Terminal Bench、编程能力 SWE Bench 等，Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评

9610 点击 2026-05-28 12:06

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？

一个号称「零污染」的新基准 DeepSWE，用113道原创题撕开了旧编程榜单的遮羞布。

来自主题: AI资讯

8861 点击 2026-05-28 10:51

实锤！GPT-5.5「降智」被抓，OpenAI官方文档认了

GPT-5.5被扒出「假思考」，用两小时就被偷偷换成mini，200美元月费买了个「薛定谔的脑子」。Trace命令实锤，官方文档亲自认领。往后有纷纷吐槽：OpenAI，你糊弄谁呢？

来自主题: AI资讯

8915 点击 2026-05-27 23:48

GPT-5.6泄露了！

最近，GPT-5.6泄露了！150万Token+神级极简UI，下月紧急上线，奥特曼的「超级智能体」要掀翻整个硅谷？6月AI大战，已经提前爆发了。

来自主题: AI资讯

11025 点击 2026-05-25 22:56

给AlphaFold2开刀！GPT-5.5自进化，狂肝150小时改进蛋白质折叠

有人晒出开源项目：GPT-5.5连续狂飙150小时，自主挑战诺奖级AlphaFold2！它用拓扑「单纯形」重构蛋白质折叠逻辑，虽然性能暂未登顶，却展示了AI科学家的恐怖潜力：秒回滚、零情绪、全自动进化。科研范式，真要变天了。

来自主题: AI资讯

9855 点击 2026-05-24 10:37

24小时从零写一个GBA模拟器！GPT-5.5跑出53分登顶，Gemini得了0.8分，底部还有两家交白卷

Mechanize 发布了一项硬核测试：给前沿 AI coding agents 24 小时，用 Rust 从零写一个完整的 Game Boy Advance 模拟器，再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报

8122 点击 2026-05-18 16:48

Claude Mythos猛虎出笼！秒破人类一年无解漏洞，GPT-5.5都压不住

就在刚刚，被Anthropic视为「太危险」的绝密大模型Mythos，竟在谷歌云悄悄解禁。CMU最新实测爆出，它在真实漏洞攻防中，断层碾压GPT-5.5。

来自主题: AI资讯

9209 点击 2026-05-17 11:23

国产万亿参数模型Ring-2.6-1T开源！养“龙虾”实力超GPT-5.4

今天，蚂蚁百灵开源旗舰级思考模型Ring-2.6-1T，该模型于5月9日发布，引入了可调节的Reasoning Effort机制，支持high与xhigh两种推理强度，开发者可以根据任务特性动态分配推理资源。

来自主题: AI资讯

10357 点击 2026-05-15 19:55

Gemini 3.5 Pro全网首曝，编程追平GPT-5.5！谷歌终于狠起来了

就在刚刚，Gemini 3.5提前曝光了！网友Lentils放出最新消息，代号「Cappuccino」的Gemini 3.5 Pro检查点已经开始产出。而就在几个小时前，传闻还是Gemini 3.2，没想到一下子就替换成了Gemini 3.5。

来自主题: AI资讯

11516 点击 2026-05-15 16:57

Cyber天花板被打穿！AISI实测Mythos能力正以4.5月翻倍速冲向ASI

英国AI安全研究所（AISI）昨天扔下重磅炸弹：Mythos在模拟企业内网32步渗透任务中10次过6，GPT-5.5也跟着10次过3，连此前所有模型都没破过的Cooling Tower靶场都被首次攻破！更炸的是——Cyber能力翻倍周期一路压到4.5个月，瓶颈不是智力，是Token。这场ASI决赛，人类评测已经追不上AI了。

来自主题: AI资讯

8013 点击 2026-05-15 11:04