AI资讯新闻榜单内容搜索-GPT-5

憋了4个月，阿里最大最强模型Qwen3-Max-Thinking正式版发布！附一手实测

阿里巴巴推出了Qwen3-Max-Thinking，这是阿里千问系列目前能力最强的旗舰级推理模型，在19项权威基准测试中，Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型打得有来有回，搭配测试时扩展（TTS）能力后，能在不少基准测试上达到SOTA。

来自主题: AI资讯

10362 点击 2026-01-27 11:21

谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选？OSU & Amazon最新

面对琳琅满目的Deep Research Agent（深度研究智能体），究竟该如何选型？本文基于OSU与Amazon最新发布的MMDR-Bench论文，为您提供一份经过严谨科学验证的“避坑指南”。结论先行：综合任务首选谷歌Gemini Deep Research，而涉及计算机科学与数据结构的硬核任务，GPT-5.2依然是专家首选。

来自主题: AI技术研报

8336 点击 2026-01-26 11:29

GPT-5.3爆更前夜，全网都被一张图吓到！ChatGPT人格大赏

一句神秘指令刷屏全网！ChatGPT启用全新「记忆」功能，画出了和人类相处的真相。如今，GPT-5.3已经在路上。

来自主题: AI资讯

7863 点击 2026-01-25 12:02

Ralph + Codex CLI：我当老板，AI当监工，GPT-5.2当牛马的正确姿势

这两天都在研究 ralph，一个你睡觉时，都能不眠不休替你干需求、榨干任何 Coding Agent 的工具。

来自主题: AI技术研报

7434 点击 2026-01-21 16:07

45年数论猜想被GPT-5.2 Pro独立完成证明，陶哲轩：没犯任何错误

AI证明数学猜想，这次来真的了。

来自主题: AI技术研报

10530 点击 2026-01-20 11:00

GPT-5.2连肝7天，300万行代码造出Chrome级浏览器

Michael Truell让Cursor中的GPT-5.2连续运行了整整一周。不是一小时，不是一天，而是不眠不休，昼夜不停，168小时持续写代码。结果？300万行代码。数千个文件。

来自主题: AI资讯

8336 点击 2026-01-15 19:47

GPT-5.2考赢人类！OpenAI警告：大模型能力已过剩，AGI天花板不是AI

刚刚，GPT-5.2刷新了一项新纪录！OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上，表现超过了人类基线水平。

来自主题: AI资讯

10763 点击 2026-01-11 10:10

华人女学霸AI杀疯！本科最难数赛12题全对，自主证明首次公开

在人类满分都罕见的普特南数赛上，AI直接12题全对拿满分。陶哲轩等大佬预言AI已经取得了重要里程碑，再加上GPT-5.2 Pro在数学上强到「离谱」的表现，那种「奇点将近」的直觉，真的压不住了。

来自主题: AI资讯

10165 点击 2026-01-10 17:10

陶哲轩泼冷水：我不相信AGI！但又一数学难题被GPT-5.2 Pro攻克

业界都在讨论的AGI之争，陶哲轩是如何看待的？就在刚刚，陶哲轩po文明确了自己的态度——还不行。他认为，目前还无法实现AGI。

来自主题: AI资讯

9183 点击 2026-01-03 14:01

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下，刷屏国内外科技圈。IQuest-Coder-V1模型系列，看起来真的很牛。在最新版SWE-Bench Verified榜单中，40B参数版本的IQuest-Coder取得了81.4%的成绩，这个成绩甚至超过了Claude Opus-4.5和GPT-5.2（这俩模型没有官方资料，但外界普遍猜测参数规模在千亿-万亿级）。

来自主题: AI资讯

9900 点击 2026-01-02 15:14