AI资讯新闻榜单内容搜索-GPT-5

GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

沉寂许久的DeepSeek又回来了！今天，DeepSeekMath-V2重磅登场，一举夺下IMO 2025金牌，实力媲美甚至超越了谷歌的IMO金牌模型，开源AI再次扳回一局。

来自主题: AI资讯

10139 点击 2025-11-28 10:45

深度讨论 Gemini 3 ：Google 王者回归，LLM 新一轮排位赛猜想｜Best Ideas

最近两周的模型竞赛非常热闹：OpenAI 在 11 月 12 日发布 GPT-5.1，引入更强的推理深度与更高效的对话体验；Google 在 11 月 18 日发布 Gemini 3，全面强化多模态理解与复杂推理能力；Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5，模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。

来自主题: AI资讯

9012 点击 2025-11-28 09:27

GPT-5首批重大科研突破官宣，但已救不了奥特曼的焦虑

OpenAI于2025年11月22号震撼发布GPT-5早期实验报告，揭示了AI从「聊天机器人」向拥有逻辑直觉的「硅基科研员」进化的里程碑式飞跃。从协助破解困扰数学界数十年的Erdős谜题，到将数月的生物实验推理压缩至几分钟，GPT-5展现了惊人的跨学科洞察力与推理质变。这份报告宣告了AI4S时代的降临：AI是科学家手中那架穿透未知迷雾的「认知望远镜」。

来自主题: AI资讯

9201 点击 2025-11-27 09:45

Nano Banana新玩法无限套娃！“GPT-5都不会处理这种级别的递归”

您猜怎么着？Nano banana的新玩法就像路易十六，根本看不到头。今天一睁眼，就发现Pro版本带着咱掉进无限套娃的世界里了，be like：

来自主题: AI资讯

8072 点击 2025-11-25 17:18

突发！Claude Opus 4.5编程世界第一，把谷歌OpenAI踢下王座

全球编码王座，一夜易主。深夜，Claude Opus 4.5重磅出世，编程实力暴击Gemini 3 Pro、GPT-5.1。才一周的时间，AI圈就完成了一次闭环式迭代。它不仅编程强，而且智能体和计算机使用（computer use）能力也是一流。

来自主题: AI资讯

11573 点击 2025-11-25 08:43

36个月大逆转！他带着谷歌AI杀回来了，下一步世界模型

ChatGPT发布距今已近36个月，面对OpenAI的领先，哈萨比斯带领谷歌AI全面反攻，通过新发布的Gemini 3强势回归。Gemini 3在LM Arena等多个模型榜单登顶，表现优于GPT-5及其他模型，上演了一场完美逆袭。

来自主题: AI资讯

7674 点击 2025-11-24 10:18

Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团

前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推，说自己「开始养成用 LLM 阅读一切的习惯」。Karpathy 在周六用氛围编程做了个新的项目，让四个最新的大模型组成一个 LLM 议会，给他做智囊团。

来自主题: AI资讯

10393 点击 2025-11-23 19:39

国产AI拿下国际物理奥赛金牌，13项顶级竞赛豪取12金1银，划重点：开源

首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的开源模型，出自国产。上海人工智能实验室团队推出新模型家族，代号P1。在IPhO 2025理论考试中，P1-235B-A22B取得21.2/30分，成为首个达到该金牌线的开源模型，仅次于Gemini-2.5-Pro与GPT-5。

来自主题: AI技术研报

8550 点击 2025-11-22 11:37

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示，即使是顶尖大模型在处理复杂任务时也表现不佳，尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话，揭示了AI在专业领域的不足，强调开发更可靠AI系统的重要性。

来自主题: AI技术研报

7918 点击 2025-11-22 11:33

AI模型大战：Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择？

前沿AI竞赛在2025年11月达到高潮。48小时内，谷歌推出Gemini 3 Pro宣称在主要推理基准测试中领先，而OpenAI立即用GPT-5.1-Codex-Max反击，这是一款专门训练用于通过创新"压缩"（compaction）技术自主工作超过24小时的专业编码模型[43]。加上Claude Sonnet 4.5已确立的编码统治地位和激进的安全过滤器，开发者面临前所未有的选择：

来自主题: AI技术研报

11883 点击 2025-11-21 17:09