AI资讯新闻榜单内容搜索-GPT-4

OpenAI大溃败！GPT-5「换皮」GPT-4o，两年半预训练0突破

OpenAI，亟需一场翻身仗！今天，全网最大的爆料：GPT-5基石实为GPT-4o。自4o发布之后，内部预训练屡屡受挫，几乎沦为「弃子」。

来自主题: AI资讯

8328 点击 2025-12-01 10:03

DeepSeek强势回归，开源IMO金牌级数学模型

就在刚刚，DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型：DeepSeek-Math-V2。顾名思义，这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时，这个模型只用 7B 参数量，就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO，显著提升了数学推理能力。

来自主题: AI资讯

9963 点击 2025-11-27 22:47

中兴发了一篇论文，洞察AI更前沿的探索方向

当大模型参数量冲向万亿级，GPT-4o、Llama4 等模型不断刷新性能上限时，AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显，通用人工智能（AGI）的实现路径亟待突破。

来自主题: AI技术研报

8601 点击 2025-11-26 13:47

GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench，首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后，实验结果显示：GPT-4o等顶尖AI会做题，却在启发思维、情感支持等育人能力上远不及人类，暴露AI当老师的关键短板。

来自主题: AI技术研报

8465 点击 2025-11-15 10:15

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

8247 点击 2025-11-09 15:33