AI资讯新闻榜单内容搜索-模型

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

终于有人要给大模型安“脖子”了！

来自主题: AI技术研报

7621 点击 2025-11-28 10:03

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

9009 点击 2025-11-28 09:28

深度讨论 Gemini 3 ：Google 王者回归，LLM 新一轮排位赛猜想｜Best Ideas

最近两周的模型竞赛非常热闹：OpenAI 在 11 月 12 日发布 GPT-5.1，引入更强的推理深度与更高效的对话体验；Google 在 11 月 18 日发布 Gemini 3，全面强化多模态理解与复杂推理能力；Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5，模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。

来自主题: AI资讯

8678 点击 2025-11-28 09:27

NeuroAI的尴尬现实：我们是被迫加上AI这个标签的吗？

“后来，人工智能（AI）变得无处不在。如今我们‘勉强’接受NeuroAI这个称呼，只为大众能理解其含义。”

来自主题: AI资讯

7205 点击 2025-11-28 09:25

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

被顶会ICCV 2025以554高分接收的视频理解框架来了！

来自主题: AI技术研报

7991 点击 2025-11-28 09:24

DeepSeek强势回归，开源IMO金牌级数学模型

就在刚刚，DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型：DeepSeek-Math-V2。顾名思义，这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时，这个模型只用 7B 参数量，就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO，显著提升了数学推理能力。

来自主题: AI资讯

9268 点击 2025-11-27 22:47