AI资讯新闻榜单内容搜索-模型训练

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是：当问题不再能 “用语言说清楚” 时，模型还能不能 “看懂”？

来自主题: AI技术研报

9352 点击 2026-01-12 14:07

Sakana让AI互相「猎杀」，而它们开始了趋同进化

想象一下，一群 AI 程序在一台虚拟计算机里相互猎杀，目标只有一个：生存。

来自主题: AI技术研报

10150 点击 2026-01-12 10:32

小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

小模型身上的“秘密”这下算是被扒光了！

来自主题: AI技术研报

7513 点击 2026-01-12 10:30

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

8820 点击 2026-01-12 10:29

DeepMind发布SIMA 2！打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2，让智能体能在虚拟环境（商业游戏）中，边聊天边进行复杂的多模态推理。作为具身通用智能的原型，SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报

7509 点击 2026-01-12 10:00

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

7228 点击 2026-01-12 09:34

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

7054 点击 2026-01-11 10:01

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说，智能体在完成任务的同时，还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报

8390 点击 2026-01-11 10:01

打破学科壁垒！400篇参考文献重磅综述，统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》，首次打破认知神经科学与人工智能之间的学科壁垒，系统性地将人脑记忆机制与 Agents 记忆统一审视，

来自主题: AI技术研报

8923 点击 2026-01-11 10:00

让两个大模型「在线吵架」，他们跑通了全网95%科研代码｜深势发布Deploy-Master

在真实世界中，部署并不是一个孤立步骤，而是一条连续链路：工具能否被发现、是否被正确理解、能否构建环境，以及是否真的可以被执行。Deploy-Master 正是围绕这条链路，被设计为一个以执行为中心的一站式自动化工作流。

来自主题: AI资讯

8185 点击 2026-01-10 17:04