AI资讯新闻榜单内容搜索-训练

小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

小模型身上的“秘密”这下算是被扒光了！

来自主题: AI技术研报

7600 点击 2026-01-12 10:30

Anthropic联创：还不存在真正递归自我改进的AI！曝内部调查结果：AI未必能实现开发效率爆炸式增长；Claude也能修水管，看好分布式预训练

Anthropic联创又出来说话了！

来自主题: AI资讯

10357 点击 2026-01-12 10:29

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

8917 点击 2026-01-12 10:29

DeepMind发布SIMA 2！打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2，让智能体能在虚拟环境（商业游戏）中，边聊天边进行复杂的多模态推理。作为具身通用智能的原型，SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报

7627 点击 2026-01-12 10:00

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

7340 点击 2026-01-12 09:34

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

7198 点击 2026-01-11 10:01

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说，智能体在完成任务的同时，还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报

8519 点击 2026-01-11 10:01

打破学科壁垒！400篇参考文献重磅综述，统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》，首次打破认知神经科学与人工智能之间的学科壁垒，系统性地将人脑记忆机制与 Agents 记忆统一审视，

来自主题: AI技术研报

9098 点击 2026-01-11 10:00

让两个大模型「在线吵架」，他们跑通了全网95%科研代码｜深势发布Deploy-Master

在真实世界中，部署并不是一个孤立步骤，而是一条连续链路：工具能否被发现、是否被正确理解、能否构建环境，以及是否真的可以被执行。Deploy-Master 正是围绕这条链路，被设计为一个以执行为中心的一站式自动化工作流。

来自主题: AI资讯

8405 点击 2026-01-10 17:04

一年后，DeepSeek-R1的每token成本降到了原来的1/32

几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容，包括首次公开训练全路径，即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline，以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报

7549 点击 2026-01-10 17:02