AI资讯新闻榜单内容搜索-模型训练

2026年，大模型训练的下半场属于「强化学习云」

2024 年底，硅谷和北京的茶水间里都在讨论同一个令人不安的话题：Scaling Law 似乎正在撞墙。

来自主题: AI技术研报

8664 点击 2026-01-12 15:13

AAAI 2026 Oral｜快手提出全新「检索数据引擎」CroPS，打破搜索信息茧房

短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而，当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据，导致系统陷入信息茧房，难以召回潜在相关的新鲜内容。

来自主题: AI技术研报

5509 点击 2026-01-12 14:08

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是：当问题不再能 “用语言说清楚” 时，模型还能不能 “看懂”？

来自主题: AI技术研报

9532 点击 2026-01-12 14:07

Sakana让AI互相「猎杀」，而它们开始了趋同进化

想象一下，一群 AI 程序在一台虚拟计算机里相互猎杀，目标只有一个：生存。

来自主题: AI技术研报

10349 点击 2026-01-12 10:32

小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

小模型身上的“秘密”这下算是被扒光了！

来自主题: AI技术研报

7652 点击 2026-01-12 10:30

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

8961 点击 2026-01-12 10:29

DeepMind发布SIMA 2！打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2，让智能体能在虚拟环境（商业游戏）中，边聊天边进行复杂的多模态推理。作为具身通用智能的原型，SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报

7678 点击 2026-01-12 10:00

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

7395 点击 2026-01-12 09:34

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

7264 点击 2026-01-11 10:01

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说，智能体在完成任务的同时，还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报

8614 点击 2026-01-11 10:01