AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报
7514 点击    2026-01-12 10:00
挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报
7231 点击    2026-01-12 09:34
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报
7058 点击    2026-01-11 10:01
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报
8394 点击    2026-01-11 10:01
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》,首次打破认知神经科学与人工智能之间的学科壁垒,系统性地将人脑记忆机制与 Agents 记忆统一审视,

来自主题: AI技术研报
8929 点击    2026-01-11 10:00
让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master

让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master

让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master

在真实世界中,部署并不是一个孤立步骤,而是一条连续链路:工具能否被发现、是否被正确理解、能否构建环境,以及是否真的可以被执行。Deploy-Master 正是围绕这条链路,被设计为一个以执行为中心的一站式自动化工作流。

来自主题: AI资讯
8198 点击    2026-01-10 17:04
一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报
7393 点击    2026-01-10 17:02
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式

来自主题: AI技术研报
5604 点击    2026-01-10 17:00
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报
8180 点击    2026-01-10 10:16
MIT天才博士刚毕业,就被前OpenAI CTO抢走!年薪或300万起步

MIT天才博士刚毕业,就被前OpenAI CTO抢走!年薪或300万起步

MIT天才博士刚毕业,就被前OpenAI CTO抢走!年薪或300万起步

MIT天才博士一毕业,火速加盟OpenAI前CTO初创!最近,肖光烜(Guangxuan Xiao)在社交媒体官宣,刚刚完成了MIT博士学位。下一步,他将加入Thinking Machines,专注于大模型预训练的工作。

来自主题: AI资讯
8217 点击    2026-01-09 14:42