AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。

来自主题: AI技术研报
6731 点击    2026-02-06 10:34
第二代AI预训练范式:预测下个物理状态

第二代AI预训练范式:预测下个物理状态

第二代AI预训练范式:预测下个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。

来自主题: AI资讯
7343 点击    2026-02-05 13:54
美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报
10201 点击    2026-02-05 13:50
谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦

谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦

谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦

刚刚,谷歌发布了一项新的研究进展:他们用 Gemini 做了一次系统性的数学攻关实验,把目标对准了著名的 Erdős Problems 数据库里 700 个仍被标注为 open(未解决)的猜想。

来自主题: AI技术研报
9696 点击    2026-02-04 17:24
致敬Kimi K2:基于slime的全流程INT4量化感知RL训练

致敬Kimi K2:基于slime的全流程INT4量化感知RL训练

致敬Kimi K2:基于slime的全流程INT4量化感知RL训练

受 Kimi K2 团队启发,SGLang RL 团队成功落地了 INT4 量化感知训练(QAT) 流程方案。通过 “训练端伪量化 + 推理端真实量化(W4A16)” 的方案组合,我们实现了媲美 BF16 全精度训练的稳定性与训推一致性,

来自主题: AI技术研报
6308 点击    2026-02-04 16:32
ICLR 2026 | Rebuttal 是一场「带着镣铐的舞蹈」?港科 RebuttalAgent 用心智理论「读懂」审稿人

ICLR 2026 | Rebuttal 是一场「带着镣铐的舞蹈」?港科 RebuttalAgent 用心智理论「读懂」审稿人

ICLR 2026 | Rebuttal 是一场「带着镣铐的舞蹈」?港科 RebuttalAgent 用心智理论「读懂」审稿人

面对同行评审,许多作者都有过这样的经历:明明回答了审稿人的每一个问题,态度也足够谦卑,为什么最终还是没能打动对方?

来自主题: AI技术研报
7193 点击    2026-02-04 16:30
刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习

刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习

刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习

不久前在 AGI-Next 前沿峰会上,姚顺雨曾分享过一个核心观点:模型想要迈向高价值应用,核心瓶颈就在于能否「用好上下文(Context)」。

来自主题: AI技术研报
6733 点击    2026-02-04 16:26
像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

让模型真正 “能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model):它不是抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义 —— 例如 PDDL 领域 / 问题,或可运行的环境代码 / 模拟器。

来自主题: AI技术研报
6648 点击    2026-02-03 09:11