AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
9007 点击    2026-02-10 14:19
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」

2026开年关键词:Self-Distillation,大模型真正走向「持续学习」

2026开年关键词:Self-Distillation,大模型真正走向「持续学习」

2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。 当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation。

来自主题: AI技术研报
6183 点击    2026-02-10 14:17
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。

来自主题: AI技术研报
8649 点击    2026-02-10 14:11
先解行为,再训Agent:CMU开源首份Agentic Search日志数据,把Agent拆开给你看

先解行为,再训Agent:CMU开源首份Agentic Search日志数据,把Agent拆开给你看

先解行为,再训Agent:CMU开源首份Agentic Search日志数据,把Agent拆开给你看

在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体 “如何发查询、如何改写、是否真正用上检索信息” 一直缺乏系统刻画与分析。

来自主题: AI技术研报
8030 点击    2026-02-09 14:55
全新视角看世界模型:从视频生成迈向通用世界模拟器

全新视角看世界模型:从视频生成迈向通用世界模拟器

全新视角看世界模型:从视频生成迈向通用世界模拟器

近年来,视频生成(Video Generation)与世界模型(World Models)已跃升为人工智能领域最炙手可热的焦点。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,让人们开始认真讨论:能否把视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。

来自主题: AI技术研报
9023 点击    2026-02-09 14:36
模型「漂移」新范式,何恺明新作让生成模型无须迭代推理

模型「漂移」新范式,何恺明新作让生成模型无须迭代推理

模型「漂移」新范式,何恺明新作让生成模型无须迭代推理

训练一个生成模型是很复杂的一件事儿。 从底层逻辑上来看,生成模型是一个逐步拟合的过程。与常见的判别类模型不同,判别类模型通常关注的是将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。

来自主题: AI技术研报
8693 点击    2026-02-09 14:24
登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

来自上海交通大学、清华大学、微软研究院、麻省理工学院(MIT)、上海 AI Lab、小红书、阿里巴巴、港科大(广州)等机构的研究团队,系统梳理了近年来大语言模型在数据准备流程中的角色变化,试图回答一个业界关心的问题:LLM 能否成为下一代数据管道的「智能语义中枢」,彻底重构数据准备的范式?

来自主题: AI技术研报
8021 点击    2026-02-09 11:12