AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报
5751 点击    2025-08-13 16:03
腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!

腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!

腾讯AI Lab|让AI左右互搏,无需人类数据也能自学成才!

当前训练强大的大语言模型(LLM),就像是培养一个顶尖运动员,需要大量的、由专家(人类标注员)精心设计的训练计划和教材(高质量的标注数据)。

来自主题: AI资讯
7094 点击    2025-08-13 11:55
从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

近年来,大语言模型(LLM)已展现出卓越的通用能力,但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境,模型无法实时调整其内部参数,这一根本性瓶颈日益凸显。

来自主题: AI技术研报
6033 点击    2025-08-13 11:32
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
6360 点击    2025-08-13 11:27
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。

来自主题: AI技术研报
6552 点击    2025-08-13 11:21
AI代码生成,上下文示例怎样写最有效?港科大最新

AI代码生成,上下文示例怎样写最有效?港科大最新

AI代码生成,上下文示例怎样写最有效?港科大最新

长久以来我们都知道在Prompt里塞几个好例子能让LLM表现得更好,这就像教小孩学东西前先给他做个示范。在Vibe coding爆火后,和各种代码生成模型打交道的人变得更多了,大家也一定用过上下文学习(In-Context Learning, ICL)或者检索增强生成(RAG)这类技术来提升它的表现。

来自主题: AI技术研报
7483 点击    2025-08-13 10:45
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。

来自主题: AI技术研报
6369 点击    2025-08-12 17:03
ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力

来自主题: AI技术研报
6637 点击    2025-08-12 16:10
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考

LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考

LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考

随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了很大的提高。

来自主题: AI资讯
5924 点击    2025-08-12 15:58
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次

GPT-oss放飞自我了?!居然出现了明显的幻觉行为。 在没有提示词的情况下,消耗超过30000个token凭空想出一个问题,还反复求解了5000多次?!

来自主题: AI资讯
5658 点击    2025-08-12 11:52