AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

最近,扩散语言模型(dLLM)有点火。现在,苹果也加入这片新兴的战场了。

来自主题: AI技术研报
7209 点击    2025-06-27 16:21
AgentAuditor: 让智能体安全评估器的精确度达到人类水平

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

来自主题: AI技术研报
6070 点击    2025-06-27 15:39
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
8206 点击    2025-06-27 10:03
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

来自主题: AI技术研报
6943 点击    2025-06-26 16:05
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报
6802 点击    2025-06-26 15:52
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。

来自主题: AI技术研报
8228 点击    2025-06-26 15:37