Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。
本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。
Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。
Deep Research 产品可被理解为一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对信息进行迭代搜索和分析,并生成详细报告作为输出。
专为GitHub打造的免费百科全书来了——DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。
就在刚刚,美国政府曝光了各界对「AI行动计划」的全部政策建议。OpenAI措辞激烈地表示,DeepSeek让我们看到,必须马上锁死中国AI,必须限制高端GPU芯片和模型权重流向中国!Anthropic同样呼吁:必须立马补上H20这一关键漏洞,并且严控H100的门槛。
在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。
六边形战士来了。
近日,GPT-4.5核心开发者之一的Kai Chen因绿卡申请被拒,面临被迫离开美国的困境。与此同时,1700多名国际学生和研究人员因签证审查受阻,Nature调查显示75%的美国科学家正考虑逃离。这种人才流失或将影响美国在全球AI领域的领先地位。
AIMO2冠军「答卷」公布了!英伟达团队NemoSkills拔得头筹,开源了OpenMath-Nemotron系列AI模型,1.5B小模型击败14B-DeepSeek「推理大模型」!
和邀请码、内测说拜拜,百度95后年轻小团队以内部创业形式,30天肝出了个“手机端Manus”现货。