AI资讯新闻榜单内容搜索-推理训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 推理训练
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
4232 点击    2025-07-31 10:10
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报
6612 点击    2025-04-27 09:22
谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow,也许未来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。

来自主题: AI资讯
6160 点击    2024-04-01 19:01
OpenAI 重金押注的「类脑」AI 芯片,到底是什么?

OpenAI 重金押注的「类脑」AI 芯片,到底是什么?

OpenAI 重金押注的「类脑」AI 芯片,到底是什么?

脱胎自 RISC-V,能把推理训练能效提高 1 万倍。OpenAI 的权力之争才刚刚落幕,一场关键交易悄悄浮出了水面。

来自主题: AI资讯
6910 点击    2023-12-06 17:30