AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。

来自主题: AI技术研报
6177 点击    2025-04-28 16:51
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

「工欲善其事,必先利其器。」 如今,人工智能正以前所未有的速度革新人类认知的边界,而工具的高效应用已成为衡量人工智能真正智慧的关键标准。

来自主题: AI技术研报
5941 点击    2025-04-28 14:53
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5610 点击    2025-04-28 14:09
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。

来自主题: AI技术研报
8030 点击    2025-04-28 09:16
70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍

70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍

70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍

LLM的规模爆炸式增长,传统量化技术虽能压缩模型,却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局:它将模型压缩30%且输出与原始模型逐位一致!更惊艳的是,通过针对GPU的定制化解压缩内核,DFloat11使推理吞吐量提升最高38.8倍。

来自主题: AI技术研报
7942 点击    2025-04-28 09:05
用"ADL"Agent声明式语言,让你几分钟上线一个Agent | UCSB最新

用"ADL"Agent声明式语言,让你几分钟上线一个Agent | UCSB最新

用"ADL"Agent声明式语言,让你几分钟上线一个Agent | UCSB最新

今天的Agent框架虽然功能强大,但对于没有编程经验的客户服务专业人员来说却过于复杂。这些框架如AutoGen、LangGraph、CrewAI等通常将Agent声明嵌入到复杂的Python代码中,使整体工作流程难以把握,门槛过高。对于仅需构建带有业务逻辑的客服聊天机器人的非技术人员而言,这些框架犹如天书,让他们望而却步。

来自主题: AI技术研报
7196 点击    2025-04-27 13:27
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布!无需授权,就能用自家异构计算资源参与其中,让编码、数学与科学领域的推理性能迈向新高度。

来自主题: AI资讯
9061 点击    2025-04-27 09:38
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报
6578 点击    2025-04-27 09:22