AI资讯新闻榜单内容搜索-语言模型

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7505 点击 2025-08-13 16:03

腾讯AI Lab|让AI左右互搏，无需人类数据也能自学成才！

当前训练强大的大语言模型（LLM），就像是培养一个顶尖运动员，需要大量的、由专家（人类标注员）精心设计的训练计划和教材（高质量的标注数据）。

来自主题: AI资讯

9196 点击 2025-08-13 11:55

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

近年来，大语言模型（LLM）已展现出卓越的通用能力，但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境，模型无法实时调整其内部参数，这一根本性瓶颈日益凸显。

来自主题: AI技术研报

7928 点击 2025-08-13 11:32

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

7849 点击 2025-08-12 11:07

从开源项目到2500万美元融资：如何打造下一代AI Agent的互联网基础设施

Tavily AI 的故事开始于一个开源项目。创始人 Rotem Weiss 在 2023 年创建了一个叫做 GPT Researcher 的开源工具，目的是让大语言模型能够获取实时的网络数据。当时 ChatGPT 还没有接入互联网搜索功能，这个小工具迅速在开发者社区中走红，收获了近 2 万个 GitHub stars。

来自主题: AI资讯

10089 点击 2025-08-11 14:14

token危机解决？扩散模型数据潜力3倍于自回归，重训480次性能仍攀升

扩散语言模型（DLMs）是超强的数据学习者。 token 危机终于要不存在了吗？近日，新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。

来自主题: AI资讯

7308 点击 2025-08-11 10:53

联合理解生成的关键拼图？腾讯发布X-Omni：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像

在图像生成领域，自回归（Autoregressive, AR）模型与扩散（Diffusion）模型之间的技术路线之争始终未曾停歇。大语言模型（LLM）凭借其基于「预测下一个词元」的优雅范式，已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报

7599 点击 2025-08-11 10:17

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

一句话概括，本文探索了语言模型的终极内卷模式：不再依赖人类投喂，通过“自问自答”的左右互搏，硬生生把自己逼成了学霸。AlphaGo下棋我懂，这大模型自己给自己出数学题做就有点离谱了，堪称AI界的“闭关修炼”，出关即无敌。

来自主题: AI资讯

9179 点击 2025-08-10 14:29

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

7545 点击 2025-08-10 13:29

扩散LLM推理新范式：打破生成长度限制，实现动态自适应调节

随着 Gemini-Diffusion，Seed-Diffusion 等扩散大语言模型（DLLM）的发布，这一领域成为了工业界和学术界的热门方向。但是，当前 DLLM 存在着在推理时必须采用预设固定长度的限制，对于不同任务都需要专门调整才能达到最优效果。

来自主题: AI资讯

8325 点击 2025-08-09 11:16