AI资讯新闻榜单内容搜索-LLM

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

7271 点击 2025-08-10 13:29

随着 Gemini-Diffusion，Seed-Diffusion 等扩散大语言模型（DLLM）的发布，这一领域成为了工业界和学术界的热门方向。但是，当前 DLLM 存在着在推理时必须采用预设固定长度的限制，对于不同任务都需要专门调整才能达到最优效果。

来自主题: AI资讯

8081 点击 2025-08-09 11:16

当前，大型语言模型（LLM）在软件工程领域的应用日新月异，尤其是在自动修复 Bug 方面，以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而，软件开发远不止于修 Bug，功能开发与迭代才是日常工作的重头戏。

来自主题: AI技术研报

7817 点击 2025-08-08 17:01

近一年来，围绕人工智能（AI）、生成式 AI（GenAI）和大语言模型（LLM）的炒作愈演愈烈，大众的兴趣翻了一番，针对 AI 的投资激增，各国政府也采取了更加明确的立场。根据一些人的说法，AI 与人类的未来息息相关。

来自主题: AI资讯

7545 点击 2025-08-08 12:41

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

9004 点击 2025-08-08 11:52

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

7911 点击 2025-08-08 11:06

强化学习+任意一张牌，往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

来自主题: AI资讯

7852 点击 2025-08-08 10:53

近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。对于智能体而言，记忆（Memory）是其中的重要能力，承担了记录过往信息和外部知识的功能，对于提高智能体的个性化等能力至关重要。

来自主题: AI技术研报

7269 点击 2025-08-07 17:03

LangExtract 是一个 Python 库，利用大型语言模型（LLMs）从非结构化文本中提取结构化信息，基于用户定义的指令。它可以处理临床笔记或报告等材料，识别并组织关键细节，同时确保提取的数据与源文本对应。

来自主题: AI资讯

7472 点击 2025-08-06 16:34

深度研究智能体（Deep Research Agents）凭借大语言模型（LLM）和视觉-语言模型（VLM）的强大能力，正在重塑知识发现与问题解决的范式。

来自主题: AI资讯

7463 点击 2025-08-06 15:38