
扩展强化学习:环境、奖励黑客、智能体、数据扩展
扩展强化学习:环境、奖励黑客、智能体、数据扩展Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。
Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。
我们拆解AI Agent的运作流程,包括感知层、决策层和执行层。
AI Agent又解锁了一个领域!清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。
地产界,跑出一个Manus
就在刚刚,DeepMind科学家Jon Richens表示,自己的一篇ICML 2025论文发现,智能体就是世界模型!总之,如果要实现AGI,是绝对不存在无模型的捷径的。而这个说法,恰巧跟Ilya 23年的预言不谋而合了。
QuestMobile 在 5 月发布的中国市场报告中指出,今年 3 月 AI 原生 APP 活跃用户数突破 2.7 亿,同比增长 536.8%,但也形成了截然不同的梯队,可以观察到明显的「赢者通吃」
Agent 能力边界正在快速演进,未来随着更强的规划和推理能力的不断提升,Agent 们将参与到社会经济运作中。在这一趋势下,将可能诞生类似 Visa 或 Stripe 级别的商业基础设施的机会。
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。
效果超预期、当前PPT制作第一名……