X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。
年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。
近日,来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”,借此不仅揭示了单次生成范式的根本性脆弱点,也揭示了“准确率悬崖”这一现象。
AutoGame 创始人张昊阳离开腾讯后,带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50,一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构,他们让普通玩家能“一句话生成 NPC、任务与道具”,将 UGC 创作门槛降至短视频级别,把传统“金字塔型”内容生态变为“十字型”社交表达平台。
在几天前的开发者大会上,OpenAI 发布了一套面向开发者和企业的完整工具集 AgentKit。其中,可视化画布 Agent Builder 用于创建、管理和版本化多智能体工作流,通过拖拽节点的方式即可编辑工作流。
机器之心报道 编辑:泽南 真正实用化的生成式 AI,应该是这个样子 —— 作为助手可以帮你代打电话,根据你的选项进行应答,还能引导对方转人工: 功能覆盖多个场景,连接大量第三方应用,实现多智能体的一键
MGX,全称 MetaGPT X,是 DeepWisdom 推出的多智能体平台,定位是“24/7 的 AI 开发团队”。它的特别之处在于,你只需要输入需求,系统就会自动生成一支虚拟团队。
写代码的规则,正在被悄悄改写!不再是「人+AI一起盯屏幕」,而是一次性放出十几个任务,让代理们各自跑。真正的门槛,也不再是你能写多少行代码,而是你能不能写清楚需求、明确地拆分任务、快速浏览结果。
结合现在已经非常成熟 CLI、IDE 工具等的辅助,采用编码智能体进行开发工作已经成为了一种常态,甚至成为了一种新的生活方式。不仅仅是程序员,产品类、设计类岗位的从业人员都已广泛采用 AI 编码智能体辅助工作,AI 生成的代码比例越来越高。
就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破
人工996,智能体就能做了!刚刚,「基础设施智能体蜂群」正式诞生,多智能体系统,打造感知-决策-执行闭环,彻底颠覆传统运维模式。从此,智能体专业团队加持,集群排障效率起飞。