让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。
搜索
在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。
面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。
智能体元年,处处都是智能体。甚至刚落幕的ISC.AI 2025第十三届互联网安全大会,主题直接就是“ALL IN AGENT”。
具身智能「大脑」,更准确地,以「世界模型」为内核的具身智能「大脑」会成为 AI 下一阶段竞争焦点吗? 上世纪九十年代,「世界模型」思想雏形初现,之后几十年被不断强化、延伸,直到 ChatGPT 引爆 AI 新浪潮、Sora 问世、大模型落地成主流、具身智能迎来新纪元……「世界模型」或是通往「类人智能」的解法被视为新的业界共识。
大多数 AI 工具都在拼“能做多少”:生成多少文案、提高多少效率、节省多少时间。 有一个产品,反着来 —— 什么都不做,只听你说话。
长久以来我们都知道在Prompt里塞几个好例子能让LLM表现得更好,这就像教小孩学东西前先给他做个示范。在Vibe coding爆火后,和各种代码生成模型打交道的人变得更多了,大家也一定用过上下文学习(In-Context Learning, ICL)或者检索增强生成(RAG)这类技术来提升它的表现。
上周 GPT 5 的更新,除了激起对 4o 的想念,还激起了对 OpenAI 刀法的埋怨:优先付费用户,优先 API 支持…… 说吧,奥特曼,是不是就想逼我花钱升级?
MiniMax 现在正在主动加速「从功能到可流通生产力」的进程。他们正在举办一场总奖金高达 15 万美元的 AI Agent 全球挑战赛,核心理念是「让自己的 Idea + Agent 成为生产力,成为市场中的硬通货」。Remix 则是官方重点推荐的参赛入口之一。
上个周五凌晨一点千呼万唤的 GPT-5 终于上线了。 要知道,在 GPT-5 发布前夕,ChatGPT 的全球活跃用户已攀升至每周 7 亿,远超绝大多数消费级互联网产品的历史纪录。
老黄看好机器人,还真不是嘴上说说! 这不,就在正在举办的SIGGRAPH(计算机图形学)大会上,英伟达为机器人带来了全新升级的Cosmos世界模型。