训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密
训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难
来自上海科学智能研究院(上智院)、北京大学、复旦大学的联合团队,提出了一套名为PackingStar的强化学习系统,一口气刷新了25-31连续7个维度的世界纪录。
就在刚刚,稚晖君(彭志辉)所创办的智元机器人在视频号上甩出了一条名为「绝世高手,马上下山」的一分钟视频。官方还特意标注了全程实景实拍,没用 CG 特效,也不是 AI 创作。
“OpenClaw们”让2026彻底卷成了智能体大战。当初那个“智能体早期真神”,让25个智能体自己聊天、传八卦、谈恋爱的AI小镇Smallville团队也官宣创业了。公司名叫Simile,直接拿下了Index Ventures领投的1亿美元融资,连卡帕西、李飞飞也跟了。
2024年11月,李可佳、吴俊东、张栖铭决定一起创业,做一款“帮助用户终身学习”的AI Agent。新公司被命名为Ouraca ,是“Our Academy”的缩写。
OpenAI深夜突袭,GPT-5.3-Codex-Spark正式炸场。核心卖点只有一个:快!每秒1000个token,让代码生成告别加载条。联手Cerebras怪兽级硬件,物理外挂直接拉满。这不再是简单的工具升级。而是一场关于速度的暴力美学。
装 Clawdbot(现在叫 OpenClaw)不难。难的是装完之后打开一看——1700 多个 Skill,不知道先装哪个。我帮你筛了一遍。下面 20 个 Skill 按「先打地基 → 再接入口 → 最后扩场景」的顺序排好了,跟着装就行。每个都写清楚:干嘛用的、适合谁、一句话安装。
确认了!DeepSeek昨晚官宣网页版、APP更新,支持100k token上下文。如今,全网都在蹲DeepSeek V4了。
当大多数人还在测试它的单点逻辑推理能力时,敏锐的开发者已经发现了一个更具破坏力的玩法:将GLM-5的高密度思维模型注入到Anthropic最新推出的Claude Code Agent Teams架构中。
2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌、阿里千问旗下通用大模型。