研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
Artificial Analysis 最近发布了《State of AI: China Q2 2025 Highlights Report》(2025年Q2 中国人工智能现状分析报告),聚焦中国 AI 发展现状。
一场创业公司对大厂产品的反向收购,罕见地发生在了AI搜索战场。 2025年8月12日,据“华尔街日报”消息,美国AI搜索领域的“顶流”初创公司Perplexity,正在计划全现金收购谷歌的Chrome浏览器,报价高达345亿美元。
今年投资者对开发AI 语音代理的初创企业兴趣渐增,这些应用场景涵盖从酒店服务到建筑施工等多个行业。EliseAI——这家为物业管理和医疗行业开发人工智能的公司,其产品包括能接听住户和患者来电的语音助手。
8月12日下午,北京清华科技园赛尔大厦17层——百川智能总部。这里距离王小川曾经奋战多年的搜狐大厦不到80米。但在这80米的距离之外,他向我们呈现出了一个与“搜狗时代”截然不同的形象。
人头攒动的2025WRC(世界机器人大会)上,不乏各种酷炫的Demo展示,可在一众敲锣打鼓的机器人表演中,具身智能公司星海图展位上,机器人却在安静地执行铺床任务。
穿着运动鞋的鲨鱼踩着滑板冲浪,头顶卡布奇诺泡沫的芭蕾舞者在水晶球里旋转——这些被称为“脑残视频”(Brainrot Videos)的荒诞内容正在TikTok和Instagram上病毒式传播,年轻用户群体疯狂追捧这些脱离现实逻辑的视觉梗图,单条播放量动辄突破千万。
2024年,AI创业的叙事正在发生根本性转变。如果说2023年是“百模大战”的技术奇观与资本狂欢,那么今年,当市场的喧嚣逐渐沉淀,聚光灯则明确地打向了产业落地的主战场。一批真正意义上的“AI原生”新势力正在快速崛起,它们不再是传统业务的AI改良派,而是将大模型作为数字世界的地基,直接构建商业大厦的“原住民”。
面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。
智能体元年,处处都是智能体。甚至刚落幕的ISC.AI 2025第十三届互联网安全大会,主题直接就是“ALL IN AGENT”。