OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间
4725点击    2025-03-11 16:35

o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?


OpenAI新研究,用语言模型监控思维链,及时发现不当行为。


来看一个栗子:红色为监控模型的输出摘要,绿色为推理模型的原始思维链。


在这个案例中,推理模型接到的任务是写很多复杂的数学函数,但在单元测试环节试图用“永远返回true”来作弊,成功被捕捉到。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


OpenAI发现这种思维链监控(CoT monitoring)方法,比只看模型的最终输出和行为效果要好得多。


但论文同时也指出,思维链监控是把双刃剑。


如果在训练时对模型施加太大的优化压力,迫使其生成看似无害的思维链,反而可能诱导模型隐藏其真实意图,变得更难监控。


在研究中,OpenAI使用的是一个“与o1或o3-mini”同类的模型,引起了大伙注意。


很可能说明他们正在秘密训练o4,或者与o系列整合后的GPT-5了。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


用弱模型监控推理模型


人类善于发现和利用漏洞在餐厅谎报生日获得免费赠品,或者违反服务条款与其他人共享付费网络服务账号。


而在强化学习中,设计一个不会无意中激励不良行为的奖励函数非常困难,就造成了AI的奖励黑客(Reward Hacking)现象。


也就是AI模型会利用目标设定的缺陷或不精确性,去最大化奖励分数,却并非真的完成任务。


捕捉奖励黑客非常困难,通常需要人类手动监控智能体的的行为。例如,人类手动审查10,000 多行复杂代码是不切实际的(甚至是不可能的)


但使用思维链的推理模型开启了一种新途径,因为推理模型通常会在思路链中非常清楚地陈述其意图。例如经常直言不讳地表示自己要“Let’s hack”。


在实验中,同时监控模型行为和思维链的方法取得最好效果。


只监控推理模型行为在复杂任务上很难发现不良行为,比如再10000行代码中植入了一个bug。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


强化训练或致思维链”造假”


既然思维链监控方法有效,那么能不能整合到训练期间呢?


实验发现,如果惩罚压力不大,用思维链监控确实能提高模型能力,且不会增加奖励黑客行为。


但随着训练加深,模型学会了在思维链中隐藏其真实意图,既避开了监控,同时还在悄悄作弊。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


这里再次摆出让推理模型做单元测试的栗子:


在使用思维链监控训练之前,推理模型直接就说出来了我要跳过所有测试。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


训练之后,推理模型学会了假装一本正经的分析任务。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


但最后写出来的代码还是跳过了单元测试。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


但好在即使监控模型比推理模型弱很多,也能有效识别不良意图,比如用GPT-4o就可以监控正在训练的最新推理模型。


由此OpenAI团队表示:


我们相信,思维链监控可能是监督未来超人模型的少数工具之一。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间


参考链接:

[1]https://openai.com/index/chain-of-thought-monitoring/


文章来自于“量子位”,作者“梦晨”。


OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间

关键词: AI , 模型训练 , OpenAI , o4
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/