
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
GPT-5要来了,来势汹汹!泄露的基准测试+Minecraft实测,直接让全网惊掉下巴:代号Zenith的GPT-5-pro在游戏中如行云流水,被称为「魔法级AI」。更有爆料称它将于7月31日发布,吊打Grok 4 Heavy!OpenAI这是又要掀桌了?
ChatGPT大更新,正式推出了学习模式(Study Mode): 不再只是给你答案,而是要像老师一样引导你一步步思考问题。
10亿刀都不为所动,小扎也是碰上了最难啃的骨头!
我之前看各种什么OpenAI、Google等等的发布会,还有各种线下的英语演讲的时候,一直有一个痛点。
AI玩具赛道火热,吸引OpenAI、美泰、马斯克等巨头入局,阿里美团前高管涌⼊创业。⼤模型开源与技术进步驱动产品多元发展(⽑绒玩具、机器⼈),但⾏业尚缺现象级爆款。AI玩具较普通款售价飙升5-26倍,⽑利率达70%-90%。中国依托供应链、市场潜⼒与技术应⽤优势,有望率先引爆该万亿级市场。
今天凌晨,ChatGPT 迎来了一个重磅更新。不是 GPT-5,而是 Study Mode(学习模式)。在该模式下,ChatGPT 不再只是针对用户查询给出答案,而是会帮助用户一步步地解决自己的问题。
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
智谱新一代旗舰「融合大模型」GLM-4.5,集成推理、代码与智能体能力,实现原生智能体模式。
就在刚刚,智谱正式发布最新旗舰模型 GLM-4.5。按照智谱官方说法,这是一款专为 Agent 应用打造的基础模型。延续一贯的开源原则,目前这款模型已经在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。