
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
当一家创业公司,决定比OpenAI更快推出一款AI硬件,“快”,是他们在这场九死一生的创业游戏中,最大的砝码。 8月19日上午,在海淀区北四环的一座大厦里,我们见到了「光智时空Looki」创始人孙洋。
AI已经能够自主思考并证明新的数学规律了? OpenAI研究人员表示,自己喂给GPT-5 Pro一篇论文,结果模型读完之后得到了新的结论。
这真的是一种平衡艺术——要搞清楚模型应该具备哪些特性,以及我们希望它给人的“感觉”是什么。GPT-5发布时,我们觉得正好是一次重置和重新思考的机会。尤其是,现在要让一个模型变得很“有互动感”其实很容易,但有时候这种互动可能是不健康的,所以我们想让它成为一个健康、有帮助的助手。
在Openai 发布o3后,think with image功能得到了业界和学术界的广泛关注。
OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
从2018年至今,GPT系列模型已经来到第五代,如果让你回忆第一次使用GPT-1时的感受,可能是一种新奇却略显笨拙的震撼,就像这样: 当你问 GPT-1:麻醉状态下,你真的有意识吗?
4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
GPT-6在路上了!奥特曼旧金山采访,坦言GPT-5发布「搞砸了」,下一代模型主打个性化记忆功能,不仅记住一个人偏好习惯,还能定制专属聊天语气。令人咋舌的是,OpenAI新一轮融资完成后,估值飙升5000亿美金。