GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭
GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。
顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。
ChatGPT首份使用报告重磅上线!周月活飙至7亿,它已成为高学历白领的办公利器,编程却成为冷门。同时,Anthropic最新报告称,人们交给Claude完成任务暴涨至49%。
奥特曼最近要做什么?投资、合作、加码,这次是一家初创的长寿公司。当然,同样和AI脱不开干系。奥特曼正在加大对旧金山生物技术初创公司Retro Biosciences的投资,该公司希望将人类的寿命延长10年。此前,奥特曼为该公司提供了全部1.8亿美元(约13亿人民币)的种子轮融资,完全是相当看好、倾力支持。
OpenAI 刚刚推出了新的编程模型 GPT-5 Codex,见前文:刚刚,OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生
首份最全ChatGPT用户研究报告来了!
凌晨 1 点,OpenAI 发布了 GPT-5-Codex。
你有没有想过,为什么我们每天与 ChatGPT 或其他 AI 助手聊天时,从来没有看到过广告?这并不是因为这些公司不想赚钱,而是因为没有人真正搞清楚如何在 AI 对话中优雅地植入广告。
OpenAI Codex编程智能体大升级: 推出GPT-5-Codex特化版模型,支持独立连续编程7个小时。还有IDE插件版,在VS Code、Cursor中都可以使用Codex了。新模型最牛的地方在于“真·动态思考”能力。
GPT-5 的发布,可以看作是一个分水岭。练习时长两年半的 GPT-5,并没有展现出和 GPT-4 本质上的差别,甚至因为模型的预设人格引发了用户的反感情绪。
霸榜苹果应用榜的ChatGPT,终于被真·超越了! Nano Banana掀起破圈热潮之后,谷歌Gemini登顶成新王。 并且不止美区,包括在印度、加拿大、摩洛哥等地,Gemini全部实现登顶。