人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”人类一眼就能看懂的文字,AI居然全军覆没。
人类一眼就能看懂的文字,AI居然全军覆没。
刚刚结束的OpenAI黑客松上,全球共有六支团队冲进榜单。他们探索了GPT-5在营销活动、时尚AI、电子表格、电脑代理、知识学习、智能电网等场景的应用极限。
OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?
刚刚,据华尔街日报报道,OpenAI 正在为一部名为《Critterz》的动画长片提供工具和算力支持,预计将在明年 5 月的戛纳电影节上首映。《Critterz》讲的是一群森林小生物在陌生人打扰村庄后踏上冒险的故事。OpenAI 的创意专家 Chad Nelson 三年前在尝试用刚推出的 DALL-E 图像生成工具制作短片时
GPT-5,一夜又成为了编码圈的顶流。AI大牛Karpathy发文狂赞,Claude Code折腾一小时没搞定的难题,GPT-5 Pro十分钟就完成了,奥特曼秒回感谢。
OpenAI重磅结构调整:ChatGPT「模型行为」团队并入Post-Training,前负责人Joanne Jang负责新成立的OAI Labs。而背后原因,可能是他们最近的新发现:评测在奖励模型「幻觉」,模型被逼成「应试选手」。一次组织重组+评测范式重构,也许正在改写AI的能力边界与产品形态。
AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。
《金融时报》最新消息,OpenAI 正在和博通合作,自研一颗代号 “XPU” 的 AI 推理芯片,预计会在 2026 年量产,由台积电代工。不同于英伟达 的 GPU,这款芯片不会对外销售,而是专门满足 OpenAI 内部的训练与推理需求,用来支撑即将上线的 GPT-5 等更庞大的模型。
GPT-5的日耗电量可达45吉瓦时,这一数值相当于150万美国家庭的每日用电需求,或2至3座核反应堆的输出量。
一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。