猝不及防,谷歌DeepMind深夜又放大招了!
今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。

离职Anthropic入职谷歌的华人学者姚顺宇参与了Gemini 3 Deep Think
这一次,在科学研究和硬核工程领域,Deep Think堪称一个「最强大脑」。
它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。

谷歌VP晒出这个副项目,最终的成品是这样子的。



新版Deep Think的实力究竟有多恐怖?
在编程界,它刷出了3455 Elo的惊人分数,达到世界冠军级的水准,冲入了Codeforces比赛人类TOP 10!
也就是说,全球只有7人击败了Gemini 3 Deep Think,一年前,最强o3也仅拿下2727 Elo。


在人类最后考试(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成绩。
甚至,它在一夜之间让最难的ARC-AGI-2基准直接饱和,以84.6%新SOTA一骑绝尘。



与Gemini 3 Pro相比,Deep Think实现了全方位反超,并将Claude Opus 4.6、GTP-5.2直接踩在了脚下。


更令人震撼的是,Gemini 3 Deep Think的实战表现。
罗格斯大学数学家Lisa Carbone在研究时,让它审查一篇高深的物理数学论文。
结果,Deep Think竟发现了一个连人类同行评审,都遗漏的细微逻辑漏洞。

Gemini 3 Deep Think这波史诗级进化,又让某些人睡不着了。


目前,Google AI Ultra订阅用户即可在Gemini中体验新版Deep Think。同时,首次通过API向部分研究人员、工程师和企业开放。

实力刷爆SOTA,奥赛金牌大满贯
去年,Deep Think专门版成功解决了推理领域最艰巨的任务,在数学和编程世界锦标赛中夺下金牌。

就在昨天,谷歌DeeoMind还做了一个预热。
背靠初代Deep Think的「AI数学家」Aletheia可以独立撰写论文,证明了「Erdős猜想」中多个难题。
不仅如此,Deep Think直接推翻了十年猜想,一举攻克18大研究瓶颈。

而现在,迭代后的Deep Think已在多项高难度的基准测试中刷新SOTA:

除了数学和算法竞赛,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现优异。
在2025年国际物理奥林匹克和化学奥林匹克的笔试部分,新版Deep Think同样具备了金牌实力。
此外,它在高级理论物理方面也游刃有余,在CMT-Benchmark测试中取得了50.5%的成绩。

另外,Gemini 3 Deep Think在ARC-AGI-1上,直接顶到头了。

官方演示中,Gemini 3 Deep Think可以根据论文,为「时空循环视频Transformer」架构创建一个的视化方案。

Deep Think杀入科研,十倍加速
除了顶尖的性能表现,Deep Think还突破了智能边界,能够解决科学、研究和工程领域的现代难题。
它不仅能帮助科研人员解读复杂数据,还能辅助工程师通过代码对物理系统建模。

在早期测试中,许多科学家在科研工作流中,显著提升了研究产出质量。
在杜克大学,Wang Lab用Deep Think优化了复杂晶体生长的制造方法,以用于潜在的半导体材料发现。
令人意想不到,Deep Think成功设计出了一种生长大于100 μm薄膜的配方,达到了以前方法难以实现的精确目标。

谷歌平台与设备部门的研发主管Anupam Pathak表示——
我不是CAD设计师,但有了Deep Think,可以直接将草图变成可3D打印的实物。
它会分析绘图,对复杂形状进行建模,并生成3D打印所需的模型文件,让物理零部件建模加速十倍。
只需发送一张图片、一个提示词,它就能够深入思考,便可以提供几个之前从自己未想过的全新设计方案。

Deep Think将深厚的科学知识与实用的工程能力相结合,超越了抽象理论,真正开始推动实际应用。
网友惊艳实测,物理模拟太强
在实测中,Gemini 3 Deep Think展现出超强的物理模拟能力。


它可以模拟光线追踪,在浏览器中就可以实现。


并且还可以在单个HTML文件中,构建出一个完整的Three.js场景,渲染出博物馆中古典油画难以区分的全3D室内房间。


Simon Willison用Gemini 3 Deep Think画了一张鹈鹕骑自行车的SVG矢量图,效果非常惊艳。
他表示,这是自己目前见过最棒的一版了。


既然在处理那条基础的「生成一张鹈鹕骑自行车的SVG」指令时表现得这么出色,Simon决定加大难度,试个更有挑战性的版本:
生成一张加州褐鹈鹕骑自行车的SVG图像。自行车必须要有辐条,车架形状要准确。鹈鹕必须具备其标志性的大喉囊,且要有清晰的羽毛细节。必须能清楚地看出鹈鹕正在蹬车。图像需要展示加州褐鹈鹕完整的繁殖羽特征。
结果如下:

这一次,谷歌让AI真正渗透进了科研工作的「最后一公里」:审阅论文、工业设计、实验优化,无所不包。
当AI能够揪出连人类审稿人都忽略的逻辑漏洞时,「辅助工具」这四个字显然已经配不上它了。
如今,压力球抛回给了OpenAI。
面对谷歌这记直击痛点的「深思」回击,奥特曼的下一张王牌,必须足够震撼。
参考资料:
https://x.com/GoogleDeepMind/status/2021981512925585703
https://x.com/GoogleDeepMind/status/2021981510400709092
https://x.com/kimmonismus/status/2021983169478533148
文章来自于微信公众号 “新智元”,作者 “新智元”
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0