刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与
7679点击    2026-02-13 12:11

从此以后,AI 不再是工具,要尊称为「硅基博学家」了。


北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级,作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


去年,谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。


更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:


  • 在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的 SOTA(48.4%,不使用任何工具)。
  • 在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证。
  • 在 Codeforces 上取得了惊人的 3455 Elo 分数,Codeforces 是一个包含各种竞技编程挑战的基准测试平台。
  • 在 2025 年国际数学奥林匹克竞赛中取得金牌水平。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元;在 ARC-AGI-2 上已经达到了 84.6% 的分数,每任务成本为 13.62 美元。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


大约 14 个月前,OpenAI 模型 o3-preview 的「高计算」版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍。


这意味着我们现在需要再次为 AI 准备更复杂的测试题了。


除了数学和编程竞赛之外,Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


还有这个在 Codeforces 上获得的 3455 分,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。


地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


对于 AI 和整个科技领域而言,这是一个以往难以想象的成果。


谷歌与科学家和研究人员紧密合作,对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。


借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果:


罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


在杜克大学,Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。


刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与


或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。


全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。


参考内容:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029


文章来自于“机器之心”,作者 “泽南”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md