带点特斯拉、SpaceX 基因,工程能力很强。
马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!
中午 12 点,所有人都在马斯克的直播预告中开始了等待。
在等到 20 分钟、线上观看人数达到 100 万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。
根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。
马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。
另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。
不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。
这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。
Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?
看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。
在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。
在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。
下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。
比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。
在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:
与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。
Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。
当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型。
在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。
Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式。
在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长。
不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。
Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」
再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:
从演示来看,Grok-3 各项能力都在线的。
Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。
可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。
我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。
在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。
最后是订阅和定价的相关信息:
X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。
SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。
发布完之后,团队还根据网友提问进行了简单的问答。
其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。
此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。
马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。
最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。
之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。
对于马斯克今日的发布,你怎么看?
文章来自于“机器之心”,作者“机器之心编辑部”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales