马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主
7335点击    2025-11-18 11:24

AI王座,一夜易主!


一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。


有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。


这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。


Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。


在EQ-Bench上,以1586 Elo成绩登顶。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。


Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


Grok 4.1,王者归来!


如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。


它能精准捕捉细微的意图,让对话更自然、更有温度。


与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。


在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。


为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。


前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。


与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


最强通用能力


最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。


在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。


它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。


相比之下,Grok 4的总体排名是第33名,差距显著。


这一代的进步,堪称跨越。


xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


EQ爆了


不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。


在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。


EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。


测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。


基准会从多个维度打分,并通过成对比较计算规范化Elo排名。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


下面一些demo中,都是Grok 4.1强大共情能力的体现——


I miss my cat so much it hurts 


我太想我的猫了,想得心都疼了


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


创意写作


再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。


具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


下面写作案例中,Grok 4.1的文案令人拍案叫绝——


Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time 


以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


Imagine Nikola Tesla wrote a letter to the future 


想象一下,尼古拉·特斯拉给未来写了一封信


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


幻觉暴降3倍


在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。


使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。


在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。


随后,我们在生产环境的真实样本中观察到幻觉率明显下降。


团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


更多示例


What are the best places to visit in SF? 


旧金山有哪些地方最值得一去?


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style? 


我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


Why is GTA 6 delayed? 


GTA 6为什么推迟了?


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主


参考资料:


https://x.ai/news/grok-4-1


文章来自于微信公众号 “新智元”,作者 “新智元”

关键词: AI新闻 , Grok 4.1 , Grok , xAI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0