
实测翻车?!刷爆高难度榜单的Grok4到底怎么样?
实测翻车?!刷爆高难度榜单的Grok4到底怎么样?大家都有看 Grok4 的发布会吗?Grok4 预热了好几天,没想到马斯克还贴心地选择了国内时间发布,再也不用熬夜看发布会了。
大家都有看 Grok4 的发布会吗?Grok4 预热了好几天,没想到马斯克还贴心地选择了国内时间发布,再也不用熬夜看发布会了。
“Grok”一词不是马斯克原创,而是源于科幻作家罗伯特·海因莱因 (Robert A. Heinlein) 1961年的经典小说《异乡异客》(Stranger in a Strange Land)。在小说中,“Grok”是一个火星词汇,其含义远超“理解”,它代表着一种深刻、直观、感同身受的领悟,一种与被理解对象融为一体的境界。
斯克憋了快半年,终于把 Grok 4 端上了台面。这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。
2025 年已经过半, 文本生成大模型是否已经进入下半场了? OpenAI 完全不重视 API 市场? Grok3 根本没人用? 「大模型战」未来的走向如何?
在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。
刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。
就在刚刚,xAI再获百亿美元融资,估值飙至1130亿。而xAI控制台中,已有源代码流出,Grok 4和Grok 4 Code即将上线!现在,全网都在搓手以待,Grok 4的诞生,将怎样搅动当前顶尖大模型的局面。
划一句就能查真伪,但中文、语境理解仍是短板。
近日,一位 ID 名为 GpsTracker 的网友在网上爆料称,埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其“思考模式”提问时,模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。
各位有没有发现,最近大家对大模型已经有些看麻了?反正我是看到相关话题的文章流量、社交平台上的热度,对模型的关注度明显有点降下来了。 比如最近 Qwen3、Gemini2.5、GPT-4.1 和 Grok-3 等这么密集的有明显新进展的优秀模型发布,要是放到 2 年前,铁定是个炸裂的一个月。