Grok 3 的表现究竟如何?
当前,“内卷”再次席卷各大科技公司。一方面,商业公司纷纷将最新最强的大模型接入应用场景,比如微信推出了 AI 搜索,还接入了 DeepSeek R1 模型,而百度搜索也接入了 DeepSeek 和文心大模型的最新深度搜索功能;另一方面,各大模型公司加速了内部升级。
最近,xAI CEO 埃隆·马斯克也放出了大新闻:他将在太平洋时间周一晚 8:00(北京时间 2 月 18 日 12:00)发布最新的 AI 模型 Grok 3,届时将进行现场演示。
此时距离上一版本 Grok 2 发布过去了 6 个月的时间,对于即将到来的最新版本,马斯克自信满满地称,「这将是地球上最聪明的 AI」。不过,令人意外的是,就在这个消息官宣几天前,待发布的 Grok 3 遭到了自家工程师的“拆台”,此举还引发了一场言论自由的辩论。
Benjamin De Kraker 此前是 xAI 的一名人类数据团队工程师,主要负责 Grok 模型的一些工作。
在 2 月 9 日,他在社交媒体 X 上发布了一篇帖子,根据自己对 AI 模型编码能力的体验与预测对时下一些 AI 模型进行了排名。
具体排名情况如下:
ChatGPT o1-pro
o1
o3-mini (所有类型并列)
Grok 3 (预计,待定)
Claude 3.5 Sonnet
DeepSeek
GPT-4o
Grok 2
Gemini 2.0 Pro Series (可能会更高,名次可能会上升)
在 Grok 3 尚未发布之际,Benjamin De Kraker 将这款模型排在了第四的位置,处于 OpenAI 的一众模型下方。对于整体排名,有人认可有人质疑。评论区,有网友觉得 Gemini 的准确性确实有待提升:
也有网友质疑最近大火的 DeepSeek 排名不太高,并称:「出于好奇,为什么你会把 DeepSeek 排在这个位置?如果你比较每个模型本地运行和托管运行的情况,列表会有所变化吗?」
Benjamin De Kraker 回应称,「DeepSeek 可能更强大,但似乎经常是给人的印象很深刻,但并没有实质性地解决问题。相比之下,Claude 通常以一种不那么炫耀的方式,更有效地解决代码问题。这纯粹是个人观点,完全主观」。
然而,就在 Benjamin De Kraker 与网友热情讨论各种大模型实际应用情况时,他收到了来自自家公司 xAI 的一份警告。
Benjamin De Kraker 揭露,xAI 公司要求他删除 X 上的这条帖子,否则将被解雇。
公司给的理由是因为他在帖子里承认了 Grok 3 的存在。
Benjamin De Kraker 觉得很委屈,认为自己没有错,毕竟身为 xAI 的老板,马斯克早已多次在公开活动以及 X 上分享关于 Grok 3 的最新进展。
“经过回顾和深思熟虑后,我决定不删除该帖子——这显然是一个无害的个人观点”,Benjamin De Kraker 说道。
最终,时间来到了 2 月 12 日,Benjamin De Kraker 无奈地称自己从 xAI 辞职了。这让他很难过,但他再次强调觉得自己没有做错。
对此,他发布了长贴分享了自己的想法:
他们为什么让我删除这个观点呢?根据他们的说法,原因是我承认了 Grok 3……的存在。
我希望我是在开玩笑,但我没有。这就是原因——我写的“Grok 3 (待定)”竟然成了被解雇的理由。
等等,Grok 3 不是已经被 xAI 官方确认过了吗?是的,确实如此。
我会在下面发布 xAI 官方博客的帖子,讨论 Grok 3 的内容,还有许多公开的 Elon 发布的帖子和视频,里面多次提到 Grok 3。
为了澄清,他们让我删除的那篇帖子 100% 只是我的个人观点。我不知道 Grok 3 在其他顶尖模型面前会怎样。希望它表现不错,但我不知道。这就是为什么我写了“观点”和“待定”的原因。
它可能在某些方面表现得很好,但在其他方面可能不完美。我并不认为这是一个特别离谱的观点。
再次强调,他们的官方要求是,连写下“Grok 3 - 待定”都算是“机密信息”。这完全荒谬,因为公司和它那位著名的 CEO 已经多次公开提到过了。
他们是不是因为我明显标注的个人观点没有猜测出还未发布的 Grok 3 会排在更高的位置而生气?也许吧,可能吧。再说一遍,也许它确实排在最前面,我真的不知道。那就是为什么我写了“待定”。
我花了大量时间和一个非常努力的团队一起工作,专注于 Grok 的某个特定功能,它非常酷,我希望它能对每个人都起到非常好的作用。我不会说那是什么,因为那才是真正的机密信息。(也许它发布后我再说。)
我仍然希望 Elon 和 xAI 能够成功。然而……
令我非常失望的是,一家声称支持言论自由和开放的公司及领导者,竟然会因为一个明显标明是个人观点、完全没有任何争议的言论,试图解雇一名低层员工,但现在情况就是这样。
整个事情非常奇怪。我曾考虑过干脆删了它……但你知道,一旦开始屈服,放弃自己持有的温和个人观点,这条路就变得非常滑。
我会保持言论自由和尊严,找一份新工作,或者自己创业。再见。
当得知这一消息后,包括马斯克自己也在 Benjamin De Kraker 的评论区留言,“这很奇怪。”
Benjamin De Kraker 同样回复称,“相当奇怪”。
针对这一情况,很多网友帮助分析道,很可能就是因为这名工程师把 Grok 3 的排名给排低了:
「从阅读你的原帖来看,问题很明显。你在 Grok 项目上工作,正如你所说,你已经把尚未发布的产品放在了竞争对手之下。他们之所以不告诉你真正的原因,很可能是因为说你泄露了机密信息会成为一个更有法律依据的解雇理由,但实际原因是公关。没有哪个企业老板希望员工公开谈论自己的产品是劣于竞争对手的,尤其是不仅仅是在当前版本上,而是在尚未发布的版本上。」
毕竟,Grok 3 的基础设施不同以往,许多人对其抱有很高的期望。据外媒报道,xAI 用了 8 个月的时间建成了一个 Colossus 超级计算机,配备了 10 万个 Nvidia H100 GPU。
Grok 3 模型就在这个系统上进行训练,该系统提供了 2 亿 GPU 小时的计算资源,是 Grok 2 的十倍。这一计算资源的大幅提升帮助 Grok 3 更高效地处理大数据集,减少了训练时间并提高了准确性。
除了提高计算能力之外,外媒 Forbes 透露,xAI 还调整了训练方法,以增强 Grok 3 的能力。该模型现在引入了合成数据集、自我修正机制和强化学习来提升性能:
合成数据集——这些是人工生成的数据集,而不是从现实世界收集的。它们用于训练 AI 模型,通过模拟各种场景,确保数据集多样且可控。这有助于提高学习效率,同时解决数据隐私问题。
自我修正机制——这些是允许模型识别并修正自身错误的 AI 技术。通过评估其输出并与已知的正确答案进行比较,模型能够随着时间的推移优化答案,减少错误并提高准确性。
强化学习——这是一种机器学习方法,AI 模型通过对其行为的奖励或惩罚来学习。系统通过试错方式训练,最大化积极结果,从而提高决策能力。
根据 xAI 和马斯克的说法,这些改进将通过多个验证步骤减少错误回答(即幻觉),通过将信息与可靠来源进行核对提高逻辑准确性,并通过持续的自我评估和学习更有效地适应变化。
xAI 还透露,已引入人类反馈回路(human feedback loops)和上下文训练,以确保更自然和准确的回答。
人类反馈回路指的是一种训练方法,AI 模型通过接收人类评审者的直接反馈来优化其回答。人类评估 AI 生成内容的准确性、相关性和实用性,帮助模型随着时间的推移不断改进。
上下文训练指的是教 AI 根据上下文理解并调整其回答。这意味着在生成更准确和相关的答案时,AI 需要考虑之前的互动、用户意图和相关信息。
整体而言,Grok 3 的设计目标是成为更有效解决问题的工具。据马斯克在迪拜世界政府峰会的一个视频采访中表示,“Grok 3 具有非常强大的推理能力,因此在迄今为止我们进行的测试中,Grok 3 的表现优于我们所知的任何已发布产品,这是一个好兆头。”
那么 Grok 3 的表现是否会真的如马斯克所说,我们也将关注明天发布会的精彩内容。
参考:
https://x.com/BenjaminDEKR/status/1889526713735905502?
https://www.forbes.com.au/news/innovation/elon-musk-grok-3-release-what-you-need-to-know/
文章来自于“CSDN”,作者“苏宓”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/