马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

10484点击 2024-04-14 17:41

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是：「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

如果 Grok-1.5 能在类似于 Grok-1 的开源许可证下发布，这将成为当下 LLM 竞争格局的一个重要节点。

Grok-1.5V 表现如何？

目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。不过，博客中展示了 Grok-1.5V 的七个示例。

第一个是将流程图的白板草图转换为 Python 代码：

Prompt：Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

第二个是计算卡路里：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路里？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量：60 卡 / 3 片 = 20 卡 / 片。然后，将每片的卡路里乘以片数：每片 20 卡路里 * 5 片 = 100 卡路里。

第三个是将草图转化为睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（这是我儿子画的，你能根据他的画讲一个简短的睡前故事吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

第四个是解释梗图：

Prompt：I don't get it, please explain（我不理解，啥意思？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

第五个是将表格转换为 CSV 文件格式：

Prompt：Please convert this table to csv.（请将此表转换为 csv。）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

第六个是辨别木头的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（这些孔出现在我的甲板上的螺钉周围。是不是烂了？我应该更换吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

第七个是解决编程问题：

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

RealWorldQA 基准

本次发布还有一个亮点：xAI 推出了一个新的基准「RealWorldQA」。

下载地址：https://data.x.ai/realworldqa.zip

「为了开发有用的真实世界人工智能助手，提高模型对物理世界的理解至关重要。」xAI 希望借助该基准更好地评估多模态模型的基本真实世界空间理解能力。「虽然当前基准中的许多示例对人类来说相对容易，但它们往往对前沿模型构成挑战。」

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

目前，RealWorldQA 包含 700 多张图片，每张图片都有一个问题和易于验证的答案。

在真实世界的图像外，该数据集还包括从车辆上拍摄的匿名图像。这对于自动驾驶领域来说，或许是个好消息。

巧合的是，微软研究院前段时间更新了跨语言、模态、模型和任务的基准测试 MEGAVERSE，包含 22 个数据集，涵盖 83 种语言（包括资源匮乏的非洲语言）。微软还在基准测试中加入了两个多模态数据集，并比较了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Meta 在前几天也开源了衡量人工智能系统具体问答能力的基准数据集 OpenEQA，包含家庭和办公室等 180 多种不同现实环境的 1600 多个问题，跨越七个类别，全面测试 AI 在物体和属性识别、空间和功能推理以及常识知识等技能方面的能力，加深大模型对现实世界的理解。

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

在这些研究的推动下，我们可以期待一下 2024 年大模型在现实世界任务取得更多的进展。

本文来自微信公众号”机器之心“

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

关键词: 马斯克 , 多模态 , xAI , Grok-1.5V

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0