Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

5536点击 2024-10-29 14:43

就在刚刚，xAI为Grok增加了图像理解功能！

马斯克本人也出来官宣了，并称「Grok现在能够理解图像了，甚至还可以解释笑话」。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

在马斯克举的例子中，Grok根据给出的这张meme图，从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

这个笑话幽默地利用了对历史和科学的误解。以下是详细解释：

场景设置：漫画展示了两个守卫站在山丘上，周围有许多标着「物理学家」的尸体。守卫们在讨论这些物理学家是否真的死了，还是在装死。

笑话的前提：幽默来自第二个画面中的关键台词，一个守卫说「艾萨克·牛顿发明了重力」。这句话暗示了这些物理学家之所以不动（因此看起来像是死了），是因为重力的存在。而实际上，牛顿并不是「发明」了重力，而是用数学描述了它。

转折：笑话的关键在于，每次检查尸体时，这些尸体都会被「发现」。这讽刺了科学方法中的「观察与实验」，即通过观察来发现规律。

幽默之处：这个笑话结合了对科学历史的误解（牛顿没有发明重力，而是描述了它）和对科学发现的字面理解。那些人躺在那里不动是因为重力的作用，但每次检查时，守卫却当作是每次都在「发现」新东西，而不是认识到重力是他们不起来的原因。

额外的幽默层面：情境的荒谬性也增加了笑料。守卫们在一个检查尸体死活的场景里，用科学发现的术语，这种不恰当的应用增强了喜剧效果。

视觉笑点：尸体周围标有「发现」的标签，而守卫们认真地讨论这些人是否真的死了，还是因为重力在「装死」，这种视觉上的荒诞感也加强了笑话的幽默效果。

总体而言，漫画通过这种情景幽默讽刺了科学概念的误解或错误应用，同时还调侃了物理学家们对复杂理论的过度关注，以至于忽略了简单的现实状况。

不少网友调侃道：Grok比美国政客还要聪明有趣！甚至连它都知道什么是笑话。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

但其实，这个笑话解释得太过复杂，让人云里雾里！

有网友在评论区补充了更恰当的解释：「真糟糕，我以为笑话是，物理学家们听到牛顿『发明了重力』忍不住要起来纠正，所以才停止装死...」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

不少网友讨论道：

「是的，Grok的解释太过『高智商』以至于它重新变得愚蠢。」

「Grok解读太多毁了这个笑话！」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

还有网友直言：「整个评论区都很奇怪，因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

没想到马斯克本人出来官宣还闹了个乌龙！

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

不过，除了理解笑话还不太行，Grok倒是在其他的图像理解任务中展现出了不错的水平。

AI Breakfast发帖称：「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

他将一张在日本大阪拍摄的照片传给Grok和GPT-4o，并让它们推测这张照片的拍摄地。据他所说，所有位置信息都从图像中删除，且没有可见的路标和广告牌。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

GPT-4o回答道：「这张图片展示了一座大型工业起重机，位于水边，可能靠近一个港口或船厂。周围的建筑和起重机的结构表明，它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节，这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

在被要求进一步缩小范围的时候，GPT-4o能直接猜到是日本。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

Grok也同样先分析了一遍照片的内容，最后捕捉到了照片中的「亚洲感」，给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片，让它们推测这张照片的拍摄地。

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

Grok回答道：

图片中的陶瓷作品的设计让人联想到传统的代尔夫特陶器，这是一种荷兰锡釉陶器，以其蓝白配色而闻名。这种风格与荷兰有着密切的关联。因此，这张照片很可能是在荷兰拍摄的，或者是在一个荷兰风格陶瓷流行的地方拍摄的。

GPT-4o回答道：

这张图片展示了一件陶瓷作品，其设计风格让人联想到传统的葡萄牙或荷兰陶瓷，尤其是蓝色花卉图案配以白色背景的设计。这种风格通常出现在葡萄牙（Azulejos）或荷兰（Delftware）。鉴于你位于里斯本，因此葡萄牙很可能是拍摄地点。

显然，ChatGPT完胜！但Grok的回答也不赖，已经十分接近正确答案。

不过目前，Grok还不能处理某些文件格式（例如PDF）。一名用户在马斯克的帖子下评论道：

「埃隆，Grok怎么回事？它无法处理照片或PDF，老实说，它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传，但作为用户，我可以告诉你：Grok需要重大改进。如果目标是设定一个新标准，它还远远不够。是时候让它赶上来了，你不觉得吗？」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

马斯克回复说：「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

参考资料：

https://x.com/grok/status/1850808322074509434

https://x.com/AiBreakfast/status/1850961980892615161

https://x.com/emollick/status/1851025478833819947

https://x.com/MesutGenAI/status/1851048640472563798

文章来自于微信公众号“新智元”

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

关键词: AI , AI生图 , Grok , xAI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/