ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Grok图像理解功能上线,单挑ChatGPT结果惊人!无地标照片秒定位,18世纪手稿一眼识别
3553点击    2024-10-29 14:43

就在刚刚,xAI为Grok增加了图像理解功能!



马斯克本人也出来官宣了,并称「Grok现在能够理解图像了,甚至还可以解释笑话」。




在马斯克举的例子中,Grok根据给出的这张meme图,从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。



这个笑话幽默地利用了对历史和科学的误解。以下是详细解释:


场景设置:漫画展示了两个守卫站在山丘上,周围有许多标着「物理学家」的尸体。守卫们在讨论这些物理学家是否真的死了,还是在装死。


笑话的前提:幽默来自第二个画面中的关键台词,一个守卫说「艾萨克·牛顿发明了重力」。这句话暗示了这些物理学家之所以不动(因此看起来像是死了),是因为重力的存在。而实际上,牛顿并不是「发明」了重力,而是用数学描述了它。


转折:笑话的关键在于,每次检查尸体时,这些尸体都会被「发现」。这讽刺了科学方法中的「观察与实验」,即通过观察来发现规律。


幽默之处:这个笑话结合了对科学历史的误解(牛顿没有发明重力,而是描述了它)和对科学发现的字面理解。那些人躺在那里不动是因为重力的作用,但每次检查时,守卫却当作是每次都在「发现」新东西,而不是认识到重力是他们不起来的原因。


额外的幽默层面:情境的荒谬性也增加了笑料。守卫们在一个检查尸体死活的场景里,用科学发现的术语,这种不恰当的应用增强了喜剧效果。


视觉笑点:尸体周围标有「发现」的标签,而守卫们认真地讨论这些人是否真的死了,还是因为重力在「装死」,这种视觉上的荒诞感也加强了笑话的幽默效果。


总体而言,漫画通过这种情景幽默讽刺了科学概念的误解或错误应用,同时还调侃了物理学家们对复杂理论的过度关注,以至于忽略了简单的现实状况。


不少网友调侃道:Grok比美国政客还要聪明有趣!甚至连它都知道什么是笑话。



但其实,这个笑话解释得太过复杂,让人云里雾里!


有网友在评论区补充了更恰当的解释:「真糟糕,我以为笑话是,物理学家们听到牛顿『发明了重力』忍不住要起来纠正,所以才停止装死...」



不少网友讨论道:


「是的,Grok的解释太过『高智商』以至于它重新变得愚蠢。」


「Grok解读太多毁了这个笑话!」



还有网友直言:「整个评论区都很奇怪,因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」



没想到马斯克本人出来官宣还闹了个乌龙!



不过,除了理解笑话还不太行,Grok倒是在其他的图像理解任务中展现出了不错的水平。


AI Breakfast发帖称:「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」




宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。



他将一张在日本大阪拍摄的照片传给Grok和GPT-4o,并让它们推测这张照片的拍摄地。据他所说,所有位置信息都从图像中删除,且没有可见的路标和广告牌。



GPT-4o回答道:「这张图片展示了一座大型工业起重机,位于水边,可能靠近一个港口或船厂。周围的建筑和起重机的结构表明,它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节,这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」



在被要求进一步缩小范围的时候,GPT-4o能直接猜到是日本。



Grok也同样先分析了一遍照片的内容,最后捕捉到了照片中的「亚洲感」,给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。



还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片,让它们推测这张照片的拍摄地。



Grok回答道:


图片中的陶瓷作品的设计让人联想到传统的代尔夫特陶器,这是一种荷兰锡釉陶器,以其蓝白配色而闻名。这种风格与荷兰有着密切的关联。因此,这张照片很可能是在荷兰拍摄的,或者是在一个荷兰风格陶瓷流行的地方拍摄的。


GPT-4o回答道:


这张图片展示了一件陶瓷作品,其设计风格让人联想到传统的葡萄牙或荷兰陶瓷,尤其是蓝色花卉图案配以白色背景的设计。这种风格通常出现在葡萄牙(Azulejos)或荷兰(Delftware)。鉴于你位于里斯本,因此葡萄牙很可能是拍摄地点。


显然,ChatGPT完胜!但Grok的回答也不赖,已经十分接近正确答案。


不过目前,Grok还不能处理某些文件格式(例如PDF)。一名用户在马斯克的帖子下评论道:


「埃隆,Grok怎么回事?它无法处理照片或PDF,老实说,它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传,但作为用户,我可以告诉你:Grok需要重大改进。如果目标是设定一个新标准,它还远远不够。是时候让它赶上来了,你不觉得吗?」



马斯克回复说:「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」



参考资料:


https://x.com/grok/status/1850808322074509434


https://x.com/AiBreakfast/status/1850961980892615161


https://x.com/emollick/status/1851025478833819947


https://x.com/MesutGenAI/status/1851048640472563798


文章来自于微信公众号“新智元”


关键词: AI , AI生图 , Grok , xAI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/