AI资讯新闻榜单内容搜索-GPT-4V

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报

10371 点击 2024-05-01 19:35

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

来自主题: AI技术研报

12462 点击 2024-04-14 17:41

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

大语言模型的效率，正在被这家「清华系」创业公司发展到新高度。

来自主题: AI资讯

9067 点击 2024-04-13 14:55

超越GPT-4V，苹果多模态大模型上新！

一句话Siri就能帮忙打开美团外卖下订单的日子看来不远啦！

来自主题: AI资讯

8920 点击 2024-04-11 16:56

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。

来自主题: AI技术研报

6245 点击 2024-04-07 17:46

中科大等意外发现：大模型不看图也能正确回答视觉问题！

大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型，不管是闭源还是开源，语言模型还是多模态，竟然只根据在多模态基准MMMU测试中的问题和选项文本，就能获得不错的成绩。

来自主题: AI技术研报

7196 点击 2024-04-07 13:10