AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰

近日,又一惊人结论登上Hacker News热榜:没有指数级数据,就没有Zero-shot!多模态模型被扒实际上没有什么泛化能力,生成式AI的未来面临严峻挑战。

来自主题: AI技术研报
9753 点击    2024-05-21 15:27
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。

来自主题: AI资讯
9947 点击    2024-05-20 15:54
OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

OpenAI教谷歌做语音助手,新模型GPT-4o科幻级语音交互,零延迟满情绪,AI进入HER时代

5月14日凌晨,OpenAI终于发布了Sam Altman提前造势的“Magic(魔法)”,主要包括三个重点发布,ChatGPT新UI、桌面版GPT、以及最重要的,新的多模态模型GPT-4o。

来自主题: AI资讯
10050 点击    2024-05-14 19:18
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7767 点击    2024-05-10 23:32
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报
8366 点击    2024-05-01 19:35
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
9289 点击    2024-04-25 19:32
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。

来自主题: AI技术研报
6143 点击    2024-04-21 23:05
马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

自从 2023 年 11 月 Grok 首次亮相以来,马斯克的 xAI 正在大模型领域不断取得进步,向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。

来自主题: AI技术研报
10617 点击    2024-04-14 17:41