AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
1/8成本比肩Claude 3.7,Mistral Medium 3来了

1/8成本比肩Claude 3.7,Mistral Medium 3来了

1/8成本比肩Claude 3.7,Mistral Medium 3来了

用1/8成本比肩Claude 3.7,刚刚,“欧洲OpenAI”Mistral AI发布多模态新模型。

来自主题: AI资讯
9011 点击    2025-05-08 12:03
苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

研究揭示早融合架构在低计算预算下表现更优,训练效率更高。混合专家(MoE)技术让模型动态适应不同模态,显著提升性能,堪称多模态模型的秘密武器。

来自主题: AI技术研报
8989 点击    2025-05-06 14:41
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报
7061 点击    2025-05-02 20:21
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。

来自主题: AI技术研报
7218 点击    2025-04-29 16:32
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报
5939 点击    2025-04-29 14:56
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。

来自主题: AI技术研报
7307 点击    2025-04-28 16:40
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。

来自主题: AI技术研报
7959 点击    2025-04-28 09:16