AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报
7211 点击    2025-05-02 20:21
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。

来自主题: AI技术研报
7317 点击    2025-04-29 16:32
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报
6093 点击    2025-04-29 14:56
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。

来自主题: AI技术研报
7488 点击    2025-04-28 16:40
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。

来自主题: AI技术研报
8124 点击    2025-04-28 09:16
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁

「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁

「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁

作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口————拍照问夸克。作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。

来自主题: AI资讯
8072 点击    2025-04-27 18:54
英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。

来自主题: AI资讯
9250 点击    2025-04-27 10:47
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek

最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek

最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek

百度文心大模型X1 Turbo正式发布了。这个基于4.5 Turbo的深度思考模型,效果领先DeepSeek-R1、V3,且价格仅为R1的25%!而文心4.5 Turbo在低价的同时,多模态能力更是让人出乎意料。

来自主题: AI资讯
6037 点击    2025-04-26 16:16
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

就在刚刚,在Create 2025百度AI开发者大会上,李彦宏又一口气官宣了两款新模型:分别是主打深度思考和多模态的X1 Turbo/4.5 Turbo。据介绍,它们是百度在3月发布的旗舰模型X1、4.5的升级版,推理和多模态能力双双更跃Level。

来自主题: AI资讯
7198 点击    2025-04-25 22:21