AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报
8227 点击    2025-03-18 17:20
MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。

来自主题: AI技术研报
7214 点击    2025-03-14 15:32
刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

就在刚刚,谷歌Gemma 3来了,1B、4B、12B和27B四种参数,一块GPU/TPU就能跑!而Gemma 3仅以27B就击败了DeepSeek 671B模型,成为仅次于DeepSeek R1最优开源模型。

来自主题: AI资讯
7501 点击    2025-03-12 18:43
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境:通过标记集合(SoM)和标记轨迹(ToM)技术,将视觉语言数据转化为可操作任务,显著提升了空间智能和任务泛化能力。

来自主题: AI技术研报
6124 点击    2025-03-11 10:49
微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报
6105 点击    2025-03-10 22:22
无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight

无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight

无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight

来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员,提出了一个全新的多模态Few-shot 3D分割设定和创新方法。无需额外标注成本,该方法就可以融合文本、2D和3D信息,让模型迅速掌握新类别。

来自主题: AI技术研报
3707 点击    2025-03-08 09:45