AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的

来自主题: AI技术研报
8626 点击    2025-10-15 12:30
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
7484 点击    2025-10-13 15:58
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

来自主题: AI技术研报
5729 点击    2025-10-06 21:53
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
7317 点击    2025-10-06 14:46
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报
7922 点击    2025-10-06 13:42
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

不牺牲任何生成质量,将多模态大模型推理最高加速3.2倍! 华为诺亚方舟实验室最新研究已入选NeurIPS 2025。

来自主题: AI技术研报
7959 点击    2025-09-27 11:19
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。

来自主题: AI技术研报
6617 点击    2025-09-08 15:20
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报
8577 点击    2025-09-06 11:50
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
9181 点击    2025-08-28 12:20