AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
智源开源EditScore:为图像编辑解锁在线强化学习的无限可能

智源开源EditScore:为图像编辑解锁在线强化学习的无限可能

智源开源EditScore:为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进,指令引导的图像编辑(Instruction-guided Image Editing)技术取得了显著进展。然而,现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战,往往需要用户进行多次尝试和手动筛选,难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报
8927 点击    2025-10-23 12:28
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
5441 点击    2025-10-21 15:53
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。

来自主题: AI技术研报
8899 点击    2025-10-16 12:31
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的

来自主题: AI技术研报
7932 点击    2025-10-15 12:30
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
6551 点击    2025-10-13 15:58
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
6353 点击    2025-10-06 14:46