AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLLM
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。

来自主题: AI技术研报
9554 点击    2025-10-16 12:31
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报
8063 点击    2025-10-13 16:08
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

来自主题: AI技术研报
5540 点击    2025-10-06 21:53
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
6954 点击    2025-09-26 13:30
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力

来自主题: AI技术研报
8490 点击    2025-08-22 10:35
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布

手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布

手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布

多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。

来自主题: AI技术研报
8051 点击    2025-07-27 13:01
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:

来自主题: AI技术研报
8163 点击    2025-07-12 11:58
突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

突破全模态AI理解边界:HumanOmniV2引入上下文强化学习,赋能全模态模型“意图”推理新高度

在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL)在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报
8550 点击    2025-07-09 10:59
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报
7795 点击    2025-07-05 13:12