AI资讯新闻榜单内容搜索-MLLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MLLM

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。

来自主题: AI技术研报

10732 点击 2025-11-11 09:50

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。

来自主题: AI技术研报

7206 点击 2025-11-03 14:20

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7048 点击 2025-10-29 09:53

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

6350 点击 2025-10-21 15:53

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

9758 点击 2025-10-16 12:31

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中，提出了SpaceServe的突破性架构，首次将LLM推理中的P/D分离扩展至多模态场景，通过EPD三阶解耦与「空分复用」，系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报

8227 点击 2025-10-13 16:08

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP｜AAAI 2026 Oral

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP｜AAAI 2026 Oral

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP｜AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集，随后创新性地引入“MLLM-as-a-Judge”机制：利用MLLM对查询-候选对进行语义对齐评估，生成软语义匹配分数。

来自主题: AI技术研报

5680 点击 2025-10-06 21:53

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

7120 点击 2025-09-26 13:30

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力

来自主题: AI技术研报

8626 点击 2025-08-22 10:35

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实（如 ScreenSpot）、短链操作任务（如 AndroidControl）上展现出突出的表现，标志着端侧任务自动化的初步成熟。

来自主题: AI技术研报

8206 点击 2025-07-27 13:01

上一页当前第2页,共9页下一页