AI资讯新闻榜单内容搜索-多模态

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

来自主题: AI技术研报

7338 点击 2025-06-10 15:02

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

6311 点击 2025-06-10 14:45

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉！Nature子刊最新研究证明：大模型内部存在着类似人类对现实世界概念的理解。

来自主题: AI技术研报

6343 点击 2025-06-10 11:54

CVPR 2025 Highlight｜AdaCM2：首个面向超长视频理解的跨模态自适应记忆压缩框架

本文第一作者为前阿里巴巴达摩院高级技术专家，现一年级博士研究生满远斌，研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师，UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队，主要研究方向为多模态空间智能系统，致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

来自主题: AI技术研报

8233 点击 2025-06-09 14:51

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。

来自主题: AI资讯

6932 点击 2025-06-08 15:06

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

多模态检索是信息理解与获取的关键技术，但其中的跨模态干扰问题一直是一大难题。

来自主题: AI技术研报

6423 点击 2025-06-08 14:46

Kontext上线！LiblibAI 满血版F.1生态再添新成员

刚发布就全网刷屏的 Kontext 靠“一致性”和“多模态理解”硬刚 OpenAI，在视觉生成界引发了一波震动。

来自主题: AI资讯

6460 点击 2025-06-08 11:12

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗，基于数字世界训练的AI模型性能提升速度明显放缓。与此同时，物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据，这些数据远未被有效利用，成为AI发展的下一个重要方向。

来自主题: AI资讯

6864 点击 2025-06-07 15:09

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

6481 点击 2025-06-07 14:20

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

在文本推理领域，以GPT-o1、DeepSeek-R1为代表的 “慢思考” 模型凭借显式反思机制，在数学和科学任务上展现出远超 “快思考” 模型（如 GPT-4o）的优势。

来自主题: AI技术研报

6438 点击 2025-06-07 11:00

AI资讯新闻榜单内容搜索-多模态

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

CVPR 2025 Highlight｜AdaCM2：首个面向超长视频理解的跨模态自适应记忆压缩框架

专访张祥雨：多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

Kontext上线！LiblibAI 满血版F.1生态再添新成员

对话智源研究院王仲远：做具身智能的“安卓系统”，而非专用的“iOS”

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻