AI资讯新闻榜单内容搜索-多模态大模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态大模型

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介，易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive（FutureSightDrive）提出 “时空视觉 CoT”（Spatio-Temporal Chain-of-Thought），让模型直接 “以图思考”，用统一的未来图像帧作为中间推理步骤，联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报

8807 点击 2025-10-06 13:42

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

多模态大模型需要干的活，已经从最初的文生图，扩展到了像素级任务（图像分割）。

来自主题: AI技术研报

8264 点击 2025-10-03 14:40

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

不牺牲任何生成质量，将多模态大模型推理最高加速3.2倍！华为诺亚方舟实验室最新研究已入选NeurIPS 2025。

来自主题: AI技术研报

8634 点击 2025-09-27 11:19

具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上，视觉 - 语言 - 动作（Visual-Language-Action, VLA）模型使用大量机器人操作数据进行预训练，有望实现通用的具身操作能力。

来自主题: AI技术研报

7326 点击 2025-09-08 15:20

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

近年来，生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而，在现实世界应用中，动态环境下的数据分布和任务需求不断变化，大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报

9593 点击 2025-09-06 11:50

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

9953 点击 2025-08-28 12:20

为防AI刷题，Nature等顶刊最新封面被做成数据集，考验模型科学推理能力|上海交通大学

为防AI刷题，Nature等顶刊最新封面被做成数据集，考验模型科学推理能力|上海交通大学

为防AI刷题，Nature等顶刊最新封面被做成数据集，考验模型科学推理能力|上海交通大学

近年来，以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型，在各大基准测试（如MMMU）中捷报频传，纷纷刷榜成功。

来自主题: AI技术研报

9034 点击 2025-08-26 10:41

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

擅长「种草」的小红书正加大技术自研力度，两个月内接连开源三款模型！最新开源的首个多模态大模型dots.vlm1，基于自研视觉编码器构建，实测看穿色盲图，破解数独，解高考数学题，一句话写李白诗风，视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。

来自主题: AI资讯

9013 点击 2025-08-07 18:41

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。

来自主题: AI技术研报

7956 点击 2025-08-06 12:18

WAIC 2025大黑马，一个「谢耳朵AI」如何用分子式超越Grok-4

WAIC 2025大黑马，一个「谢耳朵AI」如何用分子式超越Grok-4

WAIC 2025大黑马，一个「谢耳朵AI」如何用分子式超越Grok-4

当马斯克的 Grok-4 还在用 “幽默模式” 讲冷笑话时，中国的科学家已经在用书生 Intern-S1 默默破解癌症药物靶点的密码 —— 谁说搞科研不能又酷又免费？

来自主题: AI资讯

9820 点击 2025-07-30 11:01

上一页当前第7页,共29页下一页