AI资讯新闻榜单内容搜索-MLLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MLLM

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

8329 点击 2025-05-30 17:30

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

8575 点击 2025-05-26 09:59

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

9308 点击 2025-05-25 11:44

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

9298 点击 2025-05-16 15:06

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

8843 点击 2025-05-12 14:51

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

9551 点击 2025-05-09 11:51

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

7781 点击 2025-04-29 14:56

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

自回归模型，首次生成2048×2048分辨率图像！来自Meta、西北大学、新加坡国立大学等机构的研究人员，专门为多模态大语言模型（MLLMs）设计的TokenShuffle，显著减少了计算中的视觉Token数量，提升效率并支持高分辨率图像合成。

来自主题: AI技术研报

9589 点击 2025-04-28 09:16

阶跃星辰开源图像编辑模型Step1X-Edit：一键改图大师，性能达到开源SOTA

阶跃星辰开源图像编辑模型Step1X-Edit：一键改图大师，性能达到开源SOTA

阶跃星辰开源图像编辑模型Step1X-Edit：一键改图大师，性能达到开源SOTA

阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit，性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT)，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

来自主题: AI资讯

9959 点击 2025-04-27 15:29

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

多模态大语言模型（MLLM）在具身智能和自动驾驶“端到端”方案中的应用日益增多，但它们真的准备好理解复杂的物理世界了吗？

来自主题: AI技术研报

9107 点击 2025-04-15 14:56

上一页当前第4页,共9页下一页