AI资讯新闻榜单内容搜索-多模态

清华系团队出手！一张 4090 即可「爆改」，1.3B小钢炮震撼开源

端侧多模态，卷出新天花板。仅1.3B，性能反超，效率翻倍，一张4090就能「爆改」。刚刚，清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6，再次证明了在端侧AI领域，中国团队已然站在世界前沿。

来自主题: AI技术研报

9020 点击 2026-05-13 15:24

一张4090就能爆改！面壁智能MiniCPM-V 4.6开源，1B多模态卷出新高度

面壁智能正式发布并开源了 MiniCPM-V 系列新一代基础模型——MiniCPM-V 4.6。这款模型的整体参数规模仅约 1B（1.3B），是该系列有史以来参数规模最小的一款。但在多模态综合能力上，它却成功超越了被视为标杆的阿里 Qwen3.5-0.8B 和谷歌 Gemma 4 E2B-it，做到了「尺寸更小、效率更高、性能更好」。

来自主题: AI资讯

8656 点击 2026-05-13 11:57

ICML 2026 | 大模型内部也会长出「情绪树」，规模越大越懂人心

随着语音、视频、多模态能力不断融入大语言模型（LLM），人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具，也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。

来自主题: AI技术研报

6151 点击 2026-05-12 14:31

CVPR 2026 | 别卷推理了！当前大模型 STEM 短板在于「视觉感知」，代码才是破局关键

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

6656 点击 2026-05-11 16:08

ACL 2026｜告别冗长思维链！Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点，由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队，提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感，引入了 “Forest-before-Trees” 的认知机制，通过动态窗口对齐学习（DWAL），首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报

6487 点击 2026-05-08 14:07

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习（RL）优化文生图模型的 prompt following 能力，是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片，通过 reward model 计算 reward，再利用相关 RL 算法优化模型。

来自主题: AI技术研报

7102 点击 2026-05-06 14:27

独家｜字节迎战阿里快乐马：开源多模统一模型Mamoda2.5，推理速度快18倍

独家获悉，字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家，Top-8 路由的MoE+DiT架构搭建，最终模型参数高达250亿，而每次仅激活约30亿参数（约12%）。

来自主题: AI资讯

9692 点击 2026-05-06 10:44