AI资讯新闻榜单内容搜索-多模态

英伟达开源自适应多模态「世界生成」模型！开启机器人、自动驾驶训练革命

Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1，可以根据多种模态的空间控制输入（如分割、深度和边缘）生成世界模拟，使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境，用于训练机器人和自动驾驶车辆。

来自主题: AI技术研报

10442 点击 2025-03-22 10:56

近日，中国人工智能学会发布2024年度“吴文俊人工智能科学技术奖”公告，京东科技人工智能团队凭借“多模态交互式数字人关键技术及产业应用”项目荣获中国智能科学技术最高奖——吴文俊人工智能科学技术奖的特等奖，也是本年度唯一的特等奖。

来自主题: AI资讯

10480 点击 2025-03-20 09:07

评估多模态AI模型的那些复杂测试，可能有一半都是“重复劳动”！

来自主题: AI技术研报

10590 点击 2025-03-19 10:37

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6497 点击 2025-03-19 09:43

通过收集六名志愿者一周的多模态生活数据，研究人员构建了300小时的第一视角数据集EgoLife，旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统，包含EgoGPT和EgoRAG两个模块，分别用于视频理解与长时记忆问答，助力AI深入理解日常生活并提供个性化帮助。

来自主题: AI技术研报

8980 点击 2025-03-19 09:31

全球首个开源多模态推理大模型来了！38B参数模型性能直逼DeepSeek-R1，同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源，正是希望同DeepSeek一样，打造开源界的技术影响力。

来自主题: AI技术研报

12071 点击 2025-03-18 19:19

多模态，性能超 GPT-4o Mini、Gemma 3，还能在单个 RTX 4090 上运行，这个小模型值得一试。

来自主题: AI资讯

7198 点击 2025-03-18 19:11

CLIP、DINO、SAM 基座的重磅问世，推动了各个领域的任务大一统，也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报

10234 点击 2025-03-18 17:20

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。

来自主题: AI技术研报

9128 点击 2025-03-14 15:32

在实际应用过程中，闭源模型（GPT-4o）等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。

来自主题: AI技术研报

9311 点击 2025-03-13 10:15