AI资讯新闻榜单内容搜索-多模态

具身智能机器人隐藏冠军上新：领狗进家门，多模态AI那种

具身智能领域的“癫”，已经进入next level了！

来自主题: AI资讯

12198 点击 2024-09-27 11:03

Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。

来自主题: AI资讯

7298 点击 2024-09-26 15:18

NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。

来自主题: AI技术研报

10112 点击 2024-09-24 12:27

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。

来自主题: AI技术研报

11524 点击 2024-09-22 14:00

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

9906 点击 2024-09-21 18:19

提示词工程不再玄学！

来自主题: AI资讯

7505 点击 2024-09-21 18:12

再酷炫的多模态和具身智能，抵不过“实用”二字

来自主题: AI资讯

9291 点击 2024-09-21 12:43

阿里开源，又拿第一了。

来自主题: AI资讯

10365 点击 2024-09-19 14:42

最近一直在想一个问题。为什么我们的图像 AI 模型那么耗算力？比如，现在多模态图文理解 AI 模型本地化部署一个节点，动不动就需要十几个 G 的显存资源。

来自主题: AI资讯

3244 点击 2024-09-18 15:49

MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

来自主题: AI技术研报

10526 点击 2024-09-16 21:08