AI资讯新闻榜单内容搜索-多模态大模型

Z Tech｜对话Lecun和谢赛宁爱徒，00后OpenAI奖学金博士Peter Tong：揭秘多模态大模型的革命突破

近年来，多模态大模型（MLLM）在视觉理解领域突飞猛进，但如何让大语言模型（LLM）低成本掌握视觉生成能力仍是业界难题！

来自主题: AI资讯

7662 点击 2025-02-17 09:37

小红书&上交多模态大模型新基准，Gemini 1.5 Pro准确率仅48%

多模态大模型理解真实世界的水平到底如何？

来自主题: AI技术研报

6397 点击 2025-02-13 09:49

全球首个「视频教学」基准！南洋理工、CMU发布Video-MMMU

人类通过课堂学习知识，并在实践中不断应用与创新。那么，多模态大模型（LMMs）能通过观看视频实现「课堂学习」吗？新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集，为AI迈向更高效的知识获取与应用开辟了新路径。

来自主题: AI技术研报

7717 点击 2025-02-12 12:01

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

5092 点击 2025-02-06 15:26

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上（2025 年 1 月 27 日），Deepseek 发布了多模态模型 Janus-Pro-7B，该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3（虽然也一般般），我相信能文生图功能一定很优秀了，今天搞点特殊的，测试下图像理解能力对专业的医学影像有没有应用的可行性，以下是常见的五种医学影像测试。

来自主题: AI资讯

9671 点击 2025-02-01 19:58