AI资讯新闻榜单内容搜索-开源多模态

创智刘鹏飞、Sand.ai曹越，两大AI青年学者团队联手，开源音视频基座模型

开源多模态生成领域，迎来架构级的底层突破。

来自主题: AI技术研报

10174 点击 2026-03-23 14:11

10B参数拥有媲美千亿级模型的多模态推理实力。

来自主题: AI技术研报

7866 点击 2026-01-21 12:02

全开源多模态大模型（MLLM）的性能，长期被闭源和半开源模型“卡脖子”。

来自主题: AI技术研报

8277 点击 2025-11-11 16:39

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

9776 点击 2025-10-15 12:12

2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报

8039 点击 2025-10-13 15:58

最新开源多模态智能体，能自动操作手机、电脑、浏览器的那种！开源评测榜单和中文场景交互成绩全面提升。

来自主题: AI技术研报

9447 点击 2025-09-01 10:55

刚刚，面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世：8B参数，越级反超72B巨无霸，图片、视频、OCR同级全线SOTA！不仅跑得快、看得清，还能真正落地到车机、机器人等。这一次，它不只是升级，而是刷新了端侧AI的高度。

来自主题: AI技术研报

9711 点击 2025-08-27 13:05

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

10924 点击 2025-08-26 23:30

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，通过全自动流程生成高质量推理轨迹，并用冷启动微调和强化学习优化决策，使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯

8276 点击 2025-08-15 20:26

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯

9058 点击 2025-08-12 13:04