LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。
来自主题: AI技术研报
9438 点击 2025-10-15 12:12
LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。