1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

9381点击 2026-06-16 09:53

当视频生成模型走出娱乐创作的舒适区，进入科学、医疗、教育等知识密集场景，它们是否还能生成事实准确、清晰可用的视频？

任务对比 —— 传统视觉质量导向 vs KIVI 知识密集型导向

针对这一挑战，研究者首次定义了「知识密集型视频生成」（KIVI）新任务 —— 要求模型从简短提示词出发，生成事实准确、用户能照着做的视频。团队配套构建了 1080 条提示词的 KIVI-Bench 评测集，提出 FactP 与 HelpS 两个自动指标，并在 7 款主流模型上揭示了实体误描、操作错误、组件错位三类系统性短板。

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

论文标题：Knowledge-Intensive Video Generation
论文链接：https://arxiv.org/abs/2606.01285
代码仓库：https://github.com/wcxhimself/KIVI

一个被忽视的空白：

视频生成不该只为娱乐存在

过去两年，从 Sora 到 Seedance，视频生成模型在画面质量、运动流畅度和时空一致性等方面取得了显著进展。然而，现有研究与评测仍主要围绕「视频是否好看」展开，较少关注生成内容是否事实准确、过程是否合理、信息是否真正有用。

随着视频生成技术逐渐走出娱乐创作场景，它正在进入医疗、教育、科学传播、操作指导等知识密集领域。在这些场景中，用户关心的不只是画面是否逼真，而是模型能否准确表达知识、清晰展示过程，并帮助用户理解或完成具体任务。也就是说，视频生成模型面临的核心问题正在发生变化：从「能否生成自然流畅的视频」，转向「能否生成知识可靠且有实际价值的视频」。

这种变化也暴露出现有视频生成范式与真实用户需求之间的错位。比如，当用户搜索「如何更换汽车轮胎」时，他们期待的不是一段视觉效果华丽但步骤含糊的视频，也不是先由自己写出完整分镜脚本，再交给模型逐段生成，更合理的方式应该是，模型能够直接理解用户意图，并生成一段步骤正确、过程清晰、可操作的视频。因此，我们提出 KIVI，将视频生成的评测目标从视觉质量导向，推进到知识可靠性与用户实用性导向。

KIVI-Bench：

1080 条模拟用户真实使用场景的提示词

18 个类别涵盖汽车维护、健康医疗、电子设备等，经 LLM 扩充与人工去重后保留 1080 条提示词。

提示词的构造遵循五个标准。视频优越性：比文字更直观（如空间操作、界面导航）；事实正确且可核验：提示词事实正确，实体有公开文档可核验；专有名词有知识挑战性：使用具体产品实名（如 Bosticht 卷笔刀），而非泛指实体；超越常识：需要真正掌握特定知识（如 Omron BP5450 血压计的操作步骤），不能仅凭日常经验作答。贴近真实：表述简短自然，符合用户实际提问方式。

自动评估标准：FactP 与 HelpS

传统视觉指标（Imaging Quality, Motion Smoothness 等）与人类对内容准确性和帮助性的判断几乎无关，为此，KIVI 设计了两个互补的自动评估标准：

FactP（事实精度）回答「说没说对」。它的思路是先抽取、再验证 ——LLM 从视频中提取原子化声明，逐条判定正误，按正确比例计分。

HelpS（帮助性评分）回答「能不能照着做」。LLM 从相关性、完整性、清晰度三个维度打分，核心追问：用户能否仅凭这段视频完成所提任务？两者互补，形成完整评价体系。

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

KIVI 多阶段评测管线

七款模型「同台应试」

团队评测了 7 款主流系统，涵盖闭源 API（Seedance 2.0、HappyHorse 1.0）、开源短视频生成模型（Wan 2.2、HunyuanVideo 1.5）和开源长视频模型（Helios-Base、LongCat-Video、LongLive 1.0）。

人工制作视频的 FactP 和 HelpS 分别达到 97.8% 和 81.9%，远超当前视频生成模型。在模型结果中，闭源短视频模型 HappyHorse 1.0 获得最高 FactP（83.2%），Seedance 2.0 获得最高 HelpS（66.6%）。最佳开源短视频模型 Wan 2.2 的 FactP 和 HelpS 分别为 73.1% 和 48.4%，与闭源模型仍存在明显差距。总体来看，短视频生成模型虽然尚未达到人工制作水平，但在事实准确性和帮助性上均显著优于长视频生成模型。

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

KIVI-Bench 评测结果（基于 54 条均匀采样子集）

人类评估：在 108 组两两对比中，FactP 与人工事实判断一致性达 70.8%，显著优于现有的视频质量自动评估标准 VBench-Long 最优维度（56.5%），HelpS 与人工帮助性判断一致性达 69.0%。而传统指标如 Imaging Quality（38.9%）几乎与人类判断无关。

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

人类评估结果

三大系统性错误：模型到底错在哪？

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

错误类型占比

对 870 条错误声明的分类揭示三类短板：

实体误描占比最高，达 42.6%。模型经常 "发明" 不存在的外观特征，涉及特定产品型号时幻觉率急剧攀升 —— 比如将 Bostitch 电动卷笔刀画成了盒状插孔，而真机是弧形机身。

操作错误紧随其后，占 40.7%，这类错误更隐蔽：外观画对了，步骤却错了。模型能还原 BP5450 血压计的外形，却把袖带绑在了前臂，而这台设备专为上臂设计，暴露了程序性知识的系统性缺失。

组件错位占比 15.0%，虽然比例最低，但机油和漏斗出现在中央扶手箱而非发动机舱这类错误，同样意味着视频对用户毫无帮助。

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

三类主要事实性错误示例

结语：从视觉生成走向知识传达

KIVI 系统定义了视频生成中一个长期被忽视的任务方向：视频不应只服务于娱乐创作，也应能够在知识密集场景中准确传达信息、清晰展示过程，并真正帮助用户理解或完成任务。

当目标从「还原画面描述」转向「传达可靠知识」，视频生成的评测标准也需要随之改变。传统评测中表现最好的模型，未必能够在事实性、过程合理性和实用性上保持优势；而从简短文本需求直接生成知识型视觉内容，也对模型的理解、规划和生成能力提出了更高要求。

因此，KIVI 不只是一个新的基准，更是在重新定义视频生成的下一阶段目标：从「画面是否自然」走向「内容是否可靠」，从「娱乐创作工具」走向「知识获取媒介」。这也指向了视频生成从像素空间走向实用空间的下一个前沿方向。

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI新闻 , 模型训练 , KIVI-Bench , 视觉测评

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0