本研究由新加坡国立大学 ShowLab 团队主导完成。 共一作者 Yanzhe Chen 陈彦哲(博士生)与 Kevin Qinghong Lin 林庆泓(博士生)均来自 ShowLab@NUS,分别聚焦于多模态理解以及智能体(Agent)研究。 项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。
随着视频生成模型的发展,基于像素空间(Pixel-based)的文生视频方法(如 Sora2、Veo3 等扩散模型)在自然场景生成上表现出色,但在教育场景中仍存在以下不足:
图 1:Pixel-based Video Generation对比我们的Code-driven Video Generataion
视频 1: 扩散模型与 Code2Video 生成视频对比
相比之下,教育视频强调的是清晰的知识传递、逻辑的演进、可控的时序与空间结构。为此,本文提出了 Code2Video——一种基于代码驱动的视频生成新范式。
Code2Video 核心设计
Code2Video 的目标是:以可执行代码(Manim)作为统一媒介,将抽象的知识点转化为结构化、可复现的教学视频。以代码为媒介不仅保证了视频生成的可控性与可解释性,还保证了在教育视频中至关重要的逻辑流畅与视觉一致性。
图 2: Code2Video 方法示意图
基于此,本文提出了三智能体(Tri-Agent)协同框架:
为解决自动生成中常见的元素遮挡、位置错乱等空间布局问题,文本提出视觉锚点提示(Visual Anchor Prompt),为关键视觉元素(如公式、图表、文本框)在画面中的相对位置和层次提供了结构化的指导。在生成代码时,自动维护锚点提示表,记录放置对象以及对应锚点坐标;在检查到视频中布局不当时,Critic 会查表并生成具体的新锚点、以及可执行的反馈(如 move to B2)给 Coder 进行迭代修正。
图 3: 视觉锚点提示(Visual Anchor Prompt)示意图
这种多方位的流水线协作设计,使得 Code2Video 能在以下方面发挥优势:
Code2Video 将复杂的知识点转化为逻辑清晰、视觉精美、可扩展的教学视频,兼顾了视频质量与生成效率。
评测基准 MMMC
为系统化评测,本文构建了 MMMC (Massive Multi-discipline Multimodal Coding) 评测集:
图 4: MMMC 数据集可视化
实验与评估
本文从三个维度对 Code2Video 进行系统性评测:
图 5: TeachQuiz 评测指标流程示意图
实验结论
表 1: Code2Video 与各类方法对比结果
图 6: 可视化对比示例
视频 2: Code2Video 生成视频示例
视频 3: 预设不同模板生成效果示例
消融实验
本文进一步对 Code2Video 的关键组件进行了消融分析,以考察各模块对视频质量与生成效率的贡献。
在视频质量方面:
在效率分析方面:
表 2: 关于视频质量(左表)及生成效率(右表)的消融分析
人类实验
本文开展了五组人类受试者实验(每组包含 6 名中学生 + 2 名本科生),每位受试者仅观看一种视频类型并完成 20 个知识点 × 5 道 TeachQuiz 测试题。结果显示:
表 3: 受试者实验结果对比
结语
本文提出教育视频生成的新范式——以可执行代码为核心媒介,结合三智能体协同框架,实现高质量、可控、可解释的教学视频生成,为未来自动化教育内容创作与多模态智能系统的发展提供了坚实基础。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0