演示是一种广泛使用且行之有效的信息传达方式。通过结合视觉元素、结构化的讲解和口头解释,它能够使信息逐步展开,从而让不同受众更容易理解。
尽管效果显著,但将长篇文档(如商业报告、技术手册、政策简报或学术论文)制作成高质量演示视频通常需要耗费大量人工精力。
这个过程涉及内容筛选、幻灯片设计、讲稿撰写、语音录制,以及将所有内容整合成一个连贯的多模态输出。
尽管近年来AI在文档转幻灯片和文本转视频等领域取得进展,但仍存在一个关键问题:这些方法要么只能生成静态的视觉摘要,要么仅能输出无结构的通用视频片段,难以胜任需要结构化讲述的演示任务。
为弥补这一空白,澳大利亚人工智能研究所、英国利物浦大学的研究人员提出了一个新任务:文档到演示视频生成(Document-to-Presentation Video Generation),旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示。
论文链接:https://arxiv.org/pdf/2507.04036
代码链接:https://github.com/AIGeeksGroup/PresentAgent
该任务的挑战远超传统的摘要或文本转语音系统,因为它需要选择性内容抽象、基于布局的视觉规划,以及视觉与语音的精确多模态对齐。
图1:PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4)语音合成。最终输出为一个结合幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出
图2:评估基准中的文档多样性
与以往只关注静态幻灯片/图像生成或单一语音摘要的方法不同,研究人员的目标是构建一个完整集成的视频体验,模拟现实中人类演讲者的信息传递方式。
图3:方法框架概览
上图左侧给定多样的输入文档(如论文、网站、博客、幻灯片或 PDF),PresentAgent 能生成带讲解的演示视频,输出为同步的幻灯片和音频。
右侧设计了PresentEval,一个双路径的评估框架:
(1)客观测验评估(上),通过 Qwen-VL 进行事实理解检测;
(2)主观打分评估(下),借助视觉-语言模型从内容质量、视觉设计与语音理解等维度进行评分。
为应对上述挑战,研究人员提出了一个模块化生成框架——PresentAgent,如图1所示。
其流程包括:
值得一提的是,整个流程具有可控性和领域适应性,适用于多种文档类型和演示风格。
为有效评估此类复杂多模态系统,研究人员整理了一个涵盖教育、金融、政策与科研等多个领域的30组人工制作的文档-演示视频对的测试集。
同时,研究人员设计了一个双路径评估策略:
实验结果表明,该方法生成的视频流畅、结构合理、信息充分,在内容传达和观众理解方面接近人类表现。
这表明将语言模型、视觉布局生成与多模态合成结合,能够实现可解释、可扩展的自动演示生成系统。
主要贡献如下:
演示视频评估基准
该基准不仅评估视频的流畅性与信息准确性,还支持对观众理解程度的评估。
借鉴Paper2Poster的方法,研究人员设计了一个测验式评估,即通过视觉语言模型仅根据生成视频(幻灯片+讲解)回答内容问题,以模拟观众的理解水平。
研究人员还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限对比。
如图2所示,基准涵盖四种代表性文档类型(学术论文、网页、技术博客和幻灯片),均配有真实人工讲解视频,覆盖教育、科研、商业报告等多种真实领域。
示例:客观测验评估(Objective Quiz Evaluation)
客观测验评估中的提示样例,每组选择题均基于源文档真实内容手动设计,重点考查主题识别、结构理解与核心观点提取能力,用于评估生成视频是否有效传达原始信息。
示例:主观评分维度(Subjective Scoring Prompts)
主观评分提示示例,其中每项提示关注一个特定维度,旨在指导视觉语言模型以“人类视角”对视频进行评分。缩写说明:Narr. Coh. = 讲解连贯性;Comp. Diff. = 理解难度。
研究人员采用一个「统一的模型驱动评估框架」来对生成的演示视频进行评分,所有评估均使用视觉语言模型,结合针对不同维度设计的提示进行引导。
该评估框架由两部分组成:
这两类指标共同构成了对生成视频的全面质量评估体系。
Doc2Present数据集介绍
为了支持文档到演示视频生成的评估,研究人员构建了一个多领域、多文体的真实对照数据集——Doc2Present Benchmark,其中每对数据都包含一个文档与一个配套的演示视频。
不同于以往只关注摘要或幻灯片的基准,数据包括商业报告、产品手册、政策简报、教程类文档等,每篇文档均配有人工制作的视频讲解。
数据来源
研究人员从公开平台、教育资源库和专业演示存档中收集了30个高质量演示视频样本,每个视频都具有清晰结构,结合了幻灯片视觉呈现和同步语音讲解。
研究人员手动对齐每个视频与其源文档,并确保视频结构与文档内容一致、幻灯片视觉信息紧凑且结构化、讲解与幻灯片在时间上良好同步。
数据统计信息
文档长度:约3000–8000字
这一设置强调了任务的核心挑战:如何将密集、领域专属的文档内容转化为简明易懂的多模态演示内容。
PresentEval
为了评估生成的演示视频的质量,研究人员采用了两种互补的评估策略:客观选择题评估(Objective Quiz Evaluation)和主观评分(Subjective Scoring),如图3所示。
对于每个视频,将幻灯片图像和完整的讲解文本作为统一输入提供给视觉-语言模型,模拟真实观众的观看体验。
在客观评估中,模型需回答一组固定的事实性问题,以判断视频是否准确传达了原始文档中的关键信息。
在主观评分中,模型从三个维度对视频进行打分:讲解的连贯性、视觉设计的清晰度与美观性,以及整体的易理解程度。所有评估都不依赖真实参考,而完全依靠模型对呈现内容的理解。
客观选择题评估
为了评估生成的视频是否有效传达了原始文档的核心内容,采用固定问题的理解评估协议。
研究人员为每个文档手动设计五道多项选择题,侧重于主题识别、结构理解和论点提取等方面。
如表1所示,评估时,视觉-语言模型接收包含幻灯片和音频转录的完整视频,并回答五个问题。
每题有四个选项,仅有一个正确答案,正确答案基于人工制作的视频标注,最终理解得分(范围0-5)反映模型答对了几题,衡量视频传达原始信息的能力。
主观评分
为评估生成视频的质量,研究人员采用基于提示的视觉-语言模型评估方式,不同于依赖人工参考或固定指标的方法,要求模型从观众视角出发,用自身推理与偏好打分。
评分关注三个方面:讲解连贯性、幻灯片视觉效果以及整体理解难度。
模型观看视频与音频内容后,分别为每个维度打分(1–5分)并简要解释。具体评分提示见表2,针对不同模态和任务设计了不同的提示语,以实现精准评估。
PresentAgent
图4:PresentAgent框架概览
该系统以多种类型的文档(例如论文、网页、PDF等)为输入,遵循模块化的生成流程:
为了将长文本文档转化为带口语化讲解的演示视频,设计了一个多阶段的生成框架,模拟人类准备幻灯片与演讲内容的流程。
该方法分为四步:语义分段、结构化幻灯片生成、口语化讲解生成、可视与音频组合为同步视频。
该模块化设计支持可控性、可解释性和多模态对齐,兼顾高质量生成与细粒度评估。下文将分别介绍各模块。
问题定义
传统方法通常直接从文档片段C生成幻灯片元素S,如下所示:
S={e1,e2,...,en}=f(C)
该方法则视整个文档D为整体输入,通过三步生成演示视频:
V=Compose({(S1,T1),...,(SK,TK)})=g(D)
该流程不依赖固定模板,而是从高层结构出发,自底向上生成幻灯片和讲解内容,支持多模态对齐与可控生成。
幻灯片规划与生成
幻灯片模块借鉴了PPTAgent的结构化编辑范式,但目标不同——不是输出.pptx文件,而是为视频合成生成视觉一致的静态幻灯片帧。流程如下:
python-pptx
或HTML渲染器渲染为静态图像。讲解生成与语音合成
为使幻灯片更具吸引力,研究人员为每页幻灯片生成讲解,并将其合成为语音:
视频合成
最后一步,将静态幻灯片图像与配音音频合成为完整的视频:
ffmpeg
等视频处理工具合成视频轨;.mp4
),便于分享或编辑。实验结果
研究人员设计实验以验证PresentAgent在生成高质量讲解视频方面的有效性。重点不在与已有基线方法比较,而是评估系统在接近人类表现方面的能力,特别是在PresentEval评估任务中的理解能力。
评估设置
研究人员构建了一个包含30个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考,涵盖教育、产品说明、科研综述与政策简报等主题。
所有生成与人工视频均使用PresentEval框架进行评估。由于当前尚无模型可完整评估超2分钟的多模态视频,采用分段评估策略:
评分依赖维度提示语,覆盖内容完整性、视觉设计与语音可理解性。
实现细节
PresentAgent采用高度模块化的多模态生成架构,主要特征如下:
完整流程包括:
主实验结果
表3展示了评估结果,涵盖了事实理解能力(测验准确率)以及基于偏好的视频和音频输出质量评分。
在测验准确率方面,大多数PresentAgent的变体与人工基准结果(0.56)相当甚至更优。其中Claude-3.7-sonnet取得了最高准确率0.64,表明生成内容与源文档之间具有较强的一致性。其他模型如Qwen-VL-Max和Gemini-2.5-flash得分略低(0.52),表明在事实对齐方面仍有提升空间。
在主观质量方面,由人类制作的演示仍在视频和音频整体评分上保持领先。然而,一些PresentAgent变体表现出有竞争力的性能。例如,GPT-4o-Mini在视频内容和视觉吸引力方面获得了最高分(均接近或达到4.8),而Claude-3.7-sonnet则在音频质量方面表现最为平衡(均分为4.53)。
有趣的是,Gemini-2.5-flash在视觉质量上取得了最高得分(5.0),但在理解性方面较低,这反映了美观性与清晰度之间的权衡。这些结果突显了模块化生成流程的有效性,以及统一评估框架PresentEval在捕捉演示质量多个维度方面的实用价值。
案例分析
图5:自动生成视频示例
图5展示了一个完整的PresentAgent自动生成演示视频示例,其中一篇技术博客被转化为带解说的演示。
系统识别出结构性片段(如引言、技术解释等),并为其生成了包含口语风格字幕和同步语音的幻灯片,涵盖了“并行化工作流”“代理系统架构”等技术主题,展示了系统在保持技术准确性的同时,以清晰、对话式方式传达信息的能力。
讨论
研究人员合成了整合视觉幻灯片、文本解说和语音音频的演示风格视频,模拟了现实中的多模态交流场景。目前的评估方法主要关注各模态的独立质量,例如视觉清晰度、文本相关性以及音频可理解性,这些维度目前被分别对待。
然而,在现实应用中,沟通的有效性往往取决于各模态之间的语义与时间上的协同一致性。
因此,未来的研究应超越孤立评估,迈向融合感知(fusion-aware)的理解与评估,意味着不仅要建模图像、音频和文本模态之间的交互与对齐,还需赋予系统在多模态语义联合下的推理能力。
现有模型如ImageBind提供了多模态的统一嵌入空间,但在高层推理与语义理解能力方面仍有所不足。
一个有前景的方向是:将表示对齐(representation alignment)与多模态推理能力(multimodal reasoning)结合起来,构建融合对齐的模态编码器与强大的语言模型。
这将使系统具备对复杂多模态输入的联合感知、理解与响应能力——例如,基于语音解说与视觉线索解释某个视觉概念,或识别模态间的不一致性。
开发此类具有推理能力的融合感知模型,将是推动多模态理解向真实世界应用场景迈进的关键。
局限性与未来工作
该工作目前面临两个主要限制:
未来的研究工作将集中在三个方向:
结论
研究人员提出了PresentAgent,一个用于将长篇文本文档转换为带有语音讲解的演示视频的模块化系统。通过系统性地处理幻灯片规划、语音解说合成以及视音同步渲染等流程,PresentAgent 支持对多种类型文档的可控生成与复用的多模态输出。
为支持严格评估,研究人员构建了文档–视频对齐的基准数据集,并提出了双重评估策略:事实问答与基于偏好的视觉语言评分。实验结果(包括消融实验与模型对比)表明,PresentAgent 能够生成结构清晰、表达生动且信息密集的演示内容,整体效果接近人类水准。
结果展示了融合语言模型与视觉模型在可解释且面向观众的内容生成方面的潜力,为未来在教育、商业、无障碍传播等场景中的自动化、可控多模态生成研究奠定了基础。
参考资料:
https://arxiv.org/pdf/2507.04036
文章来自公众号“ 新智元”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales