第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5
9836点击    2026-03-19 10:22

天下苦 PPT 久矣。


体验过市面上各种 AI 生成 PPT 工具的人,往往都会遇到同样的痛点:排版崩坏、内容空洞、经不起推敲。 为什么会这样?因为目前的通用大语言模型(LLM)写 PPT,本质上是在对话框里 “盲写” 代码或文本。它们既没有真正的 “手” 去查阅权威文献,也没有真正的 “眼睛” 去审视自己排版出来的最终效果。


近日,中国科学院软件研究所中文信息处理实验室开源了第二代 PPTAgent -- DeepPresenter。这是业界首次将幻灯片智能体模型与完整的智能体沙箱环境一同开源,更能支持在单张 3090/MAC 上一键部署。它彻底重构了 AI 制作 PPT 的逻辑,让智能体不仅能 “深度探索”,还能 “亲眼所见”。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


  • GitHub 链接: https://github.com/icip-cas/PPTAgent
  • HuggingFace链接: https://huggingface.co/collections/ICIP/deeppresenter
  • 论文链接: https://arxiv.org/abs/2602.22839


核心破局点:给智能体装上 “眼睛” 与 “手”


DeepPresenter 放弃了传统的 “语言模型直接生成” 路径,而是将智能体置入了一个全功能的 Docker 沙箱环境(Shared Agent Environment)中,直接切中目前 AI 办公的两大痛点:


痛点一:内容全是 “车轱辘话” 和幻觉?


解决:构建强大的智能体环境,赋予其研究和阅读的 “手”。 


在 DeepPresenter 中,智能体手握 20+ 种专业工具。它不仅能通过 MinerU 深度解析复杂的 PDF 文献,还能实时连接 arXiv 和 Google Scholar 进行有据可查的深度调研(DeepResearch),甚至可以直接运行 Python 代码来绘制数据图表,确保 PPT 内容的专业度与数据准确性。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


痛点二:排版错乱、文字挡图?


解决:环境感知反思机制(Environment-Grounded Reflection),给它加上 “眼睛”。


以往的模型不知道自己生成的排版长什么样。而 DeepPresenter 形成了一套 “写→看→改” 的视觉闭环。Presenter 智能体每写完一页代码,都会调用沙箱内的浏览器将其渲染成真实图片,然后 “亲眼” 检查这张截图。标题被挡住了?对比度不够?它会像人类设计师一样立即进行自适应调整并回炉重造,直到视觉效果完美。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


案例演示


只需一行极其简单的指令,即可体验这种全新的 Agentic 工作流:


接收指令后,DeepPresenter 会立即启动:Researcher 在自动检索相关的相关资料和高清图片;随后交棒给 Presenter,根据呈现主题设计相称的风格,最终输出一份内容扎实、样式精美的幻灯片。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

帮我做一个小米 SU7 的 PPT


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

制作一份4:3幻灯片,以美国自由漫画师视角分享创作《超级战队》与《假面骑士》同人作品的实用技巧,涵盖理解原作、发展风格、捕捉角色、编写故事及建立粉丝社群


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

帮我做一份关于罗宾汉(Robin Hood)的介绍 PPT,包含历史背景、传奇故事和文化影响。


更重要的是,所有生成内容均为 .pptx 可编辑格式,支持自由修改与二次创作,彻底摆脱类似 nanobanana 那样 “生成后无法编辑” 的困扰,让 PPT 创作真正可控、高效、灵活。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


核心技术:如何炼成 “最强 PPT 智能体”?


DeepPresenter 之所以能以 9B 参数实现 “下克上”,核心在于其创新的训练流水线(Pipeline):


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


1. 数据构建:团队基于 PersonaHub 与 arXiv 等多源数据集构建了高多样性的任务数据。通过在指令中显式定义页数限制、长宽比及语言策略等细粒度约束条件,确保模型在训练阶段即建立了对复杂用户意图的深度语义表征。


2. 外在验证引导:为了打破智能体 “自我感觉良好” 的验证偏差(Self-verification Bias),团队引入了独立评审机制。在训练数据合成阶段,由独立模型作为 “独立评估者” 指出生成产物中的排版或逻辑缺陷,引导智能体产生高质量的执行轨迹


3. 多级轨迹过滤:团队从 1,152 个任务中筛选出 802 条顶级质量的智能体轨迹进行 SFT 训练。这些轨迹涵盖了中英双语、多种宽高比及复杂的指令约束。


性能实测:消费级显卡下的极限表现


为了全面验证 DeepPresenter 的实际效果,作者在预留的 128 个任务上使用 PPTEval 进行了系统评测,并与三种主流幻灯片生成方案进行了对比。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


在此基础上,作者进一步分析了不同模型设置下的 成本 — 性能表现,从 “效果” 和 “成本” 两个维度进行综合评估。


第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5


结果表明:DeepPresenter-9B 取得了 4.19 的高分,表现与闭源模型 GPT-5(4.22)几乎持平,并且 DeepPresenter 显著优于其他的幻灯片生成方案。


更值得关注的是,在成本 — 性能曲线中,DeepPresenter-9B 位于前沿的 “突变点” 位置,意味着在性能与价格之间达到了极具竞争力的平衡。


换句话说,它用 GPT-5 几十分之一的算力成本,实现了同等级别的智能表现。这也意味着 —— 在消费级显卡上,我们就能够运行一个媲美顶级闭源模型的 PPT 智能体。


目前,DeepPresenter 项目已完全开源,欢迎开发者共同构建 Presentation Agent 的未来。


作者介绍:


本开源项目以及论文作者均来自中国科学院软件研究所中文信息处理实验室孙乐研究员、韩先培研究员团队,主要作者包括郑昊、莫国钊、陈轩昂、陆垚杰及林鸿宇。实验室的主要研究领域包括大模型和大模型驱动智能体的知识机制、知识能力增强及应用。


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

5
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md