科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

11275点击 2026-01-05 09:52

你是否经历过这样的至暗时刻：明明实验数据已经跑通，核心逻辑也已梳理完毕，却在面对空白的 PPT 页面时陷入停滞；明明脑海里有清晰的系统架构，却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时；好不容易用 AI 生成了一张精美的流程图，却发现上面的文字是乱码，或者为了改一个配色不得不重新生成几十次……

在内容生产的过程中，“写” 往往只占了一半，而将文字转化为结构图、流程图，再整理成演示用的 PPT，这个过程繁琐、耗时，且极度考验设计感。为什么我们不能让 AI 像理解文字一样，理解我们的逻辑，并自动帮我们要展示的 “视觉物料” 准备好？

为了解决这一痛点，北京大学 DCAI 课题组基于自动化数据治理 Agent 框架 DataFlow-Agent，推出了全新的多模态辅助平台 —— Paper2Any。

它不再是一个简单的 “文生图” 工具，而是一整套自动化的内容视觉化 Workflow。从阅读资料、理解逻辑，到生成图像、切割元素，最终输出完全可编辑的 PPT 和 SVG 文件，Paper2Any 正在试图重塑我们准备 Presentation 的方式。

本地部署方式：https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85
网页体验地址：http://dcai-paper2any.nas.cpolar.cn/
文章多模态工作流 Paper2Any：https://github.com/OpenDCAI/Paper2Any

一、核心突破：打破 “不可编辑” 的魔咒

目前市面上的 AI 绘图工具虽然效果不错，但在科研与办公等场景下有一个致命缺陷：生成的图片是 “死” 的。文字无法修改，模块无法拖拽，风格难以统一。

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

工作流实现逻辑

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

生成示例PPT绘图

Paper2Any 的核心差异在于它实现了从逻辑到结构化元素的映射。

系统内置的智能体首先对输入的文章或文本进行语义分析，提取核心贡献与思路。接着，它不仅生成视觉图像，更进一步对草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标，并记录每个元素的元数据。

这意味着，你拿到的不再是一张不可直接修改的 PNG，而是一组独立、分层、可操作的图文块。用户可以在 PPT 中自由移动、编辑、替换、重新布局。（Paper2PPT 和 PPTPolish 功能暂时仅支持输出 PDF，可通过 PDF2PPT 功能将其结果转为可编辑 PPTX）

二、功能全景：从草稿到演示的自动化闭环

Paper2Any 目前支持的功能主要涵盖以下四大核心场景，旨在解决从 “输入素材” 到 “最终汇报” 的最后一公里问题。

Paper2Figure：智能科研绘图，草图变精图

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

用户无需从零学习复杂的矢量绘图软件。Paper2Figure 支持多模态输入（PDF、文本、甚至随手画的草图截图），系统便能自动识别你的意图。

模型架构图：上传论文或描述，系统自动梳理模块连接关系，生成清晰的架构图。支持生成 SVG 和可编辑 PPTX，图里的方框、线条都能动。
技术路线图：无论是中文还是英文，系统能根据方法论自动绘制流程与逻辑步骤。
实验数据图：扔给它一堆实验数据文本或表格，它能自动转化为可视化的对比柱状图或折线图。

Paper2PPT：文章结构化解析与 PPT 生成

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

这是为 “赶进度” 的研究者和职场人准备的救星。Paper2PPT 不仅仅是简单的摘要生成，它利用算法对文档结构进行深度语义分析，提取背景、方法论、关键图表。

三种输入模式：直接上传 PDF 论文、粘贴长文本、或者仅仅输入一个研究 Topic（系统会自动深度搜索）。
自定义设置：支持用户自定义幻灯片页数、风格及自由选择中英文语言；支持逐页生成 PPT，用户可自由调整每页 PPT 的大纲。
超长 PPT 支持：首次支持制作超过 40 页的超长 ppt，无论是综述的演示还是深入研究某个主题都能一次满足！
中文适配与呈现：可解决大模型生成 PPT 字体怪异及表达僵硬问题。输出结果采用标准中文字体与规范的排版，文案逻辑自然流畅，可减少 “AI 痕迹”，满足正式场合演示需求。

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

PDF2PPT：让静态文档可编辑

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

你是否遇到过这种情况：手里只有一份 PDF 格式的讲义或报告，却需要对其进行修改和汇报？

PDF2PPT 模块利用 MinerU 与 SAM (Segment Anything Model) 模型，像 “拆积木” 一样对版面进行高精度解析，将原本锁死的 PDF 页面还原为可编辑的 PPTX。

黑科技加持：系统集成了 Gemini Nano 模型进行图像内补（Inpainting）。当系统将文字提取出来后，会自动修复文字覆盖区域的背景，实现 “去字留影”，最大程度还原原始底图的视觉效果。

PPTPolish：交互式美化专家

如果你的 PPT 内容已经写好，但排版却有些简陋，PPTPolish 可以接手后续的美化工作。系统会自动分析页面并生成美化提示词，用户可以逐页修改提示词来微调美化方向。

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

三、示例高能时刻：从输入到输出的 “视觉魔法”

空口无凭，我们来看看 Paper2Any 的实际表现。

科研绘图：拯救手残党

模型架构图生成：

1. 论文 PDF → 符合论文主题的架构图

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

2. 科研配图 / 示意图截图 → 可编辑 PPTX

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

3. 论文摘要文本 → 可编辑架构图

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

技术路线图智能梳理：

1. 论文 PDF → 符合论文主题的技术路线图

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

2. 论文摘要文本 → 符合论文主题的技术路线图

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

实验数据可视化：

1. 论文 PDF → 自动提取实验数据绘制 PPT

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

不同类型与不同风格的生成图示例

2. 论文实验表格文本 → 自动整理实验数据绘制 PPT

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

PPT 智能生成与美化

从文档到演示，Paper2Any 提供了全链路的解决方案。

Paper2PPT：

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

与 Gemini 3 Pro、NotebookLM 相比，Paper2Any 生成的 PPT 有以下优势：

结构化图表生成能力强
中文文字表达与字体呈现效果更自然
可读性更好，干货更多，排版布局更具专业感与人工感

PDF2PPT：

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

PPTPolish：

1. PPT 增色美化

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

2. PPT 润色拓展

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

原始 PPT 只是简单的文字罗列；润色后，系统自动添加了科技感背景、可视化图标、以及逻辑图示，瞬间提升汇报档次。

四、如何使用与部署

Paper2Any 提供两种使用方式：

1. 本地部署（开发者推荐）

如果你希望深入研究、二次开发或本地运行，可以基于 Github 仓库进行本地部署。

Github 仓库： https://github.com/OpenDCAI/Paper2Any
快速开始指引： https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85

参考 Readme 文档启动 Web 前端即可。

2. 网页版快速体验

团队已推出可视化的 Web 前端，支持拖拽上传与实时进度展示。新用户可免费注册，登录后可查看历史使用记录。

访问地址： http://dcai-paper2any.nas.cpolar.cn/

结语：让配图成为一种「自动获得的附加值」

Paper2Any 的愿景，是希望建立一条新的科研与工作惯例：写文章 + 一键配图 + 一键生成 PPT + 一键展示。

在未来，课题组计划陆续支持 Paper2Rebuttal（论文返修）、Paper2Idea（创新点生成）和 Paper2Poster（文章海报生成）等更多的多模态功能。我们相信，工具的价值在于释放人类的创造力，让你从繁琐的格式调整中解脱出来，将宝贵的时间投入到那些真正闪光的 Idea 之中。

欢迎大家关注使用 DCAI 的开源项目并与我们进行技术交流，如果觉得好用也请在 GitHub 仓库点一个 star ~

Data-centric AI 开源项目：

文章多模态工作流 Paper2Any: https://github.com/OpenDCAI/Paper2Any

自动化数据治理 Agent 框架 DataFlow-Agent: https://github.com/OpenDCAI/DataFlow-Agent

LLM 数据准备系统 DataFlow (1.9k star): https://github.com/OpenDCAI/DataFlow

DataFlow 技术报告（#1 of the Hugging Face daily paper）: https://arxiv.org/abs/2512.16676

LLM 数据训练系统 DataFlex (基于 LLaMA-Factory): https://github.com/OpenDCAI/DataFlex

文章来自于“机器之心”，作者 “机器之心”。

关键词: AI新闻 , 模型训练 , Paper2Any , AI科研工具

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

一、 核心突破：打破 “不可编辑” 的魔咒

二、 功能全景：从草稿到演示的自动化闭环

Paper2Figure：智能科研绘图，草图变精图

Paper2PPT：文章结构化解析与 PPT 生成

PDF2PPT：让静态文档可编辑

PPTPolish：交互式美化专家

三、 示例高能时刻：从输入到输出的 “视觉魔法”

科研绘图：拯救手残党

PPT 智能生成与美化

四、 如何使用与部署

结语：让配图成为一种「自动获得的附加值」

一、核心突破：打破 “不可编辑” 的魔咒

二、功能全景：从草稿到演示的自动化闭环

三、示例高能时刻：从输入到输出的 “视觉魔法”

四、如何使用与部署