科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑
8602点击    2026-01-05 09:52

你是否经历过这样的至暗时刻: 明明实验数据已经跑通,核心逻辑也已梳理完毕,却在面对空白的 PPT 页面时陷入停滞; 明明脑海里有清晰的系统架构,却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时; 好不容易用 AI 生成了一张精美的流程图,却发现上面的文字是乱码,或者为了改一个配色不得不重新生成几十次……


在内容生产的过程中,“写” 往往只占了一半,而将文字转化为结构图、流程图,再整理成演示用的 PPT,这个过程繁琐、耗时,且极度考验设计感。为什么我们不能让 AI 像理解文字一样,理解我们的逻辑,并自动帮我们要展示的 “视觉物料” 准备好?


为了解决这一痛点,北京大学 DCAI 课题组 基于自动化数据治理 Agent 框架 DataFlow-Agent,推出了全新的多模态辅助平台 —— Paper2Any


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


它不再是一个简单的 “文生图” 工具,而是一整套自动化的内容视觉化 Workflow。从阅读资料、理解逻辑,到生成图像、切割元素,最终输出完全可编辑的 PPT 和 SVG 文件,Paper2Any 正在试图重塑我们准备 Presentation 的方式。


  • 本地部署方式:https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85
  • 网页体验地址:http://dcai-paper2any.nas.cpolar.cn/
  • 文章多模态工作流 Paper2Any:https://github.com/OpenDCAI/Paper2Any


一、 核心突破:打破 “不可编辑” 的魔咒


目前市面上的 AI 绘图工具虽然效果不错,但在科研与办公等场景下有一个致命缺陷:生成的图片是 “死” 的。 文字无法修改,模块无法拖拽,风格难以统一。


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑

工作流实现逻辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑

生成示例PPT绘图


Paper2Any 的核心差异在于它实现了从逻辑到结构化元素的映射。


系统内置的智能体首先对输入的文章或文本进行语义分析,提取核心贡献与思路。接着,它不仅生成视觉图像,更进一步对草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标,并记录每个元素的元数据。


这意味着,你拿到的不再是一张不可直接修改的 PNG,而是一组独立、分层、可操作的图文块。用户可以在 PPT 中自由移动、编辑、替换、重新布局。(Paper2PPT 和 PPTPolish 功能暂时仅支持输出 PDF,可通过 PDF2PPT 功能将其结果转为可编辑 PPTX)


二、 功能全景:从草稿到演示的自动化闭环


Paper2Any 目前支持的功能主要涵盖以下四大核心场景,旨在解决从 “输入素材” 到 “最终汇报” 的最后一公里问题。


Paper2Figure:智能科研绘图,草图变精图


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


用户无需从零学习复杂的矢量绘图软件。Paper2Figure 支持多模态输入(PDF、文本、甚至随手画的草图截图),系统便能自动识别你的意图。


  • 模型架构图: 上传论文或描述,系统自动梳理模块连接关系,生成清晰的架构图。支持生成 SVG 和 可编辑 PPTX,图里的方框、线条都能动。
  • 技术路线图: 无论是中文还是英文,系统能根据方法论自动绘制流程与逻辑步骤。
  • 实验数据图: 扔给它一堆实验数据文本或表格,它能自动转化为可视化的对比柱状图或折线图。


Paper2PPT:文章结构化解析与 PPT 生成


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


这是为 “赶进度” 的研究者和职场人准备的救星。Paper2PPT 不仅仅是简单的摘要生成,它利用算法对文档结构进行深度语义分析,提取背景、方法论、关键图表。


  • 三种输入模式: 直接上传 PDF 论文、粘贴长文本、或者仅仅输入一个研究 Topic(系统会自动深度搜索)。
  • 自定义设置: 支持用户自定义幻灯片页数、风格及自由选择中英文语言;支持逐页生成 PPT,用户可自由调整每页 PPT 的大纲。
  • 超长 PPT 支持:首次支持制作超过 40 页的超长 ppt,无论是综述的演示还是深入研究某个主题都能一次满足!
  • 中文适配与呈现: 可解决大模型生成 PPT 字体怪异及表达僵硬问题。输出结果采用标准中文字体与规范的排版,文案逻辑自然流畅,可减少 “AI 痕迹”,满足正式场合演示需求。


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


PDF2PPT:让静态文档可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


你是否遇到过这种情况:手里只有一份 PDF 格式的讲义或报告,却需要对其进行修改和汇报?


PDF2PPT 模块利用 MinerU 与 SAM (Segment Anything Model) 模型,像 “拆积木” 一样对版面进行高精度解析,将原本锁死的 PDF 页面还原为可编辑的 PPTX。


  • 黑科技加持: 系统集成了 Gemini Nano 模型进行图像内补(Inpainting)。当系统将文字提取出来后,会自动修复文字覆盖区域的背景,实现 “去字留影”,最大程度还原原始底图的视觉效果。


PPTPolish:交互式美化专家


如果你的 PPT 内容已经写好,但排版却有些简陋,PPTPolish 可以接手后续的美化工作。系统会自动分析页面并生成美化提示词,用户可以逐页修改提示词来微调美化方向。


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


三、 示例高能时刻:从输入到输出的 “视觉魔法”


空口无凭,我们来看看 Paper2Any 的实际表现。


科研绘图:拯救手残党


  • 模型架构图生成: 


1. 论文 PDF → 符合论文主题的架构图


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


2. 科研配图 / 示意图截图 → 可编辑 PPTX


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


3. 论文摘要文本 → 可编辑架构图


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


技术路线图智能梳理:


1. 论文 PDF → 符合论文主题的技术路线图


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


2. 论文摘要文本 → 符合论文主题的技术路线图


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


  • 实验数据可视化:


1. 论文 PDF → 自动提取实验数据绘制 PPT


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑

不同类型与不同风格的生成图示例


2. 论文实验表格文本 → 自动整理实验数据绘制 PPT


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


PPT 智能生成与美化


从文档到演示,Paper2Any 提供了全链路的解决方案。


  • Paper2PPT:


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


与 Gemini 3 Pro、NotebookLM 相比,Paper2Any 生成的 PPT 有以下优势:


  • 结构化图表生成能力强
  • 中文文字表达与字体呈现效果更自然
  • 可读性更好,干货更多,排版布局更具专业感与人工感


  • PDF2PPT:


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


  • PPTPolish: 


1. PPT 增色美化


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


2. PPT 润色拓展


科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑


原始 PPT 只是简单的文字罗列;润色后,系统自动添加了科技感背景、可视化图标、以及逻辑图示,瞬间提升汇报档次。


四、 如何使用与部署


Paper2Any 提供两种使用方式:


1. 本地部署(开发者推荐) 


如果你希望深入研究、二次开发或本地运行,可以基于 Github 仓库进行本地部署。


  • Github 仓库: https://github.com/OpenDCAI/Paper2Any
  • 快速开始指引: https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85


参考 Readme 文档启动 Web 前端即可。


2. 网页版快速体验 


团队已推出可视化的 Web 前端,支持拖拽上传与实时进度展示。新用户可免费注册,登录后可查看历史使用记录。


  • 访问地址: http://dcai-paper2any.nas.cpolar.cn/


结语:让配图成为一种「自动获得的附加值」


Paper2Any 的愿景,是希望建立一条新的科研与工作惯例:写文章 + 一键配图 + 一键生成 PPT + 一键展示


在未来,课题组计划陆续支持 Paper2Rebuttal(论文返修)、Paper2Idea(创新点生成)和 Paper2Poster(文章海报生成)等更多的多模态功能。我们相信,工具的价值在于释放人类的创造力,让你从繁琐的格式调整中解脱出来,将宝贵的时间投入到那些真正闪光的 Idea 之中。


欢迎大家关注使用 DCAI 的开源项目并与我们进行技术交流,如果觉得好用也请在 GitHub 仓库点一个 star ~


Data-centric AI 开源项目:


文章多模态工作流 Paper2Any: https://github.com/OpenDCAI/Paper2Any

自动化数据治理 Agent 框架 DataFlow-Agent: https://github.com/OpenDCAI/DataFlow-Agent

LLM 数据准备系统 DataFlow (1.9k star): https://github.com/OpenDCAI/DataFlow

DataFlow 技术报告(#1 of the Hugging Face daily paper): https://arxiv.org/abs/2512.16676

LLM 数据训练系统 DataFlex (基于 LLaMA-Factory): https://github.com/OpenDCAI/DataFlex


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0