一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

6010点击 2025-12-30 09:55

一套 WPS 的 AIPPT 工作流长什么样？

过去一段时间，Nano Banana Pro 几乎是「现象级」的存在。

大家刷到的可能不是教程，就是一页页被转发的 PPT 截图。配色很高级、构图也干净、视觉张力拉满，几乎已经不像我们熟悉的那种「模板式 PPT」。

很多人第一次看到的时候，都会下意识地想到一句话：

这要是我下周汇报用的就好了。

但真把它往实际工作里一放，就会发现一些尴尬的问题。最常见、也最现实的一个是：

这个图片里的字能改吗？

如果继续靠提示词一遍一遍地修改，字是变了，但顺带着，排版、留白、图形关系也都被打乱了。

这其实戳中了一个越来越明显的矛盾：当 AI 生图开始被认真拿来当「生产力工具」用时，生成的图片能不能拆图层、能不能精细修改，就成了门槛本身。

也正是在这个背景下，一周前我们在日常用 WPS 的时候，注意到 WPS AIPPT 里悄悄上线了一个新功能：「图片转 PPT」。

我们拿真实工作场景，高强度用了一周，从各种板式的 PPT 风图片，到一些整活场景，几乎都跑了一遍。

🚥

接下来，我们就把这一周的真实使用体验，以及这个功能在不同场景下的表现，整理成一篇文章，分享给大家。

1）PPT

首先，WPS AIPPT 的「图片转 PPT」入口在这里：aippt.wps.cn

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

我自己实际用下来，WPS 的小程序、网页版、电脑端基本都能跑，使用上没什么门槛。

下面我们先看两份 PPT 报告的图层分析效果。说实话，结合我整体的体验来看，PPT 反而是 WPS AIPPT「图片转 PPT」里最简单、也最好理解的一种用法。

为什么这么说？

我们先从一份「咨询风 PPT」说起，这也是我个人非常喜欢的一种风格。

最近关于马斯克的 SpaceX 可能会达成人类历史上第一笔大型 IPO 的消息挺热的，所以我就直接用 Nano Banana Pro，按咨询风生成了一套 SpaceX IPO 战略分析报告的 PPT。

比如下面这几页，你可以看到一个很明显的点：整页里的文字颜色，其实被拆成了 3 到 4 种层级。而且不只是正文，图片里也会嵌着文字元素：

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

首先有一件事得先说清楚：AI 生成图片里的文字，本质上并不是「可编辑文字」。更准确地说，模型是在「画字」，不是在「排字」。

所以一旦你想把这些内容，转换成办公软件里真正能改、能选、能复制的文本，字体、字距、行距，甚至字形结构，几乎一定都会发生变化。

基于这个前提，我们再来看 WPS AIPPT 的表现。

首先是前 2 张图片，都还比较完整地转成了可编辑的 PPT：

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

第三张 PPT 因为本身是一个网状结构的流程图，所以 WPS AIPPT 识别出来的内容其实非常多，几乎每一处文字都能被单独识别出来。

在做图层分离之后，我把所有被识别出来的文本框都统一选中，并加上了黄色边框。

这样，你就能非常直观地看到：它到底把哪些元素成功拆分成了独立图层。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这一组是 Claude 风格的 PPT，同样还是围绕 SpaceX IPO 的全景分析，我们可以把它拆开来看细节。

先从第一张说起。这一页其实就是一张 PPT 封面。你应该能很明显地看出来，它大致是由两个部分组成的。

左侧是文字区域，而且被清晰地分成了两种不同字号的文字层级。

右侧则是一个橙黄色的图标元素，结构非常直观。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

我这里录了一个动图，你可以看得很清楚：不只是把文字抠出来这么简单，它其实是先把图片里的文字做了图文分离，然后再用两种不同字号的黑体，重新把这些文字组合了一遍。

再看右侧这个图标，基本和原图片里的图标几乎一样。

而且我还顺手拖了一下，才发现一个细节：它已经把这个图标单独拆成了一个图层。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这两页 PPT，我都把全文里的文本框和图标框统一标成了黄色边框。

这样一来，你就能很直观地看出来：它几乎把页面里的所有元素都拆解出来了，最终做成了一份可编辑的 PPT。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这张图，其实可以单独拎出来说一说。为什么这么说？因为这是我用 AI 生成的一张自带表格结构的图片。

你一眼就能看出来，整张图里最核心、最重的元素，其实就是中间这个大表格。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这张，就是 WPS AIPPT 对那张图片做完图层分离之后的效果。

虽然你能看到左侧某个单元格里的图标，可能确实少识别了几个，但在我全选之后发现一个很关键的点：中间这一整块内容，并不是按普通文字排版拆出来的，而是被直接识别成了一个「表格」。

这其实很重要。

也就是说，WPS AIPPT 在把图片转成 PPT 时，如果识别到的是表格结构，它更倾向于直接还原成真正的表格，而不是先拆成一堆文字，再让你自己慢慢往表格里填。

从实际使用角度来说，这一步就省事很多了。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这张 PPT 里，三种路径对应的图标其实都是可以单独拖动的。而且它们在显示效果上，和原始图片里的图标几乎一样。

整体看下来，WPS AIPPT 在这种独立小图标的图层分离上，表现确实比较明显，也比较稳定。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这一页里，传统路径、创新路径、合并路径、分拆路径这四项线图，其实也是通过表格形式实现的。

它的逻辑是：先生成一个表格结构，再在这个表格里，按照原始图片的排版方式，把对应的文字和布局填进去。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

我们最后再来看一张 PPT。

在这页里，你会发现信息密度其实挺高的：图标很多，颜色很多，背景也有不同颜色块，而且还有带序号的文字结构。不同文字之间的颜色也不一样，图标类型也不同。

但在 WPS AIPPT 里，几乎所有文字都已经被成功分离出来了，图标也基本都被拆成了独立元素。

尤其是像「监管」「视察」「内部」这种很小的图标，其实也都被单独识别出来了。

字体上确实还是会有些差别，但整体来看，问题不大，也不影响后续编辑和使用，而且这些被拆分出来的文本，除了该内容，也同样能改字体样式。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

2）科技学术展板

以上就是 PPT 的整体转化效果了。

WPS AIPPT 的核心能力之一，是把图片转成可编辑的 PPT。

除此之外，我自己用下来，其实会觉得：如果只用在 PPT 这个相对简单的场景里，多少有点大材小用了。

原因也很简单，PPT 里的图片元素通常结构都比较清晰，很少有那种特别复杂、彼此叠加的元素。

所以我后来「整了个活」，试了几个非典型场景。

其中让我觉得最有意思的一个，是科技类的学术展板。

只要参加过学术会议，尤其是科技行业、科研领域相关活动的同学，应该都很熟悉这种场景：要做一张信息密度极高、结构非常复杂的学术展板，然后打印成海报，贴在论坛或会场里展示。

这个使用场景，我个人觉得其实挺实用的。

于是我先用 Nano Banana Pro 生成了一张学术展板。下面这张，就是一份关于虚拟现实眼镜的高密度布局展板。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

我还是老样子，直接全选了这张被转化后的 PPT。你会发现一个很明显的点：几乎所有元素都被成功做了图层分离。

而且你基本只要一眼，就能看出来，它在这页 PPT 里是有明确字号层级设计的。从整个学术展板的大标题，到左上角图片下面那种说明性的细小文字，基本都被拆分得比较到位。

文字和图片之间的关系处理得也还不错，没有出现太夸张的幻觉。就算个别地方有点小问题，也都属于可修、可调的程度。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

像下面这张图这一块，我把文字部分都标成了黄色，整体展示出来的效果，还是挺不错的：

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

不过说实话，这种整体信息密度特别高的布局，它还是会不可避免地出现一些排版上的小问题。

但给我的感觉是：这些问题是能靠手动修的。该拆开的地方基本都拆开了，图标、图片也都分离得比较到位。

所以那些有点幻觉、排得不太对的文字，我直接删掉，再自己补进去就行了，整体时间成本不高，也不算什么大问题。

3）地标图

然后我们再来看一下 Nano Banana Pro 有一个特别经典、也很常见的使用场景，就是：给现实世界里的地标，生成一张「解释图」。

我个人觉得这个用法其实挺不错的。

比如下面这个例子，就是埃菲尔铁塔。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

WPS AIPPT 这一步基本把该拆的元素和图标都拆出来了，整体排版看着也还可以。

像右边那 3 个埃菲尔铁塔的横截面示意图，也都被单独分离出来了，是可以直接拖动、单独调整的。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

下面这个悉尼歌剧院也一样：

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

4）辣条解释图

下面这个，这是我最近在网上看到很多人都在玩的一个场景：展示某个具体物品，然后围绕它的属性，做一张信息密度非常高的拆解图。

我也试了一下，先用 Nano Banana Pro 生成了一张辣条的分解图，里面包含了不同使用场景、工艺流程等等，密度确实挺高的。

然后我再把这张图丢进 WPS AIPPT 里，看看它到底能不能把这些复杂元素一一拆出来。

左边这张，是我用 Nano Banana Pro 生成的原始分解图；右边这张，则是 WPS AIPPT 做完图层分离之后的效果。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

整体来看，它在元素分离这件事上做得已经挺准了，但字体部分可能还是需要你自己稍微微调一下。

不过你已经能看到，在 WPS AIPPT 拆出来的这些图层里，我把所有文本框和图标全选之后，整体的精准度其实已经相当高了。

几乎所有文字都被成功分离出来了，幻觉出现的地方也非常少。

如果你再细看一点的话，像这种竖向排版的英文，它其实也会自动去匹配这种排版格式，并不是简单粗暴地一股脑拆成横排文字。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

再比如下面这两个单独拎出来的消费场景图标，也都已经被成功做了图层分离，可以直接拖动、删除，或者按你的需要去改。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

5）吉伊卡哇极繁主义图

下面这张图就比较经典了。

这是我在小红书上看到的一位博主 @个案森林做的那种「吉伊卡哇图解核心体系与贡献」。

它属于那种信息密度极高的布局，不管是文字量还是图标数量，都非常多，整体就是一种极繁主义的设计风格。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

我后来仔细检查了一遍，发现这张图里，除了那些嵌在图标里的文字之外，几乎每一个字都是可以直接改的。

而且不只是能改文字，文字背后原本图片里的那些背景关系，也都处理得还挺干净的，没有出现那种一改字就全乱掉的情况。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

甚至我同样发现，很多图标都已经被分离了：

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

🚥

WPS 本质上是一个办公基础设施，它服务的是要交付 PPT 的人。而这，恰恰让它成为了一个非常合适、也非常稀缺的入口。

在 AI 工具发展的这 1 年，其实已经隐约形成了一种分工：

【1】AI 生成工具，解决的是「想象力」；

【2】办公软件，解决的是「可交付性」。

问题在于，过去一段时间里，AI PPT 的进化，几乎全部发生在前者。

所以，当像 Nano Banana Pro 这样的「现象级」 AI 模型不断迭代的时候，一个很典型的问题就出现了：大家的创意溢出了，但落地不足。

有没有一种方式，既保留 AI 的审美和创造力，又能回到办公软件的可控性？

也正是从这个问题开始，一套新的 AI PPT 工作流，才有了意义。

WPS 想要抓的就是这个入口。

如果你最近也在被 AI PPT 风图片「好看但不能用」这件事反复搞的「头秃」，不妨去试试这个方向的解法和产品。

一张 AI 生图，和一份能交付的 PPT 之间，差了什么？

文章来自于“十字路口Crossing”，作者 “镜山”。

关键词: AI新闻 , AI PPT , AI办公 , wps AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0