最近三个月一直用HTML PPT线下演讲,
工作流极其重复枯燥,基本上都是用Codex一口气做个30页,然后就是一页一页磨,字多了不好看,字少了页面太空,没有配图的话还要用GPT Image2生成再额外接入。
一句话总结,很多HTML PPT Skill,根本就不是为演讲准备的。

这不是这些Skill的锅,真的。
我前后尝试过按章节搭配不同的颜色页面,然后也总结过几个常见的PPT的结构,比方说左右平分,上下平分,三列式上下左右4个方块的格式,基本上能在HTML PPT里面调的,我都试过了。
就跟马铃薯炒土豆一样,
同样的材料炒不出第二种味。
问题不在模板数量。仔细复盘的话是上游Agent给每页信息分配不均的锅。
上游怎么收集整理信息,怎么分配到每页,中间质量有没有过关(重复标题,字体重叠,为了好看加了很多根本没人看的小字),做好之后的演讲稿能不能分到每一页看,
这些都没Skill管。
于是就有了Humanize PPT v0.9版!
我一口气全解决了,再次怀念Claude Fable5。

🔗 github. com/LearnPrompt/humanize-ppt
从v0.7开始,我先给 Humanize PPT 划了一条边界。把渲染PPT页面外包给下游的Skill。
Humanize PPT负责把大纲,逐页意图,视频和图片素材的坑位和演讲稿,整理成结构化的 JSON 与 Markdown,再交给下游 Skill 原生渲染。

所以理论上是可以适配所有的HTML PPT Skill,当然为了严谨我跑通了两条完整的工作流。
中文可以接guizang-ppt-skill,英文可以接frontend-slides和beautiful-html-templates。

用AI做PPT最隐蔽的坑就是页数压不下来。
一小时演讲的PPT,很多时候也就三十多页。每一页都得承载信息。
要么推进一个判断,要么解释一个阻力,要么让观众突然意识到,哦,原来这个事还能这么想。
所以我把资料整理和页面信息分配,做成了 Humanize PPT 的地基。
AST,也就是 Audience、State、Transfer。
A是观众的身份。谁在听?他们已经知道什么?他们凭什么要继续听下去?
S是状态。观众看你的PPT之前是什么状态,看完之后应该变成什么状态。
T是转移。每一页slide的任务不是展示信息,而是推着观众从一个状态走到下一个状态。
Humanize PPT做的第一件事,就是在渲染之前,先帮你把素材按AST的逻辑重新编排。

它会输出一份大纲,每一页都标注观众进入时的状态,这一页的意图,以及离开时应该带走的信息。
我还真的拿同一主题的材料跑了一次前后对左边直接交给 guizang ppt skill,按背景、痛点、方案来分。右边先经过Humanize 的AST编排,再交给同一套guizang视觉体系。

从视觉上看,左边并不丑,甚至guizang的Swiss validator和静态演讲体检都能通过。
但它还是更像一个整理得很漂亮的文件夹。
到了右边,页面不再叫「背景」「痛点」「方案」,而是直接讲真实演讲不是概念展示,AST 先决定观众怎么变。
渲染器没有换,变化是来自上游。
大纲确定以后,Humanize PPT 不会马上让下游一口气写完整份 deck。
它会先拿同一份内容,渲染四张真实页面,让你提前看看最终效果。
不是看色板,也不是看几句抽象的风格描述。
直接看下游 Skill 真正做出来的 HTML 页面。字体怎么排,信息密度怎么样,版式和动效是不是你想要的,一眼就能看出来。

选定其中一个风格以后,Agent 才会沿着这套视觉体系,继续完成后面的二三十页。
这样就不用等整份 PPT 全部做完,才发现方向从一开始就错了。
图片和视频放置的方式也全改变了,
以前Humanize出大纲,会写「这一页可能需要一张图」。到了 v0.9,不只是说「需要」了。素材放哪,文件叫什么,用什么 prompt 生成,全部写进大纲。
baoyu-image-gen接GPT Image2配图,remotion-video-production做视频。

当然,后面我发现先用 SVG 做一个流程图,然后把这个图改成 Remotion,会有更好的效果。
所以我把这个工作流也融入到了 V0.9 里面了。


我之前也试过另一条路,把别人的画风和版式强行搬进自己的框架,再拖三四十个模板进来。
但最终结果,真的四不像,打破原有框架的约束后做出来的页面只能做到80%左右的效果。
四不像甚至还不是最严重的问题。
我还做出过一大堆根本讲不动的页面,信息密度不够,一句话就要跳四五页。
我挑出来一些给大家看,

比方说第三页,上面就三个词加一张全屏背景图。好看是好看,那我讲什么?很多时候,在演讲的过程中,观众其实是会分神的。我认为,如果一页PPT在观众短暂分神再回神之后,就完全看不出有什么主体内容,那这页PPT其实就是失败的。
第五页,一整屏文字挤在一起,我跟观众属于是面面相觑,一起沉默的状态,照着文字念那还不如直接打印出来一手一份。
第八页,标题就写着「技术架构」,下面一个TODO占位符还没填完,图片素材和视频素材都没有。
渲染出PPT的下一步是质检和把演讲稿分配到每一页。
Humanize PPT输出的deck支持演讲模式。按S键切换,演讲稿实时出现在独立窗口,带页码,带备注。
不用对稿,不用背稿,你盯着观众,备注在另一个屏幕跟着翻。
按 ESC 键打开全局索引,所有页面缩成一张总览。讲到哪里忘了,临时想跳页,不用一张张往回翻,找到对应页面,点一下就能直接切过去。


在演讲的过程中,我还发现HTML PPT有常见的渲染问题,
所以我们在演讲之前,还加了一个质检环节。
比方说,这个PPT原本是由beautiful-html-templates纯渲染的,风格是Neo-Grid Bold。

如果当它是一个html网页静态扫描先跑了一遍的话,全绿,0 fail,0 warn。
结果截图逐页人工复核的时候,
直接给我整不会了。

左下角的页码,把正文最后一行吃掉了一半。
观众实际看到的是「uires confirmation.」,但那句话原本应该是「What requires confirmation.」。这就是多少显得有点业余了。

但加上Humanize PPT流程后,「What requires confirmation.」会完整展现且视觉体系一个像素没动。
我还把做HTML PPT的出错大全都统计起来,通通能修。

很长一段时间,Humanize PPT都是走弯路,
一个劲在死磕。怎么让AI做得更漂亮。
现在我更想做的是,
怎么让AI做出来的PPT,真的能被拿去演讲。
漂亮当然重要,
但在演讲里,决定一份PPT有没有用的,
是你翻到下一页的时候,
观众有没有跟着你一起往前走。
这就是 Humanize PPT。
一个为演讲而生的PPT Skill。
把PPT从「看起来很高级」,
往「能大讲特讲」推一点。
那种页面明明很好看,
但站上去不知道怎么讲的尴尬感。
那种明明代码没错,
但投影上就是少了半行字的无语感。
那种一页一页截图,
跟Agent说去看第几页第几行的疲惫感。
我通通不要,
这件事交给Skill就好啦。
文章来自于微信公众号 “卡尔的AI沃茨”,作者 “卡尔的AI沃茨”
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0