在人工智能领域,大语言模型(LLM)的应用已经渗透到创意写作的方方面面。然而,如何让AI生成具有多重可能性的分支叙事,一直是一个具有挑战性的课题。传统的方法往往依赖于人工预设分支点,或是完全依赖用户输入来推动故事发展,这些方法要么限制了故事的可能性,要么容易导致故事偏离原有主题。宾夕法尼亚大学的研究团队最近提出了一种突破性的解决方案——WHAT-IF(Writing a Hero's Alternate Timeline through Interactive Fiction)系统,该系统通过创新性地运用元提示(meta-prompting)技术,实现了高质量的分支叙事自动生成。这项研究不仅为交互式小说创作开辟了新的可能性,更为Prompt工程师提供了一个全新的技术范式。
如图1所示,WHAT-IF系统提供了简洁的用户界面,允许用户输入主角名称、故事标题和原始剧情。系统以此为基础,自动生成具有多个分支可能性的交互式故事。
【图1:WHAT-IF系统的用户界面。用户可以输入主角、标题和故事情节,图中展示了使用WandaVision电视剧情节作为输入的示例。】这里我选择了项目的截图。
故事生成技术的发展历程反映了人工智能领域的重要进步。在早期,故事生成主要依赖于经典规划方法。这些系统通过从情节点图中提取计划来生成故事,能够确保故事情节的长期连贯性,但缺乏自然语言生成能力。
随着大语言模型的出现,故事生成领域迎来了新的突破。现代语言模型(尤其是GPT系列)在生成流畅、富有创意的故事方面展现出了惊人的能力。研究者们开始探索如何通过提示工程来控制故事生成,包括使用大纲扩展、关键词引导等方法。一些研究还尝试将检索增强技术引入故事生成过程。
在交互式叙事生成领域,研究者们同样进行了广泛的探索。传统方法主要依赖规划技术,而近期的研究开始尝试使用神经网络来生成交互式小说的世界、场景和分支任务。特别值得注意的是,一些研究者开始探索如何利用大语言模型来生成用户选择,这为WHAT-IF系统的设计提供了重要的参考。
WHAT-IF系统的核心架构包含五个主要阶段,每个阶段都经过精心设计,以确保生成的分支叙事既保持连贯性,又富有创意。如图3所示,系统的工作流程包括从原始剧情到最终游戏生成的完整过程,通过分支创建和合并来构建丰富的故事世界。
【图3:WHAT-IF系统架构图。展示了从原始剧情到交互式游戏的完整工作流程:(1)初始化分支剧情树;(2)提取关键事件;(3)生成元提示;(4)生成新的分支事件;(5)将新事件组织成树结构;(6)合并到现有树中;(7)生成最终的游戏叙事。】
在这个阶段,系统首先将输入的线性故事转化为一个结构化的分支剧情树。如图4所示,这个树状结构的每个节点都包含四个关键元素:
【图4:分支剧情树的节点结构图。每个节点包含状态(S)、目标(G)、关键决策(KD)和替代决策(AD),边上包含事件序列E={e1,e2,e3}。】
每条边包含的三个事件被设计为完整的句子,以确保叙事的连贯性:
系统使用JSON格式来存储这个树状结构,确保数据的规范性和可处理性。如图2所示,系统通过递归方式不断添加分支,最终形成一个完整的二叉树结构。这种结构化的设计不仅便于系统处理,也为后续的分支生成提供了清晰的框架。
【图2:分支剧情树的生成过程图。从原始剧情p1开始,系统递归地添加替代情节,直到形成完整的二叉树结构。】
系统在这个阶段采用了经典的三幕剧结构理论,这种结构将故事分为三个主要阶段:设置、对抗和解决。系统从原始故事中提取三个关键事件:
引发事件(Inciting Incident):
危机(Crisis):
高潮(Climax):
系统使用特定的提示来识别这些关键事件,确保提取的事件真正代表故事的重要转折点。这些事件随后被用作生成分支故事的锚点,确保新生成的故事线也具有类似的戏剧性结构。
这是WHAT-IF系统最具创新性的部分。系统使用GPT-4来生成针对每个分支点的定制化提示,这些元提示包含以下要素:
1.基于原始故事情节的具体引导问题:
2.对新分支的结构要求:
3.输出格式规范:
系统会根据当前分支点的具体情况动态调整这些元提示的内容,确保生成的提示既能保持故事的连贯性,又能激发创意的分支发展。
在这个阶段,系统使用生成的元提示来创建新的故事分支,并将其整合到现有的剧情树中。这个过程是递归的,包含以下步骤:
这种递归的方法确保了每个分支都能保持与原始故事相似的质量和深度。
最后一个阶段将分支剧情树转化为可交互的故事体验。系统为每个节点生成:
这些内容最终被编译成Ink脚本,创建一个完整的交互式小说游戏。
WHAT-IF系统在元提示技术的应用上展现出了独特的创新。传统的提示工程通常依赖于固定的模板或人工设计的提示,而元提示则允许系统根据具体故事内容动态生成最适合的提示。这种方法带来了几个显著的优势:
系统能够根据故事的具体内容和当前分支点的特征,生成高度相关的提示。这些提示不仅包含必要的格式要求,还包含了对故事主题、角色发展和情节转折的深入理解。例如,当系统需要为一个关键决策点生成分支时,元提示会自动考虑:
通过在元提示中融入三幕剧结构的要求,系统能够在保持创意自由的同时,确保生成的故事具有良好的结构。这种平衡是通过以下机制实现的:
元提示还包含了一系列质量控制机制,确保生成的内容符合预期:
1.高度的故事连贯性 WHAT-IF系统生成的分支故事能够很好地保持与原始故事的主题一致性,同时又不失创新性。这主要得益于:
2.可控的创意空间 系统通过元提示技术,在保持创意自由度的同时,确保生成的内容不会偏离原有故事的核心。这种平衡是通过以下机制实现的:
3.良好的用户体验 最终生成的交互式小说能够为用户提供:
1.计算资源消耗 系统在生成完整的故事树时需要大量的GPT-4调用,这带来了:
2.生成内容的不可预测性 尽管有严格的控制机制,但由于依赖大语言模型,系统仍可能产生:
WHAT-IF系统的设计和实现为Prompt工程师提供了很多有价值的启示:
1.动态提示生成 元提示技术展示了一种新的提示工程范式,它能够:
2.结构化控制 通过在元提示中嵌入结构化的要求,可以:
1.系统设计 在设计类似系统时,建议:
2.提示设计 在设计提示时,应该考虑:
WHAT-IF系统的成功实现表明,元提示技术在复杂的生成任务中具有巨大的潜力。这种技术不仅适用于分支叙事生成,还可能在其他需要精确控制和创意平衡的领域发挥重要作用。对于Prompt工程师来说,这项研究提供了一个全新的技术视角,值得在实践中进行更深入的探索和应用。
文章来自微信公众号“AI修猫Prompt”,作者“AI修猫Prompt”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0