多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。
4649点击    2025-03-24 16:23

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下,混合多种媒体形式且具有复杂布局的文档随处可见,比如一份PPT:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


其中可能充满大量的文本、标注、图像与各种统计图表。那么如何对这样的文档构建有效的RAG管道?本文将为您介绍我们的实现过程。实验Notebook:


https://github.com/pingcy/multimodal_ppt_rag


先看效果


这里使用《中文大模型基准测评2025年3月报告》这份PPT来做测试,因为它的内容够丰富,且含有大量图表,非常适合用来回答问题。我们期望并达到的效果是,能够图文结合的回答PPT内容相关的问题。比如:


3月份中文大模型评测,通用能力水平最高的模型前五名是谁?


最后输出的答案如下:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


通过对PPT相关的更多问题进行评估,效果基本达到了预期。


总体方案与工具


PPT文档(或者转成的PDF)的复杂之处在于:


  • 没有固定的格式与布局
  • 典型的图、文、表混排
  • 相对于文本,更倾向用图表来表示信息


不过PPT文档也有一个优势:有天然的知识块分割,每一页即为一个Chunk。


所以,简单的借助开源解析工具、OCR等做文本提取,然后按普通RAG流程处理,会丢失大量的语义信息。因此我们的方案是借助多模态的视觉大模型(LVM)在索引与生成阶段双管齐下:


  • 索引阶段:对每一页截图,并生成尽可能丰富的文本表示做嵌入
  • 生成阶段:将检索到的文本与关联的截图一起输入大模型用于生成


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


需要的工具有:


  • 文档解析:豆包vision模型或开启vision的LlamaParse
  • 向量库:本地Chroma
  • 嵌入模型:阿里云Embedding-V3
  • 生成模型:豆包vision模型框架:LlamaIndex或LangChain


这里的每一步你都可以选择替代方案。


文档解析与索引


有很多解析PDF(PPT转化成PDF)文档的开源工具,如Markitdown,Marker,PyMuPDF4LLM等。不过经过测试,面对PPT这种复杂文档,效果最好的是借助视觉大模型。比如我们用豆包的视觉模型对这一页进行生成(提示词参考源代码):


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


它可以很好的提取文字,并对必要内容做整理转化:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


当然在一些不清晰,或者元素过多与混乱的局部区域,会有一些误差。这也是为什么在生成时我们希望同时输出原图片来参考的原因。


在测试时为了方便,我们采用了LlamaIndex提供的云端解析服务LlamaParse(打开Vision功能,原理也是借助视觉大模型)来完成这一步。其好处是会帮你保留每一次解析结果:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


并可以在后台查看详细解析输出:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


Llama-Parse是收费服务,但最多可以每个月有2万免费Credit,足够测试使用。


采用视觉大模型的解析与索引的处理流程:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


【流程说明】


  • 原文档的每一页PPT转为图片,并借助多模态模型解析成每一页的Markdown文本(注意不是简单的文字提取)


  • 【可选】借助LLM对生成的Markdown文本块做适当增强,我们做了两个动作:
  • 生成该页的简单摘要
  • 生成该页可以回答的5个假设性问题


  • 将每一页的Markdown文本块作为一个Chunk,并根据页码与页面图片关联起来(保存图片路径在Chunk元数据);用来在检索时能够根据Chunk找到对应图片


  • 嵌入这些文本Chunks,保存到向量库。注意这里不用做分割(Split)。


检索与生成


检索与生成阶段的流程如下:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


【流程说明】


  • 从向量库检索关联的块,也就是前面对应到PPT页面的生成文本
  • 根据这些块中的元数据(Image_path),找到对应的页面截图
  • 将文本块组装成Prompt,与找到的图片一起输入多模态模型,等待响应
  • 对响应做简单转换,以Markdown格式展示最终结果


【重点说明】


  • 由于我们需要将关联的页面图片同时输入视觉模型,因此通常不能借助框架的高层抽象(比如LlamaIndex中的index.as_query_engine)来直接获得RAG引擎后查询。需要自定义一个查询过程,大致如下:


.....

lvm = DoubaoVisionLLM(model_name='你的豆包模型名字')


class MultimodalQueryEngine(CustomQueryEngine):

...


def custom_query(self, query_str: str):

#检索关联chunk(nodes)

nodes = recursive_retrieve(query_str)

#组装prompt

context_str = "\n\n".join(

[r.get_content(metadata_mode=MetadataMode.LLM) + f'\n以上来自图片:{r.metadata['image_path']}' for r in nodes]

)

fmt_prompt = self.qa_prompt.format(context_str=context_str, query_str=query_str)


#输入提示和图片

response = self.multi_modal_llm.generate_response(

prompt=fmt_prompt,

image_paths = [n.metadata["image_path"] for n in nodes]

)

...


multi_query_engine = MultimodalQueryEngine(

multi_modal_llm=lvm

)


这里简单封装了一个豆包的视觉大模型DoubaoVisionLLM,具体参考源码。


  • 另一个技巧是关于输出。如何让输出结果用图文结合的方式来展示呢?我们在Prompt中给予了视觉大模型提示:


...

输出格式:{{"response": #你的Markdown格式的回答#, "image_path": [#与答案最相关的图片路径#]}}

...


然后对输出结果做简单转化:


...

response_json = json.loads(response)

answer = response_json.get("response", "")

image_paths = response_json.get("image_path", [])

markdown_output = f"### 答案:\n\n{answer}\n\n### 参考来源:\n"

for image_path in image_paths:

markdown_output += f"![Image]({image_path})\n"


至此,对PPT构建的多模态RAG管道已经完成。我们用代码做测试:


response = multi_query_engine.query("这次评测中表现最好的开源模型有哪些?")


from IPython.display import Markdown

display(Markdown(response.response))


得到如下答案:


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。


效果似乎还不错!


问题与优化


在测试过程中,我们也发现一些问题与可能优化的空间,包括:


  • 尽管视觉模型已经很强大,但也并非完美,在一些图片解释上会发生少量偏差
  • 多模态模型的使用,特别是在生成阶段,响应速度相对普通LLM会下降,且对Tokens消耗更大(但并非不可接受)。
  • 如果PPT的页数或文档更多,在检索时精确度会下降,特别是输入问题较为模糊时。我们提供了两个优化实现,但未做评估验证:
  • 对每个页面再次分割,减小Chunk的粒度,以提高检索精度;并在检索时查找到“父块”用于生成
  • 尝试构建了关键词表索引,可结合向量索引进行融合检索。


此外,还可以考虑的一些优化有:


  • 如果有大量PPT,可以借助元数据先做一次过滤
  • 借助Agentic RAG回答不同类型的问题,比如总结性与细节性问题
  • 测试多个向量模型与多模态模型,特别是向量模型对检索结果有较大影响
  • 在实际应用中,生成的页面图片最好放在共享存储用URI访问


以上就是本次全部内容。RAG系统是典型的“三天上线,一年优化”,很多优化都需要反复的验证与评估,如果你有更好的想法,欢迎与我们分享。


文章来自于“AI大模型应用实践”,作者“曾经的毛毛”。


多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

关键词: AI , RAG , AI实战分享 , 搜索增强
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0