基于RAG的PDF智能检索与生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于RAG的PDF智能检索与生成方法及系统
申请号:CN202511517633
申请日期:2025-10-23
公开号:CN120994845A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于RAG的PDF智能检索与生成方法及系统,通过获取输入的文档数据,采用预先建立的分类模型对文档数据进行解析,提取文本内容和图像内容形成第一数据集;采用深度学习模型对第一数据集中的图像内容进行特征提取,同时对第一数据集中的文本内容应用自然语言处理技术进行语义分析,得到多模态特征集合;根据多模态特征集合,应用信息整合算法进行统一编码处理生成第二数据集,若检测到第二数据集中的融合特征向量的完整性低于预设阈值,则补充上下文语义分析填补缺失信息;采用预设的索引构建机制对第二数据集中的融合特征向量进行聚类处理,生成包含分类索引结构的检索索引库。本发明提高了文档检索的准确性和全面性。
技术关键词
多模态特征 数据 文本 特征提取工具 语义 生成方法 索引 深度学习模型 生成系统 分析工具 图像增强 图像分割 分词 自然语言 编码 分类工具 校验工具 识别工具 扫描工具