摘要
本发明提供了一种材料领域文献可溯源问答系统及构建方法,涉及人工智能技术领域。将PDF文献转换为结构化的Markdown文本;根据Markdown文本执行双阶段分块操作以获取分块操作结果;执行领域自适应向量编码操作,构建材料科学对应的领域训练数据集对Embedding模型进行训练,根据Embedding模型结合分块操作结果将文本块转化为向量表示;将向量表示存至数据库,建立近似最近邻索引结构;获取用户提问信息并在数据库中执行多级检索优化操作以生成高置信片段;将高置信片段与用户提问信息拼接,驱动领域大语言模型生成带精确引用标记的答案。解决在可溯源问答系统中问答准确率不足且溯源性差的问题。