一种面向临床数据挖掘主题文献全文知识单元识别方法

申请号：CN202511165447

申请日期：2025-08-20

公开号：CN121034660A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种面向临床数据挖掘主题文献全文知识单元识别方法，涉及知识单元识别技术领域。包括获取大语言模型，构建知识链框架生成原始训练数据；随机抽取50％的原始训练数据作为待增强数据，对待增强数据进行文本增强处理，结合未抽取的原始训练数据作为增强后的训练数据；构建基于特定知识单元类型的COT提示工程模板，作为任务拆分策略输入大语言模型中，将增强后的训练数据输入模型中，获得预训练的大语言模型；引入QLoRa算法对预训练的大语言模型进行监督微调，获得监督微调优化模型，得到知识单元识别结果。本发明能够显著提升文献知识抽取的精准性与研究成果的学术交流效率。

技术关键词

单元识别方法大语言模型主题模型拟合方法模型验证方法特征工程方法网格搜索方法数据清洗方法数据分析工具性能评估方法数据分析方法文本三段式结构策略模板同义词工具包参数算法