基于大语言模型分类与原型集成的代码搜索方法、系统及设备

申请号：CN202510438207

申请日期：2025-04-09

公开号：CN119961381B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了基于大语言模型分类与原型集成的代码搜索方法、系统及设备，涉及代码语义分析技术领域，步骤如下：S01、清洗待处理语料段并提取查询源Token和代码源Token，得到清洗后的“查询‑代码”源Token对；S02、使用大语言模型对其进行分类；S03、将所述不同类别的“查询‑代码”源Token对输入到预训练模型中进行模型训练，得到不同类别的专家模型；S04、利用专家模型分别进行代码搜索，得到初步搜索结果；S05、筛选初步搜索结果；S06、对所述筛选后的代码搜索结果进行集成，得到最终的搜索结果。本发明采用上述方法、系统及设备，能够有效地缩小查询与代码之间的语义差距，解决模棱两可的查询可能导致的语义模糊性的问题，从而提高代码搜索的性能。

技术关键词

大语言模型代码搜索方法原型样本多模态集成方法集成模块表达式预训练模型焦点语义分析技术锚点搜索系统数据处理模块搜索模块数据分类标签处理器