基于大语言模型分类与原型集成的代码搜索方法、系统及设备
申请号:CN202510438207
申请日期:2025-04-09
公开号:CN119961381B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于大语言模型分类与原型集成的代码搜索方法、系统及设备,涉及代码语义分析技术领域,步骤如下:S01、清洗待处理语料段并提取查询源Token和代码源Token,得到清洗后的“查询‑代码”源Token对;S02、使用大语言模型对其进行分类;S03、将所述不同类别的“查询‑代码”源Token对输入到预训练模型中进行模型训练,得到不同类别的专家模型;S04、利用专家模型分别进行代码搜索,得到初步搜索结果;S05、筛选初步搜索结果;S06、对所述筛选后的代码搜索结果进行集成,得到最终的搜索结果。本发明采用上述方法、系统及设备,能够有效地缩小查询与代码之间的语义差距,解决模棱两可的查询可能导致的语义模糊性的问题,从而提高代码搜索的性能。
技术关键词
大语言模型
代码搜索方法
原型
样本
多模态
集成方法
集成模块
表达式
预训练模型
焦点
语义分析技术
锚点
搜索系统
数据处理模块
搜索模块
数据分类
标签
处理器