用于多轮对话query改写任务的训练方法、系统、设备及产品

申请号：CN202511240323

申请日期：2025-09-02

公开号：CN120724162A

公开日期：2025-09-30

类型：发明专利

摘要

本发明公开了用于多轮对话query改写任务的训练方法、系统、设备及产品，其属于人工智能技术领域，包括获取历史对话数据，并进行实体标注，得到实体数据，基于历史对话数据和实体数据，得到第一数据集，基于历史数据集，得到query集合，基于第一数据集和query集合，得到第二数据集，计算第二数据集中query集合的向量聚集度，对query集合进行筛选，基于筛选结果，得到第三数据集，对第三数据集进行采样组合，得到第四数据集，将第四数据集输入LLM‑Chat模型进行SFT训练，得到训练后的LLM‑Chat模型。本发明针对多轮对话的场景下，能降低数据获取成本，减少信息丢失情况的发生，提升query改写的准确性。

技术关键词

多轮对话数据实体编码样本三元组存储计算机程序文本人工智能技术收发器计算机程序产品聚类训练系统计算机设备模块存储器处理器指令消息