用于多轮对话query改写任务的训练方法、系统、设备及产品
申请号:CN202511240323
申请日期:2025-09-02
公开号:CN120724162A
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了用于多轮对话query改写任务的训练方法、系统、设备及产品,其属于人工智能技术领域,包括获取历史对话数据,并进行实体标注,得到实体数据,基于历史对话数据和实体数据,得到第一数据集,基于历史数据集,得到query集合,基于第一数据集和query集合,得到第二数据集,计算第二数据集中query集合的向量聚集度,对query集合进行筛选,基于筛选结果,得到第三数据集,对第三数据集进行采样组合,得到第四数据集,将第四数据集输入LLM‑Chat模型进行SFT训练,得到训练后的LLM‑Chat模型。本发明针对多轮对话的场景下,能降低数据获取成本,减少信息丢失情况的发生,提升query改写的准确性。
技术关键词
多轮对话
数据
实体
编码
样本
三元组
存储计算机程序
文本
人工智能技术
收发器
计算机程序产品
聚类
训练系统
计算机设备
模块
存储器
处理器
指令
消息