摘要
本发明公开了一种基于大语言模型的物资调度方法、设备及介质,其中方法包括:数据采集和预处理;构建物资调度指令数据集;构建初始大语言模型;在无标注文本数据集上对所述初始大语言模型进行预训练,得到预训练大语言模型;在物资调度指令数据集上对所述预训练大语言模型进行有监督微调,得到有监督微调模型;在所述有监督微调模型基础上,创建一个奖励模型,以计算偏好排序损失;构建物资调度应答数据集;在物资调度应答数据集上训练有监督微调模型,得到目标大预言模型;通过自然语言与所述目标大预言模型交流,得到物流调度应答结果。本发明通过偏好排序损失有效地将大语言模型输出概率与人类偏好对齐,得到用户友好的物流调度大语言模型。