一种基于智能计算中心算力的数据集版本管理方法及装置
申请号:CN202510058821
申请日期:2025-01-14
公开号:CN119988351A
公开日期:2025-05-13
类型:发明专利
摘要
本发明提供一种基于智能计算中心算力的数据集版本管理方法及装置,包括:在数据库中创建数据集表格,获取训练数据集,将其分成多个分块,并保存为多个parquet文件且存入对象存储服务中,并将其所在路径保存至file字段,并创建数据集版本管理表格以记录训练数据集的当前版本号;对训练数据集中的数据进行修改,得到修改后的训练数据集,并重新分成多个分块后,保存为多个新的parquet文件存入对象存储服务中,确定其所在路径,使用所在路径更新数据集表格中的file字段;执行提交操作,以在数据集版本管理表格中增加新的版本号的记录。由此,可以增加智能计算中心的数据集版本管理能力,以便在大模型训练的场景中灵活调用所需的数据集,有效支持大模型的训练。
技术关键词
对象存储服务
版本管理方法
计算中心
数据
表格
分块
版本管理装置
字段
多模态
处理器
可读存储介质
大语言模型
训练集
计算机程序产品
指令
列表
存储器
电子设备
模块