用于AI大模型预训练的异构数据融合装置、方法及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于AI大模型预训练的异构数据融合装置、方法及介质
申请号:CN202511488848
申请日期:2025-10-17
公开号:CN120974435A
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开了一种用于AI大模型预训练的异构数据融合装置、方法及介质,涉及人工智能技术领域。该异构数据融合装置包括采集模块、处理模块和输出模块,处理模块包括识别解析单元和对齐评估单元,输出模块包括填充单元和索引单元;识别解析单元用于识别并解析不同模态的异构数据,获得各标准数据对象,对齐评估单元用于将各标准数据对象统一语义向量,并计算多模态数据对的质量评分;填充单元用于将多模态数据对填充至语义驱动模板的对应槽位,并向目标样本附加标签和质量评分,索引单元用于将目标样本封装为标准数据结构,并构建目标样本的多维度索引。采用本申请装置能够统一标准,并且准确融合多模态数据,提升了处理效率和预训练数据的质量。
技术关键词
数据融合装置 异构数据融合方法 语义向量 模型预训练 多模态 解析单元 样本 多通道 输出模块 索引 语义标签 对象 模板 可读存储介质 人工智能技术