一种面向智能制造的大模型预训练方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向智能制造的大模型预训练方法及系统
申请号:CN202511247189
申请日期:2025-09-02
公开号:CN120892818A
公开日期:2025-11-04
类型:发明专利
摘要
本申请涉及大语言模型文本处理技术领域,具体涉及一种面向智能制造的大模型预训练方法及系统,该方法包括:获取文本语料库,并对文本语料库中每篇文本语料进行分词处理得到每篇文本语料的词汇数据集;提取每个段落的段落词汇集的各聚类簇,获取各聚类簇的语义模糊度及低频一致度,进而得到各聚类簇的高频冗余干扰度;对每篇文本语料中各段落对应的所有聚类簇的高频冗余干扰度进行奇异值分解,并获取每篇文本语料的词汇可疑度,基于此计算每篇文本语料的窗口适应值,获取LLM大模型预训练的训练数据集,以对LLM大模型进行预训练。本申请可提高大语言模型预训练的精度。
技术关键词
预训练方法 模型预训练 冗余 语义 大语言模型 文本处理技术 聚类算法 分词 矩阵 数据 处理器 存储器 元素 尺寸 关系 度量 精度