一种合成数据集构建方法及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种合成数据集构建方法及电子设备
申请号:CN202511494562
申请日期:2025-10-20
公开号:CN120975247A
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开了一种合成数据集构建方法及电子设备,涉及人工智能技术领域,包括利用分词器,将目标领域的原始多源文档划分为多个分词单元;获取多个分词单元对原始多源文档的代表性得分;基于代表性得分,确定代表性得分高于第一得分阈值的分词单元为候选关键词;基于候选关键词的代表性得分,确定候选关键词的重要度得分;基于重要度得分,确定重要度得分高于第二得分阈值的候选关键词为目标关键词;调用预训练语言模型,基于目标关键词,生成目标关键词对应的问答对,以获得目标领域的合成数据集。解决了相关技术中生成的合成数据集的数据覆盖率和领域相关性较低的技术问题,达到了提高生成的合成数据集的数据覆盖率和领域相关性的技术效果。
技术关键词
关键词 预训练语言模型 分词 数据集构建方法 命名实体识别模型 训练分类器 电子设备 覆盖率 存储计算机程序 人工智能技术 语义 专业 格式 模板 词典 词语 频率 目录