文本数据处理方法及装置、存储介质及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文本数据处理方法及装置、存储介质及电子设备
申请号:CN202511254175
申请日期:2025-09-03
公开号:CN120821828A
公开日期:2025-10-21
类型:发明专利
摘要
本公开提供了一种文本数据处理方法及装置、存储介质及电子设备,涉及计算机技术领域。该方法包括:获取待处理文本;若所述待处理文本超过长度阈值,则基于语义单元的边界对所述待处理文本进行分块处理,生成多个语义连续且长度不超过所述长度阈值的文本块;其中,所述长度阈值根据文本处理模型的词元处理长度确定;将所述文本块输入所述文本处理模型进行处理,获得所述待处理文本的信息提取结果。该方法可以基于语义单元边界对待处理文本进行分块处理,确保生成的文本块语义连续且长度符合模型处理要求,避免因文本过长导致模型处理困难,同时保证语义完整性,在实现对长文本有效处理的同时,有利于提高模型信息提取的准确性。
技术关键词
文本处理模型 文本数据处理方法 样本 语义 分块 加权损失函数 文本数据处理装置 复杂度 自然语言 电子设备 处理器 动态 存储装置 参数 可读存储介质 程序 实体 标签 机制