一种基于nsp的对ocr的文本聚类去噪方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于nsp的对ocr的文本聚类去噪方法
申请号:CN202510167602
申请日期:2025-02-17
公开号:CN119625745A
公开日期:2025-03-14
类型:发明专利
摘要
本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像,能够识别并过滤掉那些不相关或错误的文本信息,以确保最终输出的数据是准确和可靠的。
技术关键词
文本 语义相关度 手机拍摄图像 bert模型 数据识别技术 度计算方法 聚类 简便性 参数 校正 场景