一种基于nsp的对ocr的文本聚类去噪方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于nsp的对ocr的文本聚类去噪方法
申请号:
CN202510167602
申请日期:
2025-02-17
公开号:
CN119625745A
公开日期:
2025-03-14
类型:
发明专利
摘要
本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像,能够识别并过滤掉那些不相关或错误的文本信息,以确保最终输出的数据是准确和可靠的。
技术关键词
文本
语义相关度
手机拍摄图像
bert模型
数据识别技术
度计算方法
聚类
简便性
参数
校正
场景