一种具有语义引导的高效场景文本图像超分辨率方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种具有语义引导的高效场景文本图像超分辨率方法
申请号:CN202410702281
申请日期:2024-06-02
公开号:CN118608385A
公开日期:2024-09-06
类型:发明专利
摘要
本发明属于计算机图像处理领域,具体为一种具有语义引导的高效场景文本图像超分辨率方法。本发明方法包括:将图像输入CNN编码器和特征融合模块,准确提取图像的视觉特征,将视觉特征与高级指导信息进行融合,输入到顺序残差块,以像素重组的方式生成超分辨率图像;其中:高级指导信息是通过先将图像输入文本识别模型并进行自注意力计算,得到语义特征,再将语义特征输入到由自注意力和交叉注意力机制组成的视觉‑语义对齐模块中通过交叉注意力机制进行对齐得到;本发明提出的方法能够高效重建超分辨率场景文本图像,并且模型以更少的计算成本实现了优异的性能。
技术关键词
场景文本图像 超分辨率方法 文本识别模型 交叉注意力机制 语义特征 对齐模块 编码器 生成超分辨率图像 分支 融合视觉特征 生成高分辨率 字符 阶段