基于多模态大语言模型的场景文本识别方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大语言模型的场景文本识别方法及装置
申请号:CN202511299511
申请日期:2025-09-12
公开号:CN120808329B
公开日期:2025-12-16
类型:发明专利
摘要
本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置,属于人工智能技术领域。该方法包括:获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合,以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合,根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落,并记录文本生成过程中各个token位置的采样温度;基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整,根据调整的采样温度重新进行文本生成,实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制,提高场景文本识别的准确性和鲁棒性。
技术关键词
场景文本识别方法 大语言模型 多模态 语义 锚点 图像 交叉注意力机制 图文 识别模块 置信度阈值 人工智能技术 指标 解码 鲁棒性 编码 标记