问答信息的生成及多模态大模型训练方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
问答信息的生成及多模态大模型训练方法和装置
申请号:CN202410796817
申请日期:2024-06-19
公开号:CN118586502A
公开日期:2024-09-03
类型:发明专利
摘要
本公开提供了问答信息的生成及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于光学字符识别等场景。其中的问答信息的生成方法可包括:获取待处理的目标图像,目标图像中包括待解答的问题内容以及问题内容对应的配图;分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息;结合文本模态信息以及图像模态信息,利用多模态大模型确定出问题内容对应的解答信息。
技术关键词
前馈神经网络 多模态 图像编码器 转换文本 视觉特征 特征金字塔网络 解码器 深度残差网络 融合特征 光学字符识别 序列 模型训练方法 位置编码信息 图框 模型训练模块 图像获取模块 多层感知机
系统为您推荐了相关专利信息
情绪识别方法 多模态特征 典型 场景 曲线
环网柜供电 监测环网柜 故障预测模型 动态调整机制 校准
管理优化方法 多生理参数采集 皮尔逊相关系数 个性化阈值 血流动力学管理
深度特征提取网络 诊断方法 可见光图像 多模态 融合特征
语音指令识别 文本 样本 编码 策略标签