一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质
申请号:CN202410752524
申请日期:2024-06-12
公开号:CN118711128A
公开日期:2024-09-27
类型:发明专利
摘要
一种多模态结合大语言模型的图像视频报警监控系统及方法、计算机设备和存储介质,涉及AI和机器视觉领域,具体涉及图像视频报警监控领域。为解决现有技术泛化能力有限,语义理解不足,单一模态限制,需要人工特征提取的技术问题,本发明通过模态模块处理输入的图像和视频数据,生成特征向量。转换对齐模块对这些特征向量进行对齐,确保不同模态的数据在语义上一致。整合模块进一步融合对齐后的数据,提取关键信息。认知模块将融合后的数据转换为文本嵌入向量,包含丰富的语义信息。最后,输出模块基于这些文本嵌入向量生成不同级别的报警日志。本发明在公共安全领域中具有良好的应用前景。
技术关键词
视频报警监控系统 大语言模型 多模态 对齐模块 数据 输出模块 日志 文本 图像编码器 警报 视频编码器 计算机设备 监控方法 生成特征向量 语音 分析模块