摘要
本发明公开了一种多模态大模型的推理加速方法,属于人工智能技术领域,该多模态大模型的推理加速方法,包括下述具体步骤:步骤一:对输入的多模态数据进行特征分析与模态复杂度评估;步骤二:根据复杂度动态选择单模态子网络的计算深度与参数量;步骤三:采用分层融合策略,对低维特征实施低秩跨模态注意力计算,对高维特征实施缓存共享;步骤四:基于硬件特性分配模态处理模块,并通过高速总线同步融合结果。本发明通过量化模态复杂度,结合Gumbe l‑Softmax采样减少冗余计算,通过公式计算低秩序注意力,大大降低了计算复杂度,通过缓存共享使内存占用降低,通过异构分配使硬件利用率大大提高。