# 热门搜索 #
搜索
搜索: av-LLMs
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。

来自主题: AI技术研报
5715 点击    2024-07-31 15:05