AI TNT— 让一部分先用AI实现商业化

作为基础的视觉语言任务，指代表达理解（referring expression comprehension, REC）根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成：视觉编码器、文本编码器和跨模态交互，分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

来自主题: AI技术研报

4709 点击 2024-08-20 14:36