# 热门搜索 #
搜索
搜索: ScanFormer
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

来自主题: AI技术研报
4709 点击    2024-08-20 14:36