AI资讯新闻榜单内容搜索-编码器

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 编码器
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
2920 点击    2024-09-29 14:44
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

来自主题: AI技术研报
5361 点击    2024-08-20 14:36
MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

今日获悉,由莫斯科国立大学举办的 MSU 世界视频编码器大赛结果揭晓。在全部参赛编码器中,腾讯编码器包揽所有 15 项指标的全部第一,再次斩获全场最佳。

来自主题: AI技术研报
8374 点击    2024-08-09 13:09
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024

零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024

零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024

UrbanGPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的预测,为城市管理和规划提供了强大的支持。

来自主题: AI技术研报
9540 点击    2024-07-31 16:37
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

来自主题: AI技术研报
8331 点击    2024-07-27 19:33
盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变

盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变

盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变

编码器模型哪去了?如果 BERT 效果好,那为什么不扩展它?编码器 - 解码器或仅编码器模型怎么样了?

来自主题: AI资讯
8377 点击    2024-07-22 14:50
10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布

10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布

10年前VAE经典论文获奖,ICLR 2024首个时间检验奖公布

由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 在 2013 年牵头举办的 ICLR 会议,在走过第一个十年后,终于迎来了首届时间检验奖。

来自主题: AI资讯
4932 点击    2024-05-10 10:30