AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器(reranker),其核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。

来自主题: AI技术研报
6485 点击    2025-04-09 17:03
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

来自主题: AI技术研报
9242 点击    2025-04-08 14:18
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力,证明其在扩展模型和数据规模后,能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向,并计划开源模型以推动社区探索。

来自主题: AI技术研报
7071 点击    2025-04-07 15:09
Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

Llama 4家族周末突袭,实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的「性价比之王」。

来自主题: AI产品测评
10002 点击    2025-04-07 09:44
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

原生多模态Llama 4终于问世,开源王座一夜易主!首批共有两款模型Scout和Maverick,前者业界首款支持1000万上下文单H100可跑,后者更是一举击败了DeepSeek V3。目前,2万亿参数巨兽还在训练中。

来自主题: AI技术研报
8166 点击    2025-04-06 18:06
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力,对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报
6459 点击    2025-04-05 14:07