AI资讯新闻榜单内容搜索-多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

多模态视频异常理解任务，又有新突破！

来自主题: AI技术研报

9196 点击 2025-04-08 15:01

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

10596 点击 2025-04-08 14:18

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

来自主题: AI技术研报

8367 点击 2025-04-07 15:09

Llama 4全网首测来袭，3台Mac狂飙2万亿！多模态惊艳代码却翻车

Llama 4全网首测来袭，3台Mac狂飙2万亿！多模态惊艳代码却翻车

Llama 4全网首测来袭，3台Mac狂飙2万亿！多模态惊艳代码却翻车

Llama 4家族周末突袭，实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型，更揭示了一个惊人事实：苹果Mac设备或将成为部署大型AI模型的「性价比之王」。

来自主题: AI产品测评

11749 点击 2025-04-07 09:44

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

原生多模态Llama 4终于问世，开源王座一夜易主！首批共有两款模型Scout和Maverick，前者业界首款支持1000万上下文单H100可跑，后者更是一举击败了DeepSeek V3。目前，2万亿参数巨兽还在训练中。

来自主题: AI技术研报

9458 点击 2025-04-06 18:06

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

文生图 or 图生文？不必纠结了！

来自主题: AI技术研报

8707 点击 2025-04-06 16:37

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力，对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报

7177 点击 2025-04-05 14:07

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

近来风头正盛的GPT-4.5，不仅在日常问答中展现出惊人的上下文连贯性，在设计、咨询等需要高度创造力的任务中也大放异彩。

来自主题: AI技术研报

8798 点击 2025-04-04 15:22

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。

来自主题: AI技术研报

7409 点击 2025-04-03 16:12

用多模态模型，写新一代爬虫

用多模态模型，写新一代爬虫

用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……

来自主题: AI技术研报

10126 点击 2025-04-02 16:09

上一页当前第33页,共88页下一页