AI资讯新闻榜单内容搜索-长视频

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展，当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报

8085 点击 2025-06-03 14:44

ICML 2025 | 长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。

来自主题: AI技术研报

6684 点击 2025-05-13 08:54

迈向长上下文视频生成！NUS团队新作FAR同时实现短视频和长视频预测SOTA，代码已开源

目前的视频生成技术大多是在短视频数据上训练，推理时则通过滑动窗口等策略，逐步扩展生成的视频长度。然而，这种方式无法充分利用视频的长时上下文信息，容易导致生成内容在时序上出现潜在的不一致性。

来自主题: AI技术研报

7269 点击 2025-04-23 14:19

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

商汤最新升级的日日新SenseNova V6解锁的新能力—— 原生多模态通用大模型，采用6000亿参数MoE架构，实现文本、图像和视频的原生融合。从性能评测来看，SenseNova V6已经在纯文本任务和多模态任务中，多项指标均已超越GPT-4.5、Gemini 2.0 Pro，并全面超越DeepSeek V3：

来自主题: AI资讯

9847 点击 2025-04-10 23:17