AI资讯新闻榜单内容搜索-长视频

关于多模态大模型Token压缩技术进展，看这一篇就够了

近年来多模态大模型在视觉感知，长视频问答等方面涌现出了强劲的性能，但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ，带来极高的显存占用和延迟，限制了模型的可扩展性和本地部署。

来自主题: AI技术研报

9228 点击 2026-01-26 14:22

2.15 亿美元估值的 AI 创业复盘：OpusClip CEO 讲 30 天怎么做出能赚钱的产品

OpusClip 是一款把长视频、长内容自动剪成可发布的短视频片段的 AI 工具，服务内容创作者和企业内容团队。

来自主题: AI资讯

7438 点击 2026-01-26 11:28

让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

上海AI Lab联合多家机构开源的Yume1.5，针对这一核心难题提出了时空信道联合建模（TSCM），在长视频生成中实现了近似恒定计算成本的全局记忆访问。

来自主题: AI技术研报

7434 点击 2026-01-09 14:36

ControlNet作者张吕敏最新论文：长视频也能实现超短上下文

大部分的高质量视频生成模型，都只能生成上限约15秒的视频。清晰度提高之后，生成的视频时长还会再一次缩短。

来自主题: AI技术研报

9329 点击 2026-01-04 11:38

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

视频生成模型总是「记性不好」？生成几秒钟后物体就变形、背景就穿帮？北大、中大等机构联合发布EgoLCD，借鉴人类「长短时记忆」机制，首创稀疏KV缓存+LoRA动态适应架构，彻底解决长视频「内容漂移」难题，在EgoVid-5M基准上刷新SOTA！让AI像人一样拥有连贯的第一人称视角记忆。

来自主题: AI技术研报

7774 点击 2025-12-25 10:16

攻克长视频生成记忆难题：港大与快手可灵MemFlow设计动态自适应长期记忆，告别快速遗忘与剧情错乱

你是否曾被AI视频生成的不连贯性所困扰？

来自主题: AI技术研报

7626 点击 2025-12-25 09:41

VideoCoF：将「时序推理」引入视频编辑，无Mask实现高精度编辑与长视频外推！

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境：专家模型精度高但依赖 Mask，通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF，受 LLM「思维链」启发，通过「看 - 推理 - 编辑」的流程，仅需 50k 训练数据，就在多项任务上取得了 SOTA 效果，并完美支持长视频外推！

来自主题: AI技术研报

8152 点击 2025-12-23 14:53

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”代替“暴力记忆”

去年，谢赛宁（Saining Xie）团队发布了 Cambrian-1，一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3，而是停下来思考：真正的多

来自主题: AI技术研报

8008 点击 2025-11-09 10:38

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7445 点击 2025-10-22 14:57

边打字边出片，交互式生成长视频！英伟达联合MIT开源新SOTA

AI拍长视频不再是难事！LongLive通过实时交互生成流畅画面，解决了传统方法的卡顿、不连贯等痛点，让普通人都能轻松拍大片。无论是15秒短片还是240秒长片，画面连贯、节奏流畅，让创作变得像打字一样简单。

来自主题: AI技术研报

8227 点击 2025-10-18 12:15