
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。
虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。
今天,百度AI Day上双杀全场!自研多模态大模型MuseSteamer携「绘想」平台重磅上线,视频创作直接杀进电影级AI时代。同时,百度搜索迎十年最大改版,体验全面开挂。
近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。
为什么AI生成的视频总是模糊卡顿?为什么细节纹理经不起放大?为什么动作描述总与画面错位?
最近,你可能刷到过一些奇趣的猫咪视频。主角通常是一只很胖的橘猫,像人一样在送外卖,或者刚看完电影就冲进健身房假装减肥。这些有点好笑、有点可爱的“大橘剧场”,配上魔性的“喵喵”音乐,正在抖音、小红书和TikTok上到处传播 。
最近,社交媒体平台 YouTube 上涌现出一批以 Sean “Diddy” Combs 审判为题材的假视频,这些视频利用 AI 生成的图像和声音,伴随虚假信息,吸引了数千万的观看量。
AI 生成的「最后一道关卡」已经突破?
梵高、蒙娜丽莎、维纳斯、毕加索、草间弥生……这些世界名画的主角和画家们忽然复活,穿上时装走上T台,这个AI视频,已经全网刷爆了!视觉盛宴,泪点拉满,这场穿越时空的艺术秀,让全网震撼。
在阿曼——一个仅有四百多万人口的国家,有近3万名老师,正通过一款AI工具制作教学视频。
AI大牛梅涛坐镇,全新多模态AI问世!