
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。
秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。
近期,一篇4万字的演讲风靡于国内人工智能(AI)学术圈。原华为"天才少年"、Logenic AI公司联合创始人李博杰博士,日前发表了一篇关于AI Agent思考的文章,题为"AI Agent 应该更有趣还是更有用"。
AIGC,算是狠狠地震荡了一把音乐圈。就在刚刚,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了不少网友们的围观。
现在,AI 大模型已经疯狂到这种地步了吗?此时此刻,正有两个 Claude 模型在无休止地对话,它们在探索整个宇宙的奥妙。
目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些 VPT 的计算量变得越来越大,这些巨大的计算量同时也限制了这个领域的进一步发展,对那些计算资源不足的研究者十分不友好。例如,训练一个 243 帧的 VPT 模型通常需要花费好几天的时间,严重拖慢了研究的进度,并成为了该领域亟待解决的一大痛点。
视频理解因大量时空冗余和复杂时空依赖,同时克服两个问题难度巨大,CNN 和 Transformer 及 Uniformer 都难以胜任,Mamba 是个好思路,让我们看看本文是如何创造视频理解的 VideoMamba。
近日,Stability AI又发布了新作SV3D,基于视频扩散模型的SV3D将3D模型生成的效果提升了一大截,模型权重已在huggingface开放。
3D 生成领域迎来新的「SOTA 级选手」,支持商用和非商用。Stability AI 的大模型家族来了一位新成员。昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
Stable Diffusion背后公司Stability AI又上新了。 这次带来的是图生3D方面的新进展: 基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。
最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。