# 热门搜索 #
搜索
搜索: 视频模型
AI翻了好莱坞的天

去年 4月, 生成式 AI在国内热度正盛的时候,毒眸造访了几家 AI公司, 创业者们对于 AI的态度是大胆、积极和乐观的。

来自主题: AI资讯
9599 点击    2024-04-13 13:12
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。

来自主题: AI技术研报
8596 点击    2024-03-21 18:35
谷歌发布“Vlogger”模型:单张图片生成10秒视频

谷歌发布了一个新的视频框架:只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频。

来自主题: AI资讯
5640 点击    2024-03-20 16:37
腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

来自主题: AI资讯
3477 点击    2024-03-17 11:45
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,

来自主题: AI技术研报
9620 点击    2024-03-05 14:36
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。

来自主题: AI技术研报
5704 点击    2024-02-29 13:35
大模型追不上了?不妨尝试把主战场放在垂直模型

这两天,Sora横空出世让字节也跟着上了热搜。有传言称,字节跳动在Sora引爆文生视频赛道之前,已经研发“中文版Sora”:一款名为Boximator的创新性视频模型。紧接着,字节快速辟谣,积极否认。

来自主题: AI资讯
9513 点击    2024-02-27 14:44