AI资讯新闻榜单内容搜索-视频模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视频模型
超越Sora极限,120秒超长AI视频模型诞生!

超越Sora极限,120秒超长AI视频模型诞生!

超越Sora极限,120秒超长AI视频模型诞生!

UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!

来自主题: AI资讯
9045 点击    2024-03-26 14:15
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂

Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂

Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂

用不了多久,开源版的Sora就会涌来!理海大学微软团队已经做出一种全新多AI智能体框架Mora,可以完全复刻Sora能力,且生成视频效果几乎不相上下。

来自主题: AI资讯
10226 点击    2024-03-22 16:56
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。

来自主题: AI技术研报
9239 点击    2024-03-21 18:35
谷歌发布“Vlogger”模型:单张图片生成10秒视频

谷歌发布“Vlogger”模型:单张图片生成10秒视频

谷歌发布“Vlogger”模型:单张图片生成10秒视频

谷歌发布了一个新的视频框架:只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频。

来自主题: AI资讯
6153 点击    2024-03-20 16:37
没等来OpenAI,等来了Open-Sora全面开源

没等来OpenAI,等来了Open-Sora全面开源

没等来OpenAI,等来了Open-Sora全面开源

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。

来自主题: AI技术研报
3616 点击    2024-03-18 17:25
腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

来自主题: AI资讯
4013 点击    2024-03-17 11:45
国内的这两支队伍,正在尝试开源Sora!

国内的这两支队伍,正在尝试开源Sora!

国内的这两支队伍,正在尝试开源Sora!

在2024年2月份,OpenAI推出了一项创新的文本转视频模型,名为Sora。这一模型标志着视频生成技术取得了显著的进步。Sora具备将简短文本描述转化为长达一分钟的详尽且高清晰度视频片段的能力。

来自主题: AI技术研报
7212 点击    2024-03-05 14:43
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,

来自主题: AI技术研报
10210 点击    2024-03-05 14:36
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

最近,文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮,模型的多模态能力引起广泛关注。

来自主题: AI技术研报
5449 点击    2024-03-05 14:30
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。

来自主题: AI技术研报
6374 点击    2024-03-03 17:31