ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌AI新星转投Pika:视频生成Lumiere一作,担任创始科学家
7526点击    2024-02-24 15:17

视频生成进展如火如荼,Pika迎来一位大将——


谷歌研究员Omer Bar-Tal,担任Pika创始科学家


一个月前,还在谷歌以共同一作的身份发布视频生成模型Lumiere,效果十分惊艳。



当时网友表示:谷歌加入视频生成战局,又有好戏可看了。



Stability AI CEO、谷歌前同事等在内一些业内人士送上了祝福。



Lumiere一作,刚硕士毕业


Omer Bar-Tal,2021年本科毕业于特拉维夫大学的数学与计算机系,随后前往魏茨曼科学研究所攻读计算机硕士,主要聚焦于图像和视频合成领域的研究。


其论文成果多次被顶会接收,比如Text2LIVE(ECCV 2022 Oral)、MultiDiffusion(ICML 2023)、TokenFlow(ICLR 2024)。


以TokenFlow为例,他们提出了一种框架,基于扩散模型实现文本驱动的视频编辑,支持视频编辑任务无需任何训练或微调。



此次加盟Pika前,他曾是谷歌研究院以Student Researcher身份待了9个月,最终经过7个月的研究以共同一作身份推出了Lumiere。这时候硕士应该还没有毕业。



Lumiere的创新点在于,提出了时空U-Net(STU-Net)架构:将视频在空间和时间两个维度同时进行下采样和上采样,在网络的中间层得到视频的压缩时空表示。


在学习了3000万视频之后,Lumiere可支持文生视频、视频编辑修复、图片转视频以及视频风格化等多种功能。


当时Jeff Dean盛赞:多模态视频生成革命正在发生



威尔史密斯吃面(Pika版)


官宣加盟Pika消息之后,官方以及投资人等也送上了祝福。



前几天,还有位Pika华人研究员Yilun Du发布了篇文章, 不过应该刚从MIT博士毕业(也可能还没毕业),论文单位仍是MIT。



另外在官网还在继续招人中。



对了,他们刚刚发布了威尔史密斯吃面(Pika版),来看看这个效果如何?



文章来自于微信公众号“量子位”(ID: QbitAI),作者 “白交”


关键词: AI视频 , Lumiere , Pika
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner