ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Z Potentials|独家专访李飞飞爱徒,斯坦福AI博士,a16z投资千万美元,AI视频月收入飞涨200%
4969点击    2024-11-14 15:01


本期我们邀请到了 Hedra 的联合创始人兼 CEO Michael。他曾在斯坦福大学攻读博士学位,由吴教授和李飞飞教授共同指导,专注于物理世界建模与具身智能的交叉研究。在 NVIDIA 的 Omniverse 团队实习期间,他参与了 Omni-Gibson 的研究,对模拟物理与真实感表现系统的结合有深入探索,同时对电影、电视剧和动画等娱乐行业充满热情。


2021 年,Michael 创立了 Hedra,致力于开发以角色为中心的基础模型,打造引人入胜的 AI 生成视频内容。Hedra 允许用户通过实时生成角色,快速创建高质量的视频,颠覆了传统的视频制作流程。截至目前,Hedra 平台内用户生成的视频数量达数百万,其中部分视频的浏览量超过 300 万次,多次登上 Reddit 热门榜单。社区也在迅速壮大,Twitter 粉丝近 9000 人,Discord 用户接近 2 万人,月收入增长率超过 200%。公司已从 a16z 筹集了超千万美元的资金,并且成功完成了由 Index Ventures 领投的种子轮。


在这篇访谈中,Michael 向我们介绍了他从学术研究到创业实践的心路历程,分享了 Hedra 在 AI 驱动的视频生成领域的创新,以及他们对未来视频创作的愿景。Hedra 也在积极招聘,寻求热情且富有激情的全栈前端工程师和研究科学家,专注于下一代实时视频基础模型的开发,并与全球顶尖大学合作,注重发现和培养优秀人才。让我们一起走进 Michael 和 Hedra 的故事!Enjoy!:)


  • 当没有一家公司在做你真正想要做的事情时,你就得自己去做。


  • 当我离开博士生涯创办公司时,这成为我兴奋的首要想法之一:如何将数据驱动的方法引入其他领域,并加入可控性、角色概念以及智能概念,使这些视频模型能够创造出类似于人类或令人产生情感共鸣的动画角色。


  • 在创业环境中,变化如此之快,你可以随时适应这些变化,技术在变化,人们的需求也在变化。


  • 我认为原因之一是视频一直具有吸引力,从人类历史的开端起,看人与人交流就先于文字,是最自然的交流方式。但不幸的是,视频制作仍然非常耗费精力。


  • 我们希望重新思考视频制作流程,让它变得简单,比如用短文字描述就能生成专业视频。......如何围绕这个核心重构创意工具,比如从头开始重新设计以生成视频模型为核心的 CapCut,这也是我们的起点,我想这也是投资者对Hedra 感到兴奋的原因之一。


  • 我们要构建模型,还需要打造一个非常直观的用户体验,使其简单易用,因为我们不希望它只是一款小众的 AI 工具,而是希望成为一个突破性的产品,能够让企业和普通用户都能参与内容创作。因此,我们不仅构建了一个前沿的、独特的技术模型,还设计了一个如此简单的产品,让即使不熟悉 AI 的用户也能在几秒钟内制作内容。


  • 我们的目标是主导视频制作。用户可以来到我们平台,带着创意制作下一个营销活动或 YouTube 短片,我们的创意助手将从零帮助他们完成。

ZP:能简要介绍一下自己吗?可以从你的学术经历、个人成长说起,并谈谈它们如何反映了你当前的价值观。



Michael:我是 Michael,Hedra 的联合创始人兼 CEO。要追溯的话,我小时候很喜欢戏剧,对表演和艺术很感兴趣。可惜我的表演生涯在初中、高中早期就结束了,不过我的学术生涯继续延续了下去。我曾是斯坦福大学的博士生,由李飞飞教授和吴佳俊教授共同指导,主要研究物理世界建模与具身智能的交叉领域。


我的研究主题是如何构建能够理解物理世界并加以利用的 AI,因此我在模拟仿真方面投入了大量精力。我曾在 NVIDIA 的 Omniverse 团队实习,这段经历后来发展成了 Omni-Gibson 的论文。我的研究始终关注如何将模拟物理世界的技术与能够带来真实感表现的系统结合起来。


我想你大概可以猜到这如何在 Hedra 的首次产品发布中呈现:我们聚焦于打造以角色为中心的基础模型,这样可以让它们呈现出非常引人入胜的表现,能够表演、行动,并展示特定的行为。


Alex:我是 Alex,也是 Hedra 的联合创始人。之前我也是斯坦福大学的博士生,研究生成 3D 和以人为中心的 3D 表示。业余时间虽然没有Michael那样的经历,但我一直是娱乐,尤其是优秀电影、电视剧和动画娱乐的爱好者。读博期间,我参与了一些项目,主要研究生成 3D 表示,特别是人物的 3D 表示,因为我觉得人在各种娱乐媒介中都是非常重要的一部分。


ZP:详细分享一下你们在斯坦福的学术历程和研究经历?以及你们在计算机视觉、AI和图形领域的工作如何影响了你们对 GenAI 生成内容的看法?


Michael:我职业生涯的早期主要在研究,那个时候还没有现在的 LLM,我是在2018年开始博士研究的。当时我们刚刚开始考虑计算的扩展问题。


我博士期间的第一个项目之一是研究图预测网络,如何将场景分解成一些符号化的表示,然后在大量数据上进行训练以预测未来。这就是当时的世界建模,与如今投喂TB级数据的方式不同。不过,当时已经有了将事物简化为统一符号语言的思路。后来我更感兴趣的,是不仅如何建模世界,而是如何开发可以利用这些世界模型进行互动的系统。我在后来的一个项目中,开始研发渲染技术,比如iGibson 这个机器人模拟器,后来的 OmniGibson 加入了光线追踪和其他计算机图形技术。



但我一直在思考一个长期问题:如何缩小真实感差距?虽然游戏引擎和渲染技术已经发展了三四十年,从 Pong 到现在进步很大,但这种差距始终存在。我在研究更结构化的 3D 方法的同时,也关注如何引入可微物理学或可以学习的可微属性到模拟器中。而就在这个时候,我们开始看到大规模的端到端系统的出现,比如语言方面的 GPT 系列模型,图片的 DALL-E 和 Stable Diffusion,视频方面的Runway 的 Gen-2。因此我开始思考,能否从根本上取代传统的渲染管道,开发可以端到端优化的系统?并且是否可以让它快到足以成为实时创作引擎?


当我离开博士生涯创办公司时,这成为我兴奋的首要想法之一:如何将数据驱动的方法引入其他领域,并加入可控性、角色概念以及智能概念,使这些视频模型能够创造出类似于人类或令人产生情感共鸣的动画角色。我职业生涯的起点在研究那些当时看来很大的模型,尝试这些结构化的符号 3D 方法,后来又回归到构建自我改进的智能世界模型上,这种模型不仅可以生成背景,更能生成吸引人的角色——而这些角色其实占据了我们在互联网上和生活中大部分的内容消费时间。


ZP:我很欣赏你们从学术领域转向创业的转变。我想问你们是什么促使你们从学术研究转向创业的?因为大多数博士毕业生可能更倾向于去 OpenAI、Google这些热门公司工作。而你们却选择创业,你们的研究兴趣是如何塑造 Hedra AI的使命的?


Michael:在创业环境中,变化如此之快,你可以随时适应这些变化,技术在变化,人们的需求也在变化。而在大公司中,往往会受到公司当前技术路径和客户群体的制约。我从小就想自己创业。我父亲常说:“Michael,你得创办一家公司。” 他认为应创办小型企业,因为我的家乡很少有企业家。但我一直对如何在世界上产生重大影响感兴趣。我认为这种影响通常源于前沿技术,或是将新技术与对产品和用户需求的深刻理解结合在一起。对我来说,我一直想找到一个能让我在技术或技能上发挥独特优势的机会,而这个机会恰好也是我热情所在。只有当我真正热爱所做的事情时,我才能做到卓越。此外,我还想能够深入与社区和用户互动,构建出一款优秀的产品。Hedra 对我来说正是这样一个机会,既让我投入自己关心的领域,又能开发出具有差异化、创新性的技术,服务那些没有太多选择的用户群体。这种感觉驱使着我去做我想做的事情,一旦有这样的决心,任何障碍都无法阻挡我。


Alex:我觉得在创业公司中,你真的有空间去做出影响。尤其在生成式AI领域,目前正处于一个可以产生巨大影响并通过建立技术、方法和产品来引领整个领域的时代。对于那些想从这些技术和方法中创造价值的人来说,这样的机会是千载难逢的。我觉得去 OpenAI 或 DeepMind 是个很好的选择,但在我看来,在大公司中很难有机会去打造那些全新产品体验和技术。


ZP:你的导师们,(Feifei Li)李飞飞和(Jiajun Wu)吴佳俊,他们都创立了自己的公司。有的导师选择加入创业公司,担任首席科学家或CTO等角色。为什么你们没有选择加入他们的公司,而是自己创办了企业?而且你们更关注于娱乐和游戏行业的AI视频创作,特别是可定制的数字化身。


Michael:我们不仅关注前沿研究,也希望将这些技术与现在可以推出的产品结合起来。而 World Labs(李飞飞创立的公司)的产品还不明确,他们的重点是空间智能领域的前沿科学。我倾向于从市场机会的角度出发,思考如何研发能够满足这些市场需求的技术,而不是先开发技术,再考虑市场需求在哪里。我会结合市场需求思考:我们需要开发什么?未来一到两年,用户的痛点会是什么?所以我们并不仅仅关注娱乐和游戏领域。我们是一个技术赋能者,与许多在这些行业应用我们技术的公司合作。


我们目前的关注点是内容创作的痛点。现在要创建一个Hedra的教程,我可能要在 Loom 上录制20到30次自己的脸,讲解我在做什么。如果能自动化这一过程就好了,我可以将所有关于 Hedra 的知识输入一些非结构化数据,然后快速生成一个非常精致的视频。所以在 Hedra,我们重新思考了视频创作体验——这对许多内容创作者和企业来说都是一个痛点。通过我们的基础模型,我们希望打造一个无缝体验,同时在用户体验上创新,比如更具对话性的界面和更多的自动化,使得那些原本不会录制视频的人也能参与进来,甚至让那些投入大量时间和金钱制作视频的人,能用我们的技术在几秒内完成视频创作。


我认为构建公司的一个好方式是找到市场需求,然后开发技术来满足这种需求。这也是我们在 Hedra 的目标,深入结合我们所构建的创新技术和基础模型技术,同时确保它是人们真正想要使用的东西。



ZP:我知道你们之前在 Meta、Google、NVIDIA 都有实习经历,像是研究类实习。那么,这些经历是如何影响创办 Hedra 的?你们从大公司中学到的关键经验是什么?


Michael:NVIDIA 是一家很棒的公司,我对曾在英伟达工作没有任何遗憾。我本来也很愿意在 NVIDIA 工作。对我来说,问题在于 NVIDIA 并没有在构建我想要的东西。NVIDIA 有不同的公司重点,当没有一家公司在做你真正想要做的事情时,你就得自己去做。


目前,专注于音频和视频基础模型的公司很少。我认为我们可能是美国首家真正以此为核心的公司,尤其是专注于可控的生成角色,围绕视频内容生产创建工作流程。这正是我想做的事情。所以我没有加入其他公司的原因就是,我有一个特别的使命,而当这样的公司不存在时,就得自己去构建它。


在初创公司中,个人的影响力要比在大公司中大得多,因为我们推出新功能的速度非常快。自从我们推出模型以来,几乎每周都会发布更新,有时是产品方面的,有时是基础模型方面的。这也是为什么我们能从大公司吸引人才的原因之一,他们觉得在我们这里,几天内就能对成千上万用户产生直接影响,这种感觉令人兴奋。


Alex:我在 Meta 和 Google 的实习时光非常美好,我对在那里工作没有任何不满。补充一点,就是在初创公司中,你有一个直接的反馈循环。在 Google和Meta 的项目虽然也很有趣,但大多数是研究导向的项目,我们在团队中定义项目,如果成功就会推进,如果失败也就止步,但我并没有看到项目的最终去向。而在初创公司里,我可以直接看到自己一周内的工作带来的变化,收到用户的邮件,登录我们的 Discord,看到用户情绪的变化。这样的反馈循环非常激励人,让我觉得自己的工作真的有影响力,这是在大公司中没有的体验,也是我选择这条道路的原因。


至于我们学到了什么,我觉得在大公司工作时,你可以接触到更大规模的计算资源和更大的团队,这意味着很多实践已经成形。创业公司的挑战之一就是在工程投入上逐渐扩大规模。了解大公司像 Google 和 Meta 那样的做法后,我们可以以此为参照,吸取其优缺点,以自己的方式去扩展。这为我们提供了一个未来可能达到的框架。


ZP:我完全同意,快速获得正向反馈是很重要的。那么,你们是如何预见 AI 对传统视频制作流程的影响的?在 Hedra 的工作中,你们对 AI 驱动的叙事最期待的是什么?


Michael:可以看看过去六年的趋势,几乎所有内容都在向视频方向发展。人们现在从 TikTok 或 Twitter 上获取新闻。即使是一个包含视频的 CRM 信息,转化率也比传统的纯文本高出5到6倍。我认为原因之一是视频一直具有吸引力,从人类历史的开端起,看人与人交流就先于文字,是最自然的交流方式。但不幸的是,视频制作仍然非常耗费精力。


比如现在用我 MacBook 上的小摄像头录视频,质量不会很专业,有时我会说错话。在现实中,无论是企业营销视频还是 TikTok 视频,都需要多次录制。这很昂贵且耗时,也设立了较高的门槛,导致很多人因不知如何制作视频而放弃。所以,当我们创办公司时,我们发现视频模型还处于非常初级的阶段,只有 Gen-2可以生成短小的视频片段,且效果不够理想。视频模型虽然在进化,但目前大多只能生成5到10秒的内容,速度较慢,还需要后期同步口型,因此角色并不生动。


我们希望重新思考视频制作流程,让它变得简单,比如用短文字描述就能生成专业视频。这样我妈妈可以为她的房地产工作制作一个营销视频,你也可以通过简单描述生成这次访谈的视频。我认为我们看到了这样的潜力,因为几乎所有网络视频内容都是人与人之间的交流。如何围绕这个核心重构创意工具,比如从头开始重新设计以生成视频模型为核心的 CapCut,这也是我们的起点,我想这也是投资者对 Hedra 感到兴奋的原因之一。



ZP:我们可以聊聊产业方面和产品技术的未来。可以介绍一下你们的共创工具和社区吗?它的主要功能是什么?有正在开发的新功能吗?能谈谈这个产品的灵感来源吗?是用户反馈、个人兴趣还是市场机会促使你们开发了这个产品?我知道你们有一个非常活跃的 Discord 社区。


Michael:目前产品的核心共创流程在当前的 beta 版本中,基本上是一个多模态创作工作室,围绕制作交流视频展开。它可以是角色唱歌、角色说话,适用于虚构内容或信息传递。我们构建了一个基本的最小可行产品,可以生成生成式角色,也可以上传图像来创建自己的虚拟形象进行故事讲述。我认为这款产品的强大之处在于,我们将许多分散的工具整合到一个简单的工作流程中,再加上最先进的模型,让人们能够立即生成内容。


开发这个产品的灵感和市场机会来源于我想要制作自己的讲解视频的需求。我经常看到 YouTube 创作者、营销视频的制作者,甚至是电影和其他内容的制作者,我当时就想:“我做不到这一点。”我尝试了很多次,但需要大量设备,还得注意自己的形象,真的很繁琐。而成千上万的 YouTube 内容创作者、数百万的内容创作者和企业在这些方面花费了大量时间和金钱。所以,我觉得必须要有更好的方式。尽管我们有生成视频的模型,但为什么没有开发一个从头到尾的大型基础模型,并为这一明显需求巨大的垂直领域进行了优化呢?我们解决了这个问题,有朝一日,我们甚至会部署虚拟的 Michael 来做访谈哈哈,开玩笑的,我会亲自参与访谈。


我们要构建模型,还需要打造一个非常直观的用户体验,使其简单易用,因为我们不希望它只是一款小众的 AI 工具,而是希望成为一个突破性的产品,能够让企业和普通用户都能参与内容创作。因此,我们不仅构建了一个前沿的、独特的技术模型,还设计了一个如此简单的产品,让即使不熟悉 AI 的用户也能在几秒钟内制作内容。


ZP:可以分享一些即将上线的新功能吗?


Michael:我们即将推出的一项重要更新是生成角色在表现力方面的进一步提升。同时,我们也在开发许多用户请求的功能。从产品角度看,我们与 11 labs密切合作,推出一项非常令人期待的新功能;我们还与 Cartesia 合作,一家语音公司,开发即时语音克隆功能。我们还在与 Flux 模型的开发团队合作,提升用户生成高保真角色的能力,包括姿势控制等。此外,我们也在整合这些功能,推出一个更适合企业客户的工作流程,称为 Hedra Studio,这款新产品预计将在秋季晚些时候发布。



ZP:我们看到你们的内容在许多平台上表现良好。可以分享一些具体的数据吗?比如用户数量、流量、内容创作量和一些DAU等数据,这些数据如何帮助我们的受众了解付费功能的表现?


Michael:现在,使用 Hedra 制作的视频数量已经达到了数百万,这个数量非常庞大。我们的用户数已超过50万,月收入增长率达到200%以上。我们目前有一个相对慷慨的免费计划,不急于迫使用户转向付费计划,因为坦率地说,这对我们的营销效果非常好。我们提供的免费计划额度甚至比大多数视频公司提供的付费计划额度更高。


我认为这是我们增长的关键之一,用户可以进来体验模型,通常第一次尝试就能获得不错的结果,只要遵循我们的指导或使用图像生成器,随后他们会向朋友推荐。因此,你会看到大量 Hedra 内容在网络上传播。在观看量方面,我们的某些视频的浏览量已超过300万次,我们多次登上 Reddit 的热门榜单。


ChatGPT、AI 视频和 Midjourney 方面也有相关内容。如果你去看看 Neural Viz,他做了一系列出色的视频,在 YouTube 上非常受欢迎,仅凭 Hedra 内容就积累了七八千订阅者。他是一位非常有才华的创作者。我们很高兴看到社区将我们的技术应用于全新的娱乐和实用领域。我们甚至有用户创立了以虚拟角色为主要人物的 TikTok 频道,这非常令人兴奋。


ZP:可以分享一些关于用户、初期用户反馈和市场营销的见解吗?


Michael:我们收到最多的反馈是:“什么时候会有16:9的模型?” 这并不是我们没想到,而是我们一直在努力开发,很快就会推出。另一个常见反馈是:“什么时候会有高清模型?” 这个也很快会实现。我们关注的核心是,能否提供用户从未想过、甚至尚未提出的功能。我对公司结构的规划是:有人非常擅长思考这些模型的新前沿,如何构建下一代架构,以超越当前速度和质量的极限。而我则从产品的角度出发,如何解锁新功能,将这些功能嵌入模型中,并构建创新的用户界面,使用户体验与核心模型的创新相得益彰。


Alex:我想补充一点,用户常提出类似16:9和高清的请求,这些都是基于现有模型的需求,是他们现有工作流程的优化。但用户较少会想到实时视频模型或巨大性能提升,因为他们甚至不知道这是可能的。所以我们需要在短期内帮助用户从现有产品中获益,同时也要思考如何提供他们还未意识到的新功能,创造真正具有吸引力的产品体验。


ZP:能否向我们讲解一下构建 AI 平台的过程,以及在技术扩展方面遇到的挑战?


Michael:我们进行了大量的试验和探索,以实现首个多分钟的稳定视频模型,这是我们研究的重点之一。同时我们也在致力于将生成时间从10秒视频需要两分钟缩短到2分钟生成2分钟内容。我们非常关注如何让反馈循环足够快,以避免用户流失,让不仅仅是AI爱好者,还有新手用户都能生成出内容,比如1分钟的 Instagram 视频或10分钟的 YouTube 视频。最初我们投入了大量时间实验,现在我们投入了更多资本,与 Oracle 合作了更大的 GPU 协议,使我们的模型开发速度成倍加快。


Alex:关于后期发展,构建大规模基础模型既是工程挑战也是研究挑战。在创业公司中,如何以正确的速度扩展是关键。如果扩展过快,就会有很多资源无法有效利用,成本浪费;如果扩展过慢,在竞争激烈的市场中就会落后。我们始终希望在技术上保持领先,所以在快速扩展和资本效率之间找到平衡是一个挑战。但好在我们可以随时调整,现在我们大部分系统已经到位,可以继续扩展。当然,未来可能还会进行调整以适应更大规模和更大团队,但我们一直在这个轴线上迭代,以最快速度前进。


ZP:你们如何看待大型语言模型提供商和开源模型的发展与公司领域的关系?


Michael:我们更感兴趣的是全模态(Omni-Modal),即如何将更多模态整合到同一核心模型中。目前的视频模型大多是输入文本或图像,而 Hedra 则支持音频输入。我们还在开发额外的控制模态,如关键点和姿态控制,以及新的输出模态,比如视频模型能够吸收视频数据,学习人物的动作和思维方式,进而生成更加真实的音频和视频。Hedra 的核心目标并非打造最好的 LLM,那是 OpenAI 和 Anthropic 的专长,而是构建最真实的人物或角色形象,逐步将多个模型整合为一个全模态系统。


Alex:关于开源的另一点,我们和开源社区的区别在于,很多开源项目来自学术和研究界,主要聚焦于在某一方面做出有见地的贡献,但没有我们这样的规模、产品或用户。因此我们既可以自己创新和进行内部研究,也能从学术界汲取新见解,并将其与我们内部开发成果结合,打造出超越任何单一开源项目或论文的成果。这也是我们团队的优势之一,可以迅速响应学术界的新发现,将其与我们的改进结合,构建更优的产品。


Michael:我们拥有比学术实验室更多的资源,因此能够将这些模型扩展到研究环境中无法实现的规模。


ZP:许多学生不选择读博士,因为大学资源有限,缺乏 GPU 等硬件来支持大型工作。AI 驱动的视频生成和编辑的竞争近年来尤其激烈,特别是从去年十月到现在。你们怎么看待这种情况?针对这类用户的主要卖点是什么?AI 可以如何解决这些问题?我认为很多人喜欢视频制作,并希望能轻松制作视频。我想听听你们对这类用户的看法。


Michael:我们确实看到,越来越多的公司开始提供视频生成技术。最初只有Runway,然后 Pika 推出了模型,现在有大量新一代模型出现,比如可灵、Runway Gen3、Luma 从 3D 转型到视频模型、Google 视频推出 Veo(尚未发布)。很多公司似乎在提供类似的产品,对我们来说这反而是个好消息,因为我们正在与一些公司(如可灵)探讨合作,可能会将他们的文本到视频模型作为我们的API,而我们则专注于高分辨率、可高度控制的真人角色生成。


我们的差异化策略是打造一个高度可控的系统,用于 A-roll 镜头(即说话的角色、前景角色、角色的情感表现)。我们目前不特别关注背景模型。虽然我们有团队和资源开发这些,但我们认为这个领域已高度商品化,暂时不需要去涉足。未来我们可能会将技术和方法扩展到背景生成上,但目前我们的增长主要来源于角色、表现和演技方面的差异化,我们希望继续在这一领域投入。


ZP:你们怎么看待 Hedra 在 AI 生态系统中的定位?与其他初创公司或大公司相比,有哪些显著差异?毕竟他们也有视频编辑和生成团队。


Michael:我们采取了不同的策略,专注于音频+图像到视频的核心领域,并重新构想传统的视频编辑体验,这让我们在市场上处于相对独特的位置。其他一些虚拟角色公司,如 Synthesia 和 Heygen,采用了不同的技术路径,它们并未将基础模型的扩展作为核心重点,更多地面向企业内部沟通视频的市场,这是一个非常有利可图的领域。


我们则在用户生成内容(UGC)和面向外部的营销视频方面经历了爆发式增长。因此,我们的公司定位和技术方向都不同。我们更关注那些可能不一定与PPT关联,而是更多与叙事视频相关的内容。相比之下,像 OpenAI、MinMax、可灵、Runway、Luma 等公司提供的多是相似的文本到视频模型,能生成5到10秒的短片。我们专注于快速、接近实时的长内容生成,角色可以基于音频进行条件生成和操控。因此,我们的护城河在于此,这也是我们能够迅速吸引不同用户群体的原因,甚至超越了传统的 AI 艺术家社区。



ZP:你们计划如何在如此快速发展的领域中保持竞争优势?


Michael:关于如何保持竞争优势,首先我们拥有世界级的研究团队,现在也有资源扩展计算能力。我预计未来我们在资源和计算方面的投入会显著增加,从而提升产品服务和付费用户群体的增长。社区方面,我们的 Twitter 和 Discord 增长很快,目前 Twitter 粉丝数大约8600至8700人,Discord 用户也接近2万人。


在 Discord 上,用户可以分享他们如何使用 Hedra,提出问题,互相交流,甚至成了朋友。我认为这很重要,因为一方面我可以直接了解用户需求,随时在Discord 上获得数百条反馈。这种互动也增强了我们与用户之间的忠诚度,让我们和用户建立了紧密的联系。


Alex:Michael提到我们的团队能够同时专注于研究和产品开发,这一点不应被忽视。很多优秀的研究人员希望专注于基础研究,而许多出色的产品工程师则希望持续开发用户直接使用的产品。而我们团队的构建和文化让我们可以紧密结合这两者,这是许多公司所不具备的优势。


ZP:是什么促使你们创办了 Hedra?


Michael:我们两个实验室关系密切,是通过共同的朋友 Eric Chan 认识的,他参与了许多创新视角合成的论文。斯坦福的学术圈很小,所以你经常会认识其他博士项目或实验室的人。我们当时聊了很多对未来的设想,很投缘。后来我决定创办公司时,就邀请Alex一起加入了。


ZP:我注意到斯坦福学生创业时往往会和其他斯坦福学生合作,这提供了一个良好的环境,让你们有机会提出这些创意并付诸实践。可以谈谈商业化方面的情况吗?我认为找到产品市场契合度(PMF)是创业后最重要的事情之一。Hedra有哪些实现全面商业化的潜在路径?


Michael:我们计划在今年推出下一代产品 Hedra Studio。我们利用庞大的用户群体观察他们在互联网上的创作,并与我们联系讨论功能需求。很多大型公司也与我们联系,提出了定制需求。我们会关注那些黏性高、留存率高的用户群体,基于此调整产品路线图,确保我们为核心用户提供支持。拥有一个病毒式传播的产品固然不错,但病毒性并不能长期支撑公司发展,它带来公司知名度,但真正推动我们发展的还是一个能解决用户痛点的产品。



ZP:关于商业化方面,有没有想补充的?


Michael:与客户合作并解决实际痛点,比起先开发技术再期待客户找到用法,更有助于找到产品市场契合度。我们非常有意识地选择了前者这条路。当前阶段用户还不需要为产品付费,那么未来你们会考虑产品定价吗?广告会不会作为付费功能之一?未来产品的定价是如何考虑的?


我们确实有付费计划,目前并没有特别强推。用户每天可以生成五个视频,用完后会有弹窗询问是否升级。付费计划提供了额外功能,比如去水印、将生成时长从30秒延长至4分钟,这对用户转化非常有效。同时,我们没有像其他平台那样设立更严格的限制,因为当前的付费用户基本上覆盖了免费用户的成本,这对我们增长有利。因此,考虑用户转化为付费时,我们主要关注他们遇到的问题。用户告诉我们,他们不知道如何创建内容,或希望加快创建过程,想自动化一些市场营销、教程或产品推广工作。Hedra Studio 旨在满足这些需求,将我们在虚拟角色上的简便操作拓展到整个视频制作流程中,这将是我们收入的主要来源。


ZP:与视频编辑工具、虚拟角色生成器或视频制作平台相比,我们在哪些方面更具优势?是什么让我们在数据性能上更胜一筹?


Michael:人们喜欢我们的系统是因为它的速度和灵活性。用户可以编辑动画角色、自己照片或生成的图片,并在平台内完成生成。我认为人们还会喜欢我们的编辑体验,因为我们将推出一些非常新颖的功能。此外,我们可以更深入地将这些功能集成到编辑器中,因为我们可以直接访问基础模型,而很多公司只能通过API使用这些模型。因此,我们从模型提供商向工作流程工具的转变很令人兴奋,因为我们可以开放模型的功能,让用户实现生成和非生成内容的混合、扩展非生成内容、重新配音并生成逼真的面部表情、呼吸和动作等,这些都是我们模型的优势,且希望带入完整的产品体验中。


ZP:Hedra的长期愿景和使命是什么?十年后,你希望 Hedra 成为什么样的公司?


Michael:我们的目标是主导视频制作。用户可以来到我们平台,带着创意制作下一个营销活动或 YouTube 短片,我们的创意助手将从零帮助他们完成。我认为视频创作是一个庞大的市场,视频分发同样非常有潜力。我们有一个清晰的未来视频创作平台愿景,但我们也认为视频的分发、分享和协作也具备变革空间。所以,Hedra 的起点是建立新一代视频创意工作室。未来,我们希望加快模型速度,实现实时互动,使视频不再是一次性创作,而是可以互动、来回交流的内容。我们的愿景是从创作开始,但也提供独特的分发体验,比如在视频结束后实时 Q&A,观众可以和刚刚讲解的虚拟人物互动。这是我们未来模型发展的令人兴奋的方向。


ZP:你们怎么看待美国与其他地区 AI 初创公司生态系统的差异?比如 Minimax和可灵都来自中国。鉴于你们在学术和创业生态系统中的工作经验,你们如何看待AI的采用和创新差异?


Michael:近年来,中国的初创公司数量有所下降,这主要是由于经济和监管因素。所以我们现在看到的许多初创公司是两三年前成立的,这些公司就像中国的OpenAI,构建基础模型,并在全球范围取得成功。例如,Minimax 背后的公司获得了大约4亿美元的融资,比 Luma 多出两到三倍,接近Runway的融资规模。可以说,Runway是美国资金最充裕的视频生成公司之一。我认为一个显著的差异在于,美国仍然有很多初创公司,特别是在应用层面,基于基础模型构建应用层的初创公司不断涌现。


相比之下,欧洲主要投资于国家级的AI项目,如Mistral等。总体而言,硅谷的创业生态仍然是全球最具活力的,但其他国家也在进行卓越的创新。印度的初创生态系统也非常繁荣。


Alex:从学术角度看,我们发现许多领域的前沿论文都来自中国的大学。以往我们主要关注美国和欧洲的研究,但如今越来越多的前沿成果出自中国的高校。


ZP:在中国,大部分教授会推动博士生和硕士生去写论文,因为在 CVPR 或ICML 上发表论文对获得教职非常有帮助。


Alex:在美国也有类似的情况。我觉得有一点不同的是,美国的学术生涯往往是由最高影响力的工作决定的,而不一定是作品数量。对于我们从事的视频生成和人类中心视频领域,许多有较大影响的论文,比如动漫相关的论文,也来自中国的公司或高校。


ZP:我想了解一下Hedra目前的融资情况。


Michael:很高兴分享,我们从 a16z 筹集了超过1000万美元。我们首先加入了Speedrun 基金,这帮助我们找到了一些产品市场契合度的想法,比如市场推广、团队建设等,这对公司发展至关重要。种子轮由 Index Ventures 领投,Abstract 则是第三个主要投资方。目前我们在洽谈新一轮融资,这令人兴奋。但现在我们的订阅产品也带来了不少收入,所以我们对新资源的到位非常期待,包括团队扩展和计算资源的增加。我们最近进行了许多激动人心的招聘,还在纽约开设了办公室,我现在就在这里。这就是我们目前的融资情况,它让我们能够大幅提升模型的计算能力。


ZP:能否分享一些你们在美国、中国或欧洲感兴趣的AI初创公司?


Michael:我们与 11 Labs 和 Cartesia 合作密切,我觉得这些公司非常有趣。11 Labs 在音频质量、语音库和语音定制化方面推动了很大进步;Cartesia 在状态空间建模和音频延迟降低方面做了许多创新。还有一些公司,比如 Black Forest Labs,前 X Stability 团队在图像生成的开源模型上也做得很好。我对 Anthropic最近的工作印象深刻,Claude 3.5 在代码生成方面表现出色,速度和延迟方面都有提升。此外,我知道一些还未发布的公司,我觉得它们非常酷,但可能还不能多谈。不过我花了很多时间思考我们的目标领域,所以我更多关注那些与我们协同作用的工具。


Udio 团队也在做很多令人兴奋的工作,我们与他们关系密切。许多 Udio 用户用 Hedra 生成音乐视频,许多用户通过我们的 Discord 社区发现了 Udio,我们的 Discord 社区之间有很大的重叠。我很喜欢 Udio 的创始人 David,他是个了不起的人才,这是另一个让我很期待的公司,我知道他们正在开发一些非常惊艳的东西。


ZP:对于企业客户,比如游戏行业、娱乐和电影制片厂,他们可能也会使用Hedra。我想了解他们对 Hedra 的需求,以及他们在 AI 视频编辑和生成方面的期望。


Michael:这些需求非常庞大。快速、个性化地创建内容,面向用户量身定制的能力是我们的独特优势。我们刚从多伦多国际电影节回来,在那里与一些AI创意者和行业专家合作举办了活动。我们与许多企业客户合作,他们希望快速生成视频,因为视频内容在发送邮件时更具说服力,或者用于构建内部知识库,他们希望能够快速生成视频。


他们希望有一个可以提供可扩展API解决方案的合作伙伴,能够在模型上进行微调,或者提供一些编程接口,以便以某些规模进行访问。我们曾在推特上发布API注册链接,每天仍有新用户注册,至今我们可能已与三四百家公司交流,范围从小型企业到《财富》前十的大公司。我们非常期待推出企业API产品,以及更加全面的团队级产品,方便人们用我们的技术创建视频。


ZP:你们有喜欢的书籍或文章可以推荐吗?或者有特别钦佩的人吗?为什么?


Michael:我以前看很多书,但现在除了关于我们领域的文章,已经不太读书了。我几乎每时每刻都在思考公司和相关事务。说实话,我的休闲方式是看电视,每隔几天会看一集电视剧。我刚刚看完一部叫《想见你》的台剧,觉得很不错。至于文章或论文,我几个月前读过一篇叫《Scalable Image Generation via Next-Scale Prediction》的论文,是 Keyu Tian 关于视觉自回归建模的研究,六月发表的。我觉得它关于扩散模型之后的架构思考很有意思。


Alex:我手头有一些 Andreessen Horowitz 的书,虽然还没完整看完。我认为互联网带来的阅读方式不再像一本完整的书籍那么结构化,我经常会在 Hacker News 上看到有趣的文章。有时 Michael 还会在我们的 Slack 中分享一些,比如关于“构建无法规模化的东西”之类的哲学性内容。


这些内容甚至对研究项目也很有帮助,让我在产品规划上也有所启发。你问到我们钦佩的人物,我觉得不仅仅是那些像扎克伯格这样的显赫人物,还包括那些可能比我们稍领先一步的创始人,看看他们如何解决问题,这也很鼓舞人心。


Michael:对我而言,有很多人对我有深刻影响,比如我们的投资人,来自Index 和 a16z。我们现在与 Index 的合伙人 Shardul Shah 合作密切,他曾投资过 Datadog 等大公司。能得到 Index 的支持非常好,a16z 的支持也一样,像Troy 和 John 以及团队里的其他人都非常热情。风投界有很多热衷于公司建设的优秀人才。还有一篇有趣的文章,是 Sequoia 的合伙人写的,标题是“AI的6000亿美元问题”,探讨了人们对 AI 的看法以及 AI 是否真的回报了其高昂的开发成本。我建议大家看看这篇文章,它让我意识到即使在开发酷炫的技术,也需要考虑这个技术是否真正解决了值得投入的实际问题。


ZP:可以分享一些个人爱好吗?


Michael:我一直对电影和艺术很感兴趣。现在我在公司之外几乎不怎么做别的了,偶尔会下厨,喜欢烹饪。我也会和女友共度时光,另外看了很多韩剧。坦白说,我的生活挺无聊的,几乎全在工作。


Alex:我在工作之外会做很多运动,比如打网球、玩 pickleball 和篮球。上周,我还和团队里的一位研究员打了一场篮球。我喜欢在周末抽时间到户外活动。如果我感觉工作效率低,会休息一下,运动过后再回来工作,通常会更专注。有时会惊讶于之前花了两小时没做完的事情,在正确的心态下只需15分钟就能完成。


ZP:还有任何信息要分享给我们Z Potentials的观众们吗?


Michael:可以在推特上关注我们的账号 @Hedra_Labs,试用我们的产品并推荐给朋友们,趁着我们的免费计划还在。关于招聘,我们一直在寻找优秀的人才。我们目前在招大量人手,主要是对创意工具感兴趣的全栈前端工程师,以及研究科学家,专注于下一代实时视频基础模型的开发。我们希望找到热情、富有激情,愿意一起创建一家影响一代人的公司的员工。我们也曾为员工办理过签证(H1B/O1等),比如刚从 Max Planck 研究所引入的 Hongwei Yi,他目前在我们旧金山的办公室。我们也有许多优秀的实习生,与许多顶尖大学合作,甚至有来自顶尖中国高校的实习生。我们非常注重发现和培养优秀人才。


请注意,本次访谈内容已经过编辑整理并已获得Michael的认可,仅代表受访者个人观点。我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多关于Hedra的信息,敬请访问其官方网站 https://www.hedra.com。


文章来自于微信公众号“Z Potentials”,作者“ Z Potentials”


关键词: AI , AI视频 , Hedra , Omni-Gibson
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner