ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
a16z投资,两个月400万用户,华人AI产品席卷Discord
10108点击    2024-08-28 09:20

Viggle AI 这家以其同名视频生成服务而闻名的初创公司,近日宣布完成 1900 万美元的早期投资,其中 Andreessen Horowitz 领投。


Viggle 公司的创始人兼 CEO Chu Hang 是一位华人,在 Google、英伟达、Facebook 和 Autodesk 都工作过。


你可能不了解 Viggle AI,但你可能见过它做的表情包。


这些是在网上疯传的表情包:说唱歌手 Lil Yachty 在夏季音乐节上蹦跳,但他被换成了电影《小丑》里的 Joaquin Phoenix。



耶稣似乎在为人群加油鼓劲:



Viggle 最初从 Discord 社区开始起步,目前用户已经超过了 430 万,3 月份上线了独立的 App 产品。团队使用了自己开发的 JST-1 模型,支持人们创建更逼真的人物动作和表情。


今天的文章里,我们将了解 Viggle 这个华人创立的小团队,是如何取得「病毒式」用户增长,以及创始人在 a16z 的访谈。资料来自 TechCrunch 以及 Z potential,Founder Park 略有调整。


01 


15 人团队,


制造全球社区「病毒性」扩张


2024 年 3 月,Viggle 推出内测,目前吸引了超过 400 万名 Discord 社区用户。用户们聚集在一起玩二创。


目前,Viggle 主要有两类用户群:


第一类:社交媒体乐子人。他们想做出娱乐性的 meme,追求的是好玩,想要社交传播效果好。Viggle 非常有吸引力的特效激发了这类人的尝试欲,然后通过社交渠道传播裂变。这也是提升产品知名度最好的方法之一。


第二类用户:专业创作者。这类用户用 Viggle 来设计游戏、做视觉特效。比如,动画工程师可以快速把概念变成粗略的动画,让想法和感觉变得视觉化,大大减少设计草稿的时间,减少繁琐的工作流,提升效率。


Viggle 的团队成员充满激情,而且技术精湛。创始人 Chu Hang 曾在 Autodesk、Facebook、Nvidia 和 Google 等全球领先的科技公司担任 AI 研究员。在上海交通大学获得信息工程学士学位后,他在康奈尔大学攻读电气与计算机工程硕士学位,并在高级多媒体处理实验室进行研究。2016 年,Chu Hang 进入多伦多大学,在计算机科学领域攻读博士学位,专注于机器学习领域的研究。


过去 8 个月,担任 Viggle 产品增长负责人的是 Nan Ha。她是一名资深的 SEO、内容营销和联盟营销合作的专家,毕业于 USC 与 LSE 的联合研究生项目环球沟通与传媒专业。在她的领导下,Viggle 的 Discord 社区从 500 名成员,迅速扩展到超过 400 万成员,成为全球第二大社区。


依托于 Discord 平台运营,Viggle 迅速扩大用户基础,并借助 Discord 的内容审核和社区管理工具来管理庞大的用户群体。相比国内的平台,像是小红书和抖音,Discord 的即时性和互动性更好地支持了 Viggle 的病毒式传播和用户增长。


对于像 Viggle 和 Midjourney 这样的初创企业来说,在 Discord 上运营意味着他们不需要为用户建立独立的平台。相反,他们可以利用 Discord 上技术娴熟的用户群体和内置的内容审核工具。对于仅有 15 名员工的 Viggle 来说,这种支持至关重要。


Discord 的产品副总裁 Ben Shanken 评论道:「没有人能为这样的增长做好准备,我们在他们广泛传播的阶段,选择与他们合作,是因为他们还是一个初创公司,实际上 Discord 上有很多生成式 AI 创作的内容。」


当然,Viggle 在 TikTok 上也取得了广泛的传播。


#Viggle 词条下有超过 4 万条视频,#viggleai 词条下也有超过 3.3 万条视频,显示了其强大的用户参与度。


例如,博主 Geirill 在 TikTok 上以 6030 粉丝获得 41.6 万赞,其中 Viggle AI 视频独占 31.4 万赞。KOL 和博主的推广为 Viggle 带来了巨大的流量支持,用户也乐于使用 Viggle 制作视频,进一步促进了产品传播和裂变效应。



图片来源:tiktok


Viggle 的低使用门槛使得普通人和普通创作者也能够轻松上手。这种广泛的用户基础和便捷的创作体验,是 Viggle 能够迅速在 Discord 社区、TikTok 内爆发式增长的原因之一。


02 


表情包只占用户创作的一小部分


这些不同版本的表情包都是用户做的,但原始素材是 Viggle AI 提供的。


「我们的模型跟传统的视频生成器有本质上的区别。现有的视频生成器主要基于像素,不了解物理结构。我们让模型理解这些,所以产品在可控性和生成效率方面好得多。」CEO Chu Hang 说。


比如,要制作一个类似小丑唱跳的替身视频,只需要上传一份包含唱跳动作的视频,以及替身的图像就好了。



或者,用户可以上传角色图像,直接加上文字 ptompt。



全部用文字 prompt 创建动画角色也行。



此外,还能风格化真人照片,再加动效。



制作表情包,只占 Viggle 用户需求的一小部分。现在它生成的视频离完美还很远:角色们抖个不停,脸上毫无表情,但 Viggle 也已经是创意工作者们爱用的可视化工具了。对电影制作人、动画师和视频游戏设计师来说,用 Viggle 可以把他们的想法直接转化为视觉效果。


Viggle AI 模型的训练素材的其中一个来源是 YouTube 视频。CEO 在媒体采访中透露,他们到目前为止依赖的一直是公开的数据,包括 YouTube 视频。这话跟 OpenAI CTO Mira Murati 聊 Sora 的训练数据时说的话差不多。


这可能成为一个问题。今年 4 月,YouTube CEO 说,用 YouTube 视频训练文生视频 AI「明显违反」他们的服务条款,对 Sora 来说是这样,对 Viggle 来说可能也是。


后来,Viggle 的一位发言人向媒体补充说明道:Viggle 利用各种公共资源(包括 YouTube)来生成 AI 内容。我们的训练数据经过精心策划和完善,确保整个过程符合所有服务条款。我们优先与 YouTube 等平台保持良好的关系,并致力于遵守其条款,避免大量下载和任何其他涉及未经授权的视频下载的行为。


这看起来好像仍然跟 YouTube 4 月的评论矛盾。据报道,包括 OpenAI、Nvidia、Apple 和 Anthropic 在内的许多 AI 模型开发商都用 YouTube 视频转录或剪辑来训练模型。


这或许是硅谷的一个不太算是秘密的秘密:每个人都可能这样做,只是很少有人大声说出来。


03


高可控性、高时效性视频生成


传统上,视频和 3D 生成被视为两个独立的挑战。Viggle 通过采用一种创新的联合解决方案,成功应对了生成式视频技术中的两个关键挑战:高延迟和低可控性。


可控性


Viggle 与其他纯生成类AI产品(如 Runway、Sora 等)相比,提供了更高的可控性和预见性。


使用 Runway 时,用户通过输入一段提示语生成视频,但无法预测最终的生成结果,需要多次尝试才能得到理想效果,缺乏对生成过程的控制。


Viggle 允许用户上传已有的视频和图像,表明他们对最终生成的视频明确的预期。Viggle 通过模版与上传的视频动作来学习,快速并精确地生成用户预想中的视频内容,解决了其他AI视频生成工具中常见的可控性差的问题。这使得 Viggle 成为视频从业者和 AI 创作者的更优选择,尤其是那些质量要求高、物理效果要合理的视频场景中。


低延迟


Viggle 独创的 JST-1 技术,将视频和 3D 生成统一在一个基础模型中处理。Viggle 的技术方案显著降低了视频生成的延迟问题。这种统一模型能够有效利用 3D 空间信息和时间动态,减少传统方法中分开处理所带来的冗余和延迟,使得用户不必等待几分钟或几小时才能获得几秒钟的视频。


JST-1 作为驱动力,使得视频-3D 基础模型能够从现有的 2D 视频资料中分析视频中的动作和姿势并构建出 3D 模型。这个过程不仅涉及到形状和外观的转换,还包括对角色动作和环境交互的物理理解。


探索跨领域应用与提升动画制作效率


Viggle 还计划继续提升技术并扩展其功能。Chu 表示:「我们将重点放在构建后台服务的模型,同时借助 Discord 的前端基础设施。这种方法使我们能够更快地进行迭代,专注于开发最先进的 AI 系统。」


此外,公司还在探索娱乐以外的多个应用场景,如游戏设计和视觉特效领域。通过 Viggle,动画团队可以从概念设计中快速生成初步的动画资产,从而节省时间和精力,这有可能彻底改变动画制作的方式,使其更加高效且易于操作。



图片来源:viggle


04


创始人:像素之外,先控制 AI 生成过程的精确性 



Chu Hang:目前我正在负责一个名为 Viggle 的项目,我们称之为「可控视频生成」。这与市面上现有的文本到视频的转换工具不同,我们希望能提供更精确的控制能力。我们的目标是让用户能够精确指定动作和角色。


我们团队之前也是图像和视频生成工具的重度用户,但我们面临的最大挑战是,学起来太难了,学习曲线很陡。所以,我们希望 Viggle 能简单易用,让每个人都能轻松上手,不需要复杂的学习过程。


Viggle 的基本功能很简单。你只需要上传两个东西:一个是图像,用来确定角色;另一个是文本或者视频,告诉 Viggle 你想要的动作。然后 Viggle 就能把这些合在一起,生成角色做特定动作的画面。一开始,我们是想给电影和游戏制作人用,让他们能快速预览动画效果。这个工具确实挺实用的,我们也看到,一些早期用户已经开始这么用了。


但我们没料到的是,这玩意儿竟然成了表情包的热门工具。比如有个模板是小丑上台的场景,用户可以把视频里的小丑换成自己。我们发现几百万个角色在模仿和复现这个瞬间。


用起来也方便,你上传一张图片,几秒钟后就能出现在那个场景里。这种多样性挺有意思的。我们也希望 Viggle 能适应这种多样化的使用场景。


一些内容创作者也主动找我们,问能不能在 Viggle 上展示他们的舞蹈或者歌曲,还希望能和我们合作推广。这也很有意思。


现在,我们不仅限于上传视频来制作内容,还可以使用各种模板。你可以看到,我们这里有很多模板,包括一些有趣的舞蹈动作和体育赛事场景。


比如说,如果你想用某个模板,而且我们已经有了角色,你就可以用这个角色和模板来生成新的内容。即便你提供的只是正面视角的图像,我们的模型也会尽力生成一个 360 度全方位的人体视图。我们的创作者社区提供了许多优秀的模板,而真正的多样性来自于那些充满创意的想法。


对我们来说,最重要的是要支持这些创意社区,确保他们能够得到他们需要的工具,而且是最好用的工具。我们希望他们能够尽早体验到新功能,几乎是通过一种专属的渠道。我们基本上是在为创作者社区提供最有力的支持。

我们真的希望将这个角色模型应用到更多的生活场景、物体和场景中去。


在我看来,实现真实世界建模主要有两条路,一种是像素级的处理方法,Transformer 模型(Diffusion Models)在这方面做得相当好,但它有个问题,就是控制像素比较难。毕竟现实世界是三维的、物理的,像素并不是一个高效的表达方式,但它的优势是可以用任何视频来训练,生成各种内容。我们希望,当扩展到一定程度时,可控性会自然显现出来。但我们选择了另一条路径。


我们首先把生成的可控性做到像图形引擎那样精确,然后再从这个基础上进行扩展。所以我认为这两种路径的发展,以及它们最终如何融合成一种沉浸式体验,真的非常令人期待。


现在,Viggle 带来了一种全新的内容消费体验。对 AI 来说,通常就是如果你喜欢某个瞬间,你就会分享它。但在 Viggle,你可以和那个瞬间进行更深层次的互动。比如说,如果我特别喜欢某个时刻,我甚至可以把自己的虚拟形象放进去,体验一下那个场景。这就像是进入了一个平行宇宙,可以亲眼看到自己如何重新体验那个瞬间。这种全新的内容消费方式,不仅增加了娱乐性,还带来了更加个性化、定制化的体验。


如果你想让这些创作内容有真正的娱乐价值,那这个技术必须得表现得很好。所以对待这种搞笑的东西我们是认真的,会进行相当严格的研究。


参考资料:


https://techcrunch.com/2024/08/26/viggle-makes-controllable-ai-characters-for-memes-and-visualizing-ideas/


https://mp.weixin.qq.com/s/kHNmPYHNhhw5WngvzRcpgg


https://www.youtube.com/watch?v=IebslwhPzFo&t=2s


https://mp.weixin.qq.com/s/VGEcjWQ6pNPB1qO8eANtaA


文章来源“Founder Park”,作者“Founder Park”



关键词: AI , AI产品 , Viggle , AI视频 , Viggle AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0