在视觉模型的热潮中,有差异化优势才好生存。
以2月的Sora发布为标志,视觉模型在2024年崛起。此前大部分模型公司在视觉模型的布局是先图片再视频,或者一个模型搞定图片和视频。不过有一家公司却是先做了3D生成模型,再做了视频生成模型,并且在技术上有所创新。
这家叫Luma AI的公司,第一个出圈的产品是由3D生成模型Genie支持的智能手机应用,它允许人们仅凭智能手机摄像头,就简单的生成各种3D图像,这个应用获取了百万级用户。
在2024年,它推出了一个叫Dream Machine的视频生成模型,这个模型基于高效的多模态Transformer架构构建,并直接在视频上进行训练。在某些性能上相比传统视频模型有一定优势。
在今年早些时候,它获得了A16z领投,Matrix、英伟达以及多位个人投资者参与的4300万美元B轮融资,这使它的累积融资额达到了7000万美元,也让它有更多的资源提升计算能力,数据和团队,以便训练更好的视觉模型。
这一轮AI技术的崛起是大语言模型和视觉大模型共同推动的。一部分人认为语言是通往AGI的必经之路,更多的人则认为视觉是关键。视觉模型可用于各种生成式人工智能应用——包括逼真的视频生成、游戏、交互式3D世界构建和机器人技术。
LumaAI显然是后一派,从3D大模型到视频大模型,他们跳过了语言模型和图片模型,为视觉模型增加了空间和时间的元素,更加接近真实世界。
LumaAI认为多模态是智能的关键,它们将打造最终与真实世界互动以实现改变的AI系统。
LumaAI由Amit Jain(CEO)和Alex Yu(CTO)共同创立,Amit Jain曾在苹果公司工作,负责了Vision Pro的多媒体体验,在3D计算机视觉、相机技术、机器学习等方面有丰富的实践经验。Alex Yu曾在Adobe公司工作,并在伯克利的人工智能研究实验室与Angjoo Kanazawa教授一起研究神经辐射场(NeRFs),他曾在CVPR和ICCV等AI领域顶会发表过多篇论文。
在B轮融资之后,LumaAI的领导团队引入了几位顶尖人才,来自NVIDIA的Jiaming Song,担任首席科学家,领导基础模型研究团队,Jiaming Song曾领导扩散模型(如DDIM)的研究工作;来自伯克利的Matthew Tancik领导应用研究团队,他参与创造了神经辐射场(Neural Radiance Fields),这是3D神经渲染领域最具影响力的新方法之一;苹果设计工作室的Tuhin Kumar则领导设计团队。
A16z合伙人Anirney Midha表示:“生成式AI的巨大机遇在于让数十亿人能够创造出以前只有少数人敢于梦想的事物。Luma凭借世界级的多模态研究和产品设计能力,正引领这一浪潮。Luma的团队汇聚了计算机视觉、图形学和深度学习领域最杰出的科学家,他们已经推出了被数百万人使用的产品。我们非常高兴能与Amit、Alex和他们的团队合作。”
3D领域的第一个重大突破出现在2022年,Get3D、PointE和DreamFusion等研究论文发表。这引发了该领域的研究热潮,仅2023年9月就有超过20篇相关论文提交到ICLR。研究人员终于攻克了生成过程中的一些主要挑战,如“双面问题”(Janus problem)。
但是很多方法的速度很慢,生成一个内容可能需要1个小时。所以能够在保证视觉质量的同时加快生成质量就变得很有意义。Luma AI构建了快速、高质量且可部署的3D生成基础模型Genie,它能通过自然语言提示在10秒内创造出任何3D对象。Genie基于大量3D形状、纹理和场景数据集的训练,它在网页端、Luma iOS应用程序以及Discord社区中提供。目前已经有百万量级用户。
Luma AI的联合创始人兼首席执行官Amit Jain表示:“Luma的核心理念是,所有视觉生成模型都需要在3D环境中进行推理和工作,以创造看起来合理且实用的视频、场景和世界。”
在3D领域,Luma AI并不是唯一玩家,创业公司例如Hypothetic、Auctoria AI和Kaedim都推出过类似功能,Autodesk和英伟达也分别推出了ClipForge(可根据文本描述生成3D模型)和Get3D(将2D图像转换为3D模型)等应用。
LumaAI的联合创始人Alex Yu表示,LumaAI的3D模型优势在于高保真度,因为一些3D图像生成模型是在二维图像上训练的,它们生成的内容经常‘扭曲空间、身体和动作’,而LumaAI生成的内容则连贯可用,并具有高保真度。
Luma AI的视频生成模型Dream Machine采用了与3D模型Genie类似的技术和产品策略,卷速度,卷可控性,开放。
Dream Machine与AWS合作,使用它们的H100搭建成的超算训练。与一些视频模型基于图片训练不同,Dream Machine是使用Transformer直接基于视频数据训练,这让它的模型更加“理解”人物、动物和物体与现实世界的互动方式,生成的视频内容能够忠实呈现特定物体、人物、动作和环境,讲述连贯故事,并始终保持流畅的动作。
此外,Dream Machine不像一些模型去卷长时长,15秒甚至1分钟,现阶段只生成5-10秒钟的视频片段,但是它能够在120秒的时间内生成120帧画面。对于创作者来说,这加快了它们迭代创意的速度。
在初版Dream Machine发布2个月后,Luma AI发布了Dream Machine 1.5,新模型的提升在于更逼真的效果、更出色的动作追踪能力,还有一个重大升级在于文字方面的能力,一方面它的提示遵循能力增强,另一方面它支持了多语言(例如阿拉伯语),而且能生成更准确的带有文字的画面。这方面的突破,有助于设计人员设计动态标题动画标志和演示文稿的动态屏幕图形。
尽管OpenAI的Sora开启了今年的视觉模型潮,但它仍然在封闭测试阶段,而且OpenAI应该会把它作为一个闭源模型来运行。Luma AI则已经将Dream Machine的使用权限广泛开放,这也让它的用户数量飞速提升,根据similarweb的统计,它的视频生成器网站(lumalabs.ai)流量在今年6-7月份增长了33.4%,总流量达到2250万次,而一些竞争对手的流量在同期则只有1210万(veed.io)和240万次访问(synthesia.io)。同一时期,Google的Gemini流量环比下降14.3%,Microsoft CoPilot的独立版本环比下降13.4%,这更说明了它的受欢迎程度。
开放策略不仅带来了流量增长,也能让Luma AI收集更多的真实用户反馈。相比之下,梦想机器现已向所有愿意尝试的用户开放。在产品策略上,Luma AI不仅有现在面向ToC的网站和App,未来还将推出API和插件,与Adobe等创意软件工具集成。
在大模型和视觉模型领域创业,初创公司如何与大公司竞争?肯定需要一些差异化的策略,具体到Luma AI,它在三个方面实现了差异化。
在技术上,它采用Transformer架构直接使用视频数据进行训练,提升了视频生成内容的真实性与可控性。
在产品上,它不追求视频生成的长度,追求视频生成的速度,帮助客户提升工作效率。
在模型运营上,它采用开放式的策略,降低模型使用成本,扩大用户量,同时又积极拥抱大公司的生态,借机进入企业市场。
挣钱难是目前AI产品普遍遇到的问题,这个问题拆分开有两个层面。
第一是成本问题,无论是训练还是推理,目前的算力成本都还很高,让AI创业公司无法以较低成本扩大规模。这一方面需要等待芯片技术的进步,目前这个成本已经在快速下降中。
第二是收入来源问题。光是以API的形式卖模型能力,在现在模型越来越卷的情况下很难挣钱,因为很多大厂已经免费提供模型或者把模型Token的价格压得很低。创业公司的出路还是在应用方面,对于视觉模型公司,可以围绕电商,设计,影视和游戏等行业找具体的突破方向。
厉害的创业团队当然可以向AGI进发(无论选择哪条路线),但在实现AGI的道路上,要想公司形成正循环,还是要先瞄准一些“肥水田”做出有价值的产品。
文章来源于“阿尔法公社”