深度｜对话Stability创始人：视频技术已进入工程阶段，2025年将是Agent元年

11283点击 2024-10-03 16:16

图片来源：Overpowered

Z Highlights

Emad认为，我们现在已经拥有制作高质量视频的所有技术，只是这些技术尚未整合在一起，我们需要更多的技术架构突破，视频领域可能不像语言领域那样存在一些正在酝酿的新突破，但速度会越来越快。这些技术需要从研究阶段走向实际工程应用，且将在未来几年实现。
Shelling AI将构建模型和高质量数据集，并为从癌症到自闭症、多发性硬化症、阿尔茨海默病的研究提供资助，同时为每个国家建立国家数据，不是由政府而是由人民与政府合作，创造标准以实现互操作性，并分享所有权。
对于模型本身我们已经不需要更多，后续将进一步专注于优化，精确地找出如何替换数据，如何榨取模型的每一滴性能。我们已经进入了这项技术的工程阶段——提炼它，使其更小，并且使其有用。Emad进一步指出，2025年将是Agent的一年，我们可以派这些模型去执行任务，它们完成后再返回，而不是同步处理。

Overpowered：女士们，先生们，欢迎收看新一期的Overpowered。这一次，我们请到了一个大家一直以来都很期待的人物。经过几周甚至几个月以来的筹备，我们终于邀请到Emad来到节目中。他目前经营Shelling AI，曾因在过去开发Stable Diffusion而闻名。Emad，很荣幸能邀请到您，这次节目肯定会让任何对AI与艺术交汇感兴趣的人感到惊喜。我们将试图探讨Emad对未来的看法，因为我认为他拥有内部信息，他过去打造了一家庞大的公司，现在正在打造另一家。那Emad，您今天感觉如何？

Emad：我感觉不错，这几个月来我一直在阅读和观察，现在一切进展顺利。谢谢你们邀请我参加，这是我最喜欢的推特账号之一。我一直都在期待你们的新推文，因为每次都能给我带来一些深刻的启示，我都会仔细研究一番。现在我终于有机会与大家交流了。

关于视频和生成式AI

Overpowered：您最近在推特上频繁谈论AI和视频。我认为去年大家都在谈论AI和图像，我们看到这一年是随着Mid Journey的浪潮开始的，然后Stable Diffusion紧跟其后。到了年末，我们有了很多好的微调技术，比如Flux和SD3等优秀的创新。我觉得类似的革命即将在视频领域发生，我想知道您目前对视频领域的发展有什么看法？

Emad：我认为我们正在见证一些令人惊叹的事情，这些模型试图融合在一起。回顾这项技术的发展历史，2021年冬天，一个关键的突破是将图像生成器和判别器结合起来，因此结合了扩散模型和CLIP模型。这是在Twitter上的Katherine Kon Rivers和Hab Wings完成的，然后OpenAI将其用于Del这项技术，Stable Diffusion团队和Robin等也参与其中，他们现在已去开发黑森林实验室。这两个模型的结合是非常强大的，但我们有了Stable Diffusion后，2022 年又创造了Stable Video，它将图像模型扩展创建视频模型，这之后又扩展到成为Stable Diffusion 3的架构 Sora，很多这类Diffusion Transformer结合了Diffusion和Transformer的拓扑结构效果，但可以接受任何输入，最好的效果是从图像开始，然后可扩展到视频，实际上还可以扩展到3D。Stable Diffusion 3D就是这样工作的。

当你在看视频时，有两个问题：一个是zero short generation，你给语言模型prompt，它就会生成一些内容，就像我给你这些快速回答一样。另一个是深思熟虑并将不同的模型连接在一起。Stability的团队建立了一个叫Comfy UI的东西，任何从事创意行业的人都会认出它。每当有新模型发布的第二天，就会有一个节点，每个媒体文件都会突然变成不同属性、超参数、资产和模型调用的流程。如果我与你分享这些，你就可以重建它们。这很重要，因为当你看电影是如何制作的，电影实际上是由平均每段2.5秒的镜头组成的，过去是12秒，现在是2.5秒，这个变化非常大。这些的构建，比如节奏、场景、构图，你可以用诸如Meta的Segment Anywhere之类的工具进行解构和重建做映射。

我认为现在已经拥有制作高质量视频的所有技术，只是这些技术尚未整合在一起。高质量视频的zero short generation是不同的概念，我们发现随着使用更多的计算资源，尤其是当我们有了Transformer后，模型的性能会变得更好，并能学习越来越多的知识（因为Diffusion模型非常难以扩展）。这就是为什么OpenAI提出了Sora World Model，它可以理解物理。当你拍摄一个人演讲的照片，然后通过Runway Gen 3（一个Diffusion Transformer模型）处理时，模型可以让人物挥动胳膊，甚至表现出阴影等效果。因此，这些世界模型和流程的结合意味着我们几乎达到了任何人都能制作任何类型电影的程度。不过，这些技术需要从研究阶段走向实际工程应用，我认为这将在未来几年实现。

Overpowered：您是否在研究阶段关注任何可能在明年或后年改变视频行业的事物？

Emad：我认为，Google 最近在研究使用文本描述进行位置编辑的工作，远超以往的任何技术，并将应用于视频领域。比如，当你添加一张图片并说想让人物看起来像紫色外星人时，它能完美地实现位置编辑。我认为视频制作的流程包括创作、控制和构图，现在的模型已经达到了创作的阶段，而且规模化似乎有效。我们在视频和图像模型中看到了这一点。

现在的挑战在于控制，例如Control Nets等技术的等效应用，在视频中尚未实现，但发展非常快速。我认为这是一项关键突破。在故事板创作、编辑一致性、方向性等长期规划和系统创建方面也有许多有趣的进展。此外，在语音技术上也有重大进展，语音到语音技术变得异常准确，还有唇同步和其他遮罩技术。

总的来说，我认为我们在生成视频需要的所有重大突破方面已经差不多准备就绪，只是还没有整合在一起。我不认为我们需要更多的技术架构突破，视频领域可能不像语言领域那样存在一些正在酝酿的新突破，但速度会越来越快。

Overpowered：我注意到您在推文中提到实时视频生成可能在明年实现。您认为这样的技术实现的时间表是怎样的？我看到的另一个问题是角色和构图的一致性。您认为解决这些问题需要多长时间？

Emad：我认为这些问题基本上已经解决了。对于视频模型，由于缺乏良好的训练数据以及计算资源不足，它们往往会变得不稳定，比如开始时非常准确，然后突然变得模糊。现在，通过增加计算资源、高质量数据分割等，这些问题基本上得到了很大解决。对于一致性问题，我们在图像模型中已经看到类似的解决方法，比如使用细化和推理级别的IP适配器，使角色在多个场景中保持一致，因为我们已将其正确映射到潜在空间。

现在的问题是如何快速优化它们。模型通常拥有比实际需要多10倍的数据，我们只是简单地将所有数据放入进行些许编辑，然后在超级计算机中处理，因此模型仍有10倍的改进空间。比如Sony成功地用价值$25,000的Stable Diffusion模型替代超大规模的模型，通过精心选择数据，使用了1000万张图片，而不是以前使用的20亿张。这很重要，因为可以在保持性能的同时缩小模型规模。像今天San发布了一个从零训练的20亿参数语言模型，其性能与更高的80亿参数模型相当，而那些模型在许多年前性能媲美于GPT-3的1750亿参数。通过使用对抗性去燥、精简扩散等技术，你所输入的数据就会产生区别，这不再需要20或100步，只需一两步即可实现。

Overpowered：这是用于推理的Stable Diffusion LCM和Lightning模型。

Emad：在推理方面，如果我们讨论实时处理，这非常重要。以SD Fast库为例，现在使用一块4090图形卡，你可以在稳定扩散模式下每秒生成300张图像，相比以前的20秒，这意味着你可以据此制作或重制游戏。我们已经达到实时视频插值的程度，新推出的le fake库可以动态实现这一点，并且可以在艺术装置中将创作实时变换。如果考虑像素级高清晰视频，这会变得非常有趣。比如Luma Labs的小型视频模型，大片预计会更快。当前使用H100大约需要一分钟生成五秒的视频，而更快的B100s可以达到4位精度和20,000teraflops，速度是前者的5~10倍，将生成时间减少到接近实时。

然而，实时全视频生成存在问题，因为生成的内容具有不可预测性。同时人脑无法快速反应。例如，用我们的稳定音频模型生成三分钟的歌曲只需十秒，但要判断歌曲的质量，仍需完整聆听。这意味着比实时生成更快的意义有限。此外个性化媒体在现阶段更现实，例如印度的Shahrukh Khan广告中可以让他个性化地说出不同商家的名字。这种个性化现在可以用消费级PC实现，不必重新生成整个内容。只要大部分像素或音频保持不变，即可在瞬间进行修改。

在接下来几年内，可能还无法实现每个像素动态生成，就像超级游戏引擎一样。但在五到十年后，考虑到模型及其极限优化发展的方向，这可能会成为现实。现在，它更多是通过编辑和其他方式进行变换。最后，大多数关于AI的讨论都与推理相关，我们构建的模型通常用于推理过程。类似于电影和编程模型，推理成本从几美分上升到可能一天100美元。我们不希望看“烂片”，而是希望有高质量、经过反复打磨的电影。因此，在实时生成普及之前，需要在推理阶段投入大量计算资源，以确保高质量的电影制作。

Overpowered：我有一个商业策略上的问题：假设我们已经掌握了所有必要的模型，例如我们日常频繁使用的Comfy UI。从商业的视角出发，是否更有益于由一位优秀的工程师来打造一个整合这些模型的产品层，并构建一套相应的工作流程？或者，是否更应该围绕这些模型创立一家服务公司？我们曾经营一家名为Laos的公司，从中我们吸取了一个宝贵的教训：即便你开发出了卓越的产品，也可能面临利润微薄、竞争加剧和价格战的困境。要在竞争中立于不败之地，你可能需要筹集高达一亿美元的资金，或者转型为一家服务公司，利用这些工具并结合人工编辑，为客户提供定制化的解决方案。目前，许多人正探讨利用Stable Diffusion等技术来提供服务。我注意到你的一些推文中也提到了这一点：我们既可以创建一家服务公司，也可以为客户定制特定需求的模型。因为单纯的模型并不能算作完整的产品，它们需要进一步的开发和完善。近来，关于服务公司模式的讨论再次变得热门。你对这种趋势有何看法？

Emad：现在正处于一个过渡时期，所以你可以打造更好的产品。我当初启动了MidJourney的融资，给他们提供了技术支持，还为他们的测试版提供了一个月的A100s，David Holtz就是那里的CEO，他建立了一家每月收入达2000万美元的公司，他们现在也创建自己的模型，非常盈利，这太棒了。但构建好产品很难，因为你会遇到分发上的挑战。

现在你拥有的是对整个已建立行业具有变革性影响的技术，这些行业已经有了固有的分销体系。所以如果你能制定正确的定价模型，你就可以利用其现有的分销网络。比如，OpenAI与微软合作，Anthropic正在与Google和其他公司合作，我认为这是一个更有利可图的领域。

目前AI不再仅仅是一个有趣的东西，而是我们必须使用的工具，尤其是在实时视频生成方向发展的时候，你会看到输出的质量。有没有一家媒体公司会觉得：“哇，竟然可以动态地翻译成印度的每种方言？”你还可以制造虚拟网红，因为你拥有这些突然出现的小翻译引擎。很少有人需要自己建立模型，现在出现的模型可以组合使用来实现这些结果。我认为大多数人应该做的是构建有用的东西。正如你所说的，即使你开发了有用的产品，分发仍然非常困难，差异化也很难。所以我会说更安全的选择是接入这些变革性的技术，采用混合服务模式去帮助他人，因为这个市场非常庞大。

Overpowered：我有一个相关的问题，Stable Diffusion基本上是基于开源生态系统的。我的很多学生也大量使用这个开源生态系统，通过它我们能够制作出很棒的作品。我很好奇开源究竟是如何运作的经济学原理是什么，它如何影响长远发展，这其中的内部运作机制是什么。

Emad：传统上，商业开源软件的范式是你开放发布软件，然后围绕它提供实施服务。比如，Databricks拥有300亿美元的市值，他们有重服务的部分和私人版本的安装，Red Hat也是300亿美元市值。要是我们当初及时推出了一个服务部门，那可能是最赚钱的事情，但因为我们在扩大多模态AI团队，以与Google DeepMind和OpenAI竞争，所以难以扩展服务部门。我们在各个模态达到最先进行的水平，不只是图像领域。我们追求宏达的目标，而这一点是最好的，因为你在创造人们真正想要使用的东西，他们习惯于支付服务费。而另一种模式是API模式，这很困难，因为模型已经商品化但工作流程并没有。因此，如果你提供一项翻译服务，将任何媒体或内容库翻译成所有印度方言，没人确切知道能收费多少，只知道传统翻译的成本和潜在价值。而如果你只是提供一个语音到语音模型的API，那完全是另一回事，因为这需要一些技术专长来做数据增强和其他事情。

模型实现了垂直整合，这使得我们能够通过利用开源来有效削减成本——这正是Meta所采取的策略。例如，他们通过开源方法将llama模型的成本降低了10%，对于他们这样的大规模企业来说，这种成本抵消是相当合理的。其次是提供服务。我认为这些就是我们在商业开源软件环境中常见的商业模式，我认为这也说明了为什么我们看到采用率在增长，但还没有完全主流化，因为才过了两年，企业对于将东西投入部署非常谨慎。通常不会在周五发布，也不会在周期初期发布。但现在这些东西正在标准化，因此更容易发布。这也是为什么服务层在这里非常有用，因为如果出现问题，你可以责怪某个服务，而不是API。

Overpowered：你刚才提到在消费者电脑上运行这些东西对吧，比如这个运行在Intel Core Ultras上。我觉得现在有一波公司提出其有NPU，可以在本地运行一切。他们的整个卖点很不错，你可以在自己的电脑上运行所有的小模型，从简单的（如去背景），到复杂的（如和一个小型AI聊天机器人聊天），现在用户都可以在本地做到。你是否认为在某些工具和服务上，消费者计算实际上会变得有竞争力？比如与其花钱在MidJourney上，我是否会在下一个Intel笔记本中搭载Stable Diffusion或Flux？你觉得这种情况会发生吗？

Emad：为什么不呢？现在的笔记本和智能手机几乎都有一种普遍的基础智能，然后在此基础上进行扩展。它们有大量的内存，可以运行类似于GPT-4级别的模型，并且是消费者级别的硬件。但你看看NPUs，还有运行速度，比如一个2到7亿参数的模型，你只用5瓦的电力，相对于4090可能用的150瓦或H100用的1000瓦，你已经可以运行GPT-3.5级别的模型了。现在你可以在普通笔记本上运行这些模型。虽然不算特别快，但可以生成图像。

所以如果你展望未来几年，看看推理、量化等方面的优化，今天的这些模型都将在几年内运行在消费级的硬件上。这可以处理大约90%的技术用例，并且还能访问私有数据。那么云计算的用途是什么呢？我们最近发布了一篇文章，关于如何思考AI，我想我们刚刚完成了印地语的翻译。在文章中我们将这些模型描述为毕业生，你在这里有自己的小型毕业Agent，而云端有专家。云端总会有更好的模型，有更多的功能，但最重要的是它能否做一些有用的事情。安装《艾尔登法环》需要50GB，而Stable Diffusion需要1GB，量化后的Llama是4GB，而估计GPT-4可能需要20到40GB，这很疯狂。

学生应该学习的技能

Overpowered：既然你提到了AI Atlantis，那学生应该学习什么技能呢？在那篇文章中，有很多我都很喜欢，但有一句让我特别感兴趣：“智能的成本正在迅速下降，而人类在应用这种独特资源时展现的创造力价值正在飙升。” 你说这将成为未来十年中最重要的技能之一。对于一位坐在印度的大学生，或者说坐在美国某地的在职专业人士而言，你所说的这个具体技能是什么，它将如何演变呢？

Emad：模型本身的发展越来越多样化，它们就像是毕业生或实习生，随着时间的推移会变得越来越专业化。目前，多少大学生能够用以前的技术做出他们今天制作的图像？现在，他们已经这样的具备能力了。你可以看到这里的所有构建块，但这些构建块需要与创造力结合成为服务，这基本上就像管理团队一样。

你有模型团队，提供某些功能的便捷UI节点，有常规化重复的流程，还有一些全新的流程，是你以前从未想过的。你获得了成本节约，同时几乎提高了收入的上限。关键是你接下来要走向哪里。你是在通过全语音、口型同步等将其翻译成世界上每一种语言来扩大影响力，还是通过更好、标准化地进行后期编辑来降低成本，而不是花钱在自动生成的文字记录上？这些可以在组织内部、个人生活中以及更广泛范围内促进商业创新。

我认为这确实降低了门槛，就像无服务器和云技术降低了门槛一样。我们再也不需要拥有自己的服务器，现在你也不一定需要大规模招聘。一小支专注团队就能完成大量工作，比如昨天一个由五人组成的团队发布了最好的代码模型之一，MidJourney的团队只有12人。所以我认为这非常令人兴奋。管理技能是其中一部分，了解如何进行prompt和连接这些模型的能力也是一部分，知道它们的弱点在哪里也是如此。这需要一点点沉浸感，因为你不需要再担心模型是如何训练的，而是关注它们的功能，这和传统的编码有点不同。

Overpowered：如果要给这种技能命名，你会怎么称呼它呢？比如使用这些模型，但不一定知道它们是如何训练的。

Emad：这是一种管理技能，就像我不一定知道你在哪所大学读书或你的背景，但我知道你有一套能力，有你擅长的事情，也有你不擅长的。这是一种管理和组织能力。而随着模型变得更加自主化，它们可以去完成任务，然后回来汇报完成情况，这就像在管理一个团队。

Overpowered：你是说AI只是让世界上的中层管理人员数量膨胀了吗？

Emad：这很有趣，因为大组织的失败基本上在于代理权、责任和问责被分离了，中层管理人员是促成这种现象的途径。因为有人把规格传递给开发人员，而中层管理只负责接口，但他们没有改变任何事情的权力，那么如果出了问题，责任归谁呢？迭代过程是什么，迭代的成本又是什么？现在图像的迭代成本为零，但是你可以真正考虑那里的组合。所以中层管理人员将不会存在，而更像是整合的产品经理，但他们有能力执行自己的想法，并可以根据需要增加计算能力或启动更多Agent。我认为这是个很独立的事情，我觉得团队仍然重要，因为人们有不同的观点，但是再说一次，只要你构建有用的东西，如果最终价值超过成本，那就是一个好的生意。

Overpowered：简而言之，这种技能大概就是沉浸在各种现有的生成式AI工具中，应用并连接它们，从中创造出适用于现实世界的用例。

Emad：对于现实世界中的实际应用案例，再次思考如何让现有的流程变得更便宜、更快或更好。这有点像从原理开始，是工程原理加上产品管理和产品思维的元素。构建东西就是为了完成任务，我一直的方法是，问题是什么，然后我怎样才能更好、更快、更便宜地解决它？没有人反对利用这些技术。为此，你需要每天真正使用这项技术，你会有自己的挫折感，比如这里没用，那边却能用。然后你会想到更多的事情，你就会开始着手解决问题。我们在文章中再次提到，如果你有一群才华横溢的全能者来为你工作，不久之后他们就会变成专家，然后你会如何管理他们？他们不需要睡觉，也不会心情不好，除非你希望如此。他们只是继续做好他们的工作。

建立模型的壁垒

Overpowered：我想聊一聊模型壁垒的问题，如Flux的出现。我有试过这些，输出效果很不错。Midjourney一直以来都是王者，但现在我觉得竞争开始出现了。还记得Stable Diffusion刚面世时，我们都对微调它感到兴奋。不过在微调了一两个模型后，我们很快发现了一个叫Civitai的网站，上面有很多微调模型，从动画风到特定风格的图像效果应有尽有，而且全都是免费的。你可以很快地免费下载任何你想要的模型或微调版本，感觉构建模型完全不需要任何门槛，尤其是对于模型的微调。很多人，尤其是一些进入YC的公司，都通过这种方式认识到了困难。他们觉得可以拿现有的模型进行微调，并以此作为他们的壁垒。但我想听听你的看法，对于那些想真正建立自己的模型的人，他们应该关注哪些壁垒？

Emad：这非常困难，因为基本上就像是说要去创办自己的大学并培养自己的毕业生，那么他们会在哪里找到工作呢？制作一个模型的过程需要大量的计算资源和数据，而算法本身并不复杂。我们赞助的一位开发者是Lucid Reigns，Phil Wang。如果你是一位开发者，去看看他的GitHub可能会哭出来，他超级高产，他用200行PyTorch代码实现了谷歌的5400亿参数的Palm模型。所以算法并不复杂，关键是工业规模的计算、理解和训练模型的经验，再加上一些突破。我一直认为模型创作者会很少，因为这就像学校一样，你创建通用模型，然后通过微调像是在进行CPR培训或市场营销培训之类的课程。

我的观点是我们会朝着更通用的模型发展。当我们发布Stable Diffusion 2时，我们收到很多批评，因为它很模糊，没有做出名人等图像，因为我让团队设置了一个稍高的不安全过滤器，这导致人类图像被删除，但2.1版本解决了这个问题。我们认为人们会依据自己的方向去微调。人们希望有即用、可泛化的东西。他们问在哪里有模式，这些模式就是接受度，能够从中提供服务的东西，所以Stable Diffusion仍然是王者，是现在使用最广泛的。

Flux团队，Black Forest Labs，是原始的Stable Diffusion核心团队，我们实际上是从Stability中衍生出来的，他们会构建优秀的模型，但问题是他们能否建立一个社区，是否会拥有所有的IP、适配器、控制网等，这些都是我们有意提供资助并在Stability建立时所做的。实际的模型性能越来越接近，所以由同一团队制作的Stable Diffusion 38在性能上与Flux模型相差不远，这在他们自己的标杆测试中都显示出来了，SD大型与Flux基本上是一样的，但由于各种原因难以发布开源模型，这在新公司中无能为力。

关于兼容性的问题，所有的东西都可以兼容，可以相互切换，这就是为什么我认为最终只有少数几所大学在创造这些可生效的通用毕业生。我的看法是，Meta将继续开放权重模型以降低其服务成本，谷歌需要继续构建他们自己的智能，因为他们有自己的特殊用例和需求，并可以在通用基础上提供这些服务，因为谷歌的使命是组织全球的信息，使其可访问和有用。英伟达可能很快也会开始推出模型，因为这会刺激对他们芯片的需求。此外，还有像Anthropic等公司参入，但专有模型的比拼有些接近零和博弈，因为智能的成本已经变得非常低，而开放模型基本上已经弥合了这一差距。

我在Shelling AI所做的唯一另一个领域是为受监管行业建立完全开放的模型，尤其是为此提供流量和计算Expertise，以及构建各国和各行业的高质量开放数据集：医疗、教育、法律、会计等等，这些会有监管的印章，你不能用专有模型来进行决策，因为它们可能会被篡改。Anthropic有一个论文叫《卧底特工》，在模型中输入一点数据就能让它按需变灰。

所以我认为每个政府或国家都会想要自己的模型主权，每个公司也会想要。这些将是完全开放的模型，具有开放的数据和权重，这应当是公共的共同利益。再次申明，这也是我现在所从事的工作，但只需一个实体来做到这一点就可以实现开放权重，然后少数实体将拥有这些非常大的模型。除非你采用那个模型然后进行微调，否则这种差距无从弥合。我认为其中仍然有价值，比如你可以使用微调来完成一些工作，正在将其带入数据中心并使用所有私人的医疗数据，或者帮助会计师事务所，或者将这些模型结合使用去实现成果。

但正如我所说的，模型训练真的很难而且昂贵，我们成立Stability的最终目的是资助所有好的开源研究，创造替代方案并提供相应的服务，因为我们从开发者下载量中获得了300多万的市场份额。这个量级我们以前从未见过。我认为在GitHub Stars上，我们在一个半月内超越了比特币和以太坊的总星数。生态系统再次变得疯狂。不幸的是我们在语言模型上搞砸了，否则我们可能会成为语言模型的Mistal Lama。事实证明，Reddit的数据非常糟糕，但即使如此，我也认为观察这个领域如何发展非常有趣。

Shelling AI在各行业的应用

Overpowered：你能用一两句话描述一下Shelling AI吗？另外，可以稍微说明一下具体的使用场景，哪些人会真正使用Shelling AI呢？

Emad：Shelling AI将在官方白皮书中提供更多详细信息，但想法是构建一个开放的分布式AI系统。稍后我们将分享一些额外的术语，我相信有一类模型需要开放数据、开放权重和技能转移。哈佛商学院的Clayton Christian曾说，基础设施是社会存储价值和信息的最有效方式。这些模型拥有的信息对于实现特定目标是有价值的。

举个实际例子，比如癌症。世界的癌症知识应该在一个癌症大语言模型中向所有人开放，完全开源，应该权威全面地更新，尤其是现在语言模型不仅在诊断上优于人类医生，在共情方面也表现更佳。想象如果我们把这样的信息提供给任何经历过癌症旅程的人，但其治理应该是社区化的，最好数据集的治理应反映印度的文化和法律等，这些应由印度人民为印度人民拥有，其他国家也是如此。

这种全球共同知识，类似于高中知识或人类知识，与生物学等专门知识和本地化知识交叉。我认为未来的AI将管理我们的政府、医疗服务、教育等，需要故意构建以反映这一点，这正是Shelling所做的。我们将构建模型和高质量数据集，并为从癌症到自闭症、多发性硬化症、阿尔茨海默病的研究提供资助，同时为每个国家建立国家数据，不是由政府而是由人民与政府合作等，创造标准以实现互操作性，并分享所有权等。

我在洛杉矶提到过这一点，我举的例子是比特币。比特币配置了大量专业计算资源来保障价值存储，但所有计算资源都用于解决无用的方程。比特币每年使用的总能量达到60太瓦时，而全球所有数据中心使用的是350太瓦时。你想想这个，我在想如果我们能做一些类似比特币的事情，利用分布式账本来创造价值，但用这些能量为人类创建开源模型和数据集，并分享其所有权，让任何人都可以贡献他们的边缘计算和超级计算资源。这样如果计算资源过剩，这就意味着我们是边际成本的一部分。

然而，有两件事需要有意去做：一是构建那些帮助政府、教育、医疗等运行的东西，另一方面就是资助所有最佳的研究和研究人员，这样任何地方都不会短缺计算资源。因为我们看到了巨大的成效，我们在Stability中提供了2000万超级计算小时的资助，相当于10个Llama 7Bs，来进行如蛋白质折叠的OpenFold到用于RNN语言模型的项目。

Overpowered：我有个问题，关于你们如何颁发奖励。有没有办法激励医生参与？比如说，涉及到医生和医学知识。你提到全球知识是生物学的基础。我最近得了伤寒，所以了解了一些关于伤寒和沙门氏菌的基础生物学知识。但在更本地化的层面，如沙门氏菌在印度对特定抗生素的耐药模式，这方面的信息可能只有一两篇三四年前的论文提到过。而且，还有很多医生的实际经验。除非你亲自去问印度的医生，他们见过的耐药模式是什么，沙门氏菌在印度某些地区对哪些抗生素有反应，否则很难获得准确的信息。那么，有没有办法激励这些医生分享他们的经验，或者将这些信息纳入数据集？还是说通过间接方式，比如资助一项研究，让人撰写相关论文？Shelling会选择哪种方式呢？

Emad：在从事Stability之前，我进行过一个叫做Kayak的项目，我是该项目的首席架构师，运用集体智能对抗新冠疫情，旨在使用AI组织全球的疫情知识。我在斯坦福大学与世界银行、联合国教科文组织等合作启动了该项目。我们所做的一部分工作是对新冠专家进行匿名采访，了解他们不能公开谈论的问题，从而了解他们的真实看法。

我看到了这些模型的发展方向，因为我们最终想要实现的是一个开放的医疗系统，可以在印度、危地马拉或任何地方使用，将数据密度从医生的手写笔记发展到所有信息都被记录并反馈到全球知识库中。像Melody这样的项目已经进行了联邦学习和医疗保健的尝试，但一旦你标准化模型，并能从结构化数据中提取信息，你就可以抓住本地知识并把它提升到更高的层次。

在Shelling，我们非常实际地研究可以帮助现状的模型。我们构建的癌症模型将向全世界开放，使得再也没有人在他们的癌症旅程或多发性硬化症旅程中孤单。但也要思考从基础原则出发，生成性AI会如何塑造未来的医疗保健，以及从医生到医院应该如何构建，以便拥有一个不断学习的智能系统，教育和其他每个行业同样如此。

Overpowered：个体可以参与系统对吗？

Emad：个体参与系统是因为系统可以去寻找所需的东西，所以你可以在开始时贡献你的计算资源，因为它是算法驱动的，分布式计算可以用于批处理任务、数据增强、模型优化等。超级计算就像巨大的比特币矿工节点一样，因此我们有一个节点系统，就像折叠蛋白项目或者外星智能搜索项目，但会有奖励机制来提供数据、反馈、识别我们知识系统中的空白，哪些数据集需要构建。例如，遗传数据非常偏向白人族群。而这些表达出来的东西，我认为会从根本上改变例如医疗系统，因为医疗系统依赖大数法则。比如，如果你有细胞色素P450异常，这在相当多的人群中存在，你会非常快地代谢可待因成吗啡，以及更快代谢所有药物，这会造成各种细胞色素相关的问题。

由于不能将教育和医疗个性化，但如果我们考虑我们的公共基础设施，我认为需要为每个人提供一个通用的基础智能来支持他们。这主要是因为受监管的行业不能只是由美国运营的黑箱系统，这些需要本地化。我认为这很有必要，就像我们需要互联网，是因为其赋权能力。特别是在印度，现有的基础设施如India Stack、Aadhaar以及来自移动网络的大量数据，非常有可能改变游戏规则。

Overpowered：你曾经在一个采访中称印度将会跳跃式进入AI时代，他们必须这样做，因为外包工作实际上会开始减少。你认为这在未来几年会产生什么影响，这究竟会是什么样子呢？

Emad：从实际来看，你会发现录取率已经有些下降，等级也有所下滑。明年是一切开始的年份，那时候有种迫在眉睫的推动力，你被迫去应对，并需要创造工作机会。不过印度的一个有趣之处在于，身份识别、普及的智能手机使用和高数据流量，都是对AI极为重要的因素。如果现在有在边缘设备上表现出色的模型，它们能被本地化应用，这将有助于创造未来的工作机会，让印度能够在平等的竞争环境中角逐，只要法规和其他因素不会阻碍发展。

你确实需要创建合适的模型以及构造正确的结构。我在一两年前公开谈到，五年内将不再需要程序员了，实际上问题就在于编程本身也在改变。当我23年前开始编程时，我在做汇编，当时没有GitHub，只有几年后才有版本控制。编程在改变，但核心是推动就业的方式。现在，当我们再次看生成式AI以及这些模型被整合到边缘设备并让每个人都可以访问时，未来的编程工作是什么样子？它看起来就是个问题解决的工作。

因此，我们需要教导一种不同的思维模式，但以印度目前的基础设施为基础，我认为这是一个独特的起点，因为你可以在印度的背景下识别个体，再加上India Stack，你可以实现大规模的金融化，因为你的数据成本比世界上任何地方都便宜，所以可以进行各种有趣的流媒体和建模研究，这是其他地方无法做到的。但这需要人们的推动和政府不过多干预。我认为这是一个潜在的机会，我们应该利用这一点。与此同时，未来几年白领工作可能会大幅减少，这也是一种推动力。

Overpowered：在印度，尤其是有些工作，你会看到大家最大的担忧就是，如果中层的白领工作被消灭，比如那些在印度的软件服务公司，那些雇佣成千上万人的大公司，这会留下一个巨大的空白。这时你就不得不开始讨论像全民基本收入这样的东西，因为可能很多人会转向做送货或者开车之类的工作。但一旦这些岗位也不可避免地被自动化，那时候该怎么办？关于全民基本收入，你怎么看？无论是好主意还是坏主意，或者它是否会造成通货膨胀，我觉得每个人都有自己的看法，我相信你也思考过这个问题。希望能听听你的想法。

Emad：这确实非常具有挑战性，这也是我从Stability退下来并加入Shelling的原因之一。我们的计划是成立一些国家子公司，最终由各国人民拥有，以帮助引导这个过程。同时，我们还会设立行业子公司，汇集最优秀的经济学家和其他专家，因为这些问题确实复杂且进展迅速。与西方公司不再雇佣毕业生、不续签服务合同并解雇高级员工不同，这种情况更像是订单的减少。看看菲律宾，为什么还要在印度设立呼叫中心？如今AI客服已经比传统呼叫中心员工更高效，而且成本极低。这一切发展得非常快。

关于全民基本收入，我认为它有其合理性，但人们仍然需要工作，需要有事情去做。我觉得全民基本工作的概念非常有趣。比如阿根廷的Effers计划，提供预算让人们创建社区工作来改善社区，这促进了大量妇女参与劳动力市场。我认为这样的措施更为有效。但在生计和行业受到干扰时，这将是一个艰难的平衡，因为总需求下降后，谁来填补对印度服务的需求？

你已经看到一些增长，比如我来自孟加拉国，因为纺织业的推动，我们的人均GDP超过了印度。印度会被服务业驱动吗？会走向工业化吗？会建造机器人吗？未来的总需求在哪里，印度如何抓住这个机会？我猜测，最终可能不是全民基本收入，而是全民基本工作，因为人们需要有事情去做。我认为这种分配会非常重要，随之而来的货币政策也会至关重要。

在Shelling中，我考虑到AI可能会为我们完成大量生产性工作。这种扩张性的发展，比如管理AI和机器人的群体，它们不会有银行账户，而是通过数字货币进行交易，但不会使用比特币或以太坊，因为这些都不合适。我们必须构建一种新的数字基础设施，它既是共享的，也是互通的，这可能是未来资金的基础，或许是以计算力为基础的智能，虽然不确定，但我认为我们需要一些系统来帮助我们适应这种变化，因为变化总是来得比预期快，这既是机会也是挑战。

Overpowered：正如你刚才所说，我们未来的编码方式会有很大不同。我们将更多地通过自然语言进行编码，几乎就像用英语写代码一样。借助现有的代码生成工具，我们已经能够生成一个基本的网站或非常小的对象。那么，我们距离能够完全生成复杂的技术架构，比如像Uber这样的应用程序，或者在编码时甚至能考虑架构决策的水平，还有多远呢？现在这些工具只能生成代码片段。

Emad：如果你想动态构建一个完整的Uber副本，我会说可以在一年内完成。通过使用Magic和Gemini等大的上下文窗口，以及最新的代码优化工具，如最近推出的Cosign，还有Devon等工具，这是可行的。前提是计算资源不是限制因素。我并不是说只需要几个推理步骤就能实现零样本学习，但如果只是几个实例的话，这仍然只需几年时间。因为如果这些模型像毕业生一样，可以遵循规则，那它们有什么不能做的呢？尤其是有长上下文窗口的情况下。

对听众来说，长上下文窗口的意思是你的提示词有多大，通常以前只能放1000字、2000字或4000字到这些模型里。而现在用新的Google Gemini模型，你可以试一下，可以放入200万字或视频。所以你可以把你的代码库和调试代码的视频一起放进去进行推理，它会将两者结合起来。你可以给它一个架构指南和常见错误，并将其与这些结合。这种多模态输入真是令人惊叹，一旦你开始将它们一起训练，就可以做一些非常不可思议的事情。而测试这一切的成本只是几美元，非常惊人。

AI改变编程模式

Overpowered：软件工程师该如何处理这些信息？他们该如何看待这些变化？如果你是一名刚在印度完成四年大学学习的软件工程师，你知道如何构建一个基本的React应用程序，可能刚刚找到第一份工作，你应该如何看待这种变化呢？

Emad：如果你启动Claude 3.5，然后使用React，你会发现构建React应用变得更快更简单，或者使用Cursor之类的工具。因此，通过拥抱这些技术，你会比同事更具竞争力，并更快更好地完成工作。你开始积累经验，因为AI辅助编码是不可避免的进展。

比如，我23年前在写汇编代码，然后我们开始有了各种库，现在很多编码就像搭乐高积木一样。而且，计算机之间的交流比人类与计算机的交流更高效。你已经看到像Google的TPU这些GPU对等产品部分是由AI协助构建的。现在AI辅助所有的GPU设计和TPU设计，那么为什么不协助编码设计呢？

你可能会看到的第一个应用领域是代码审查，就像不需要自己诊断，而是进行诊断审查一样，法律审查也是如此，一切都会先由AI审查。但你开始在系统中实施这些技术，然后越是熟悉它的缺陷以及无需大量技术能力即可使用它，因为输入是人类语言，你就会越有优势。未来无论如何发展，除非你认为这项技术没有用处，这是一种大胆的预测。

所以，如果你是一名React开发人员，构建更好的React应用、更快速地实现。就像对待从IIT毕业的优秀毕业生一样和它交谈。在提示中说再多想一想，这就是我们通常在提示中放入的内容量。但其实，如果是给毕业生提供指导，你通常会花上几个小时。有人应该做个测试，记录你对一个毕业程序员说的所有内容，然后对比Claude或其他工具的表现，看看结果如何。比如输入几千到一万字。

Overpowered：这更多涉及到地位和生计问题，因为如今虽然可以用AI更快地构建一个React应用，但如果你考虑未来几年，至少构建一个类似Uber的应用将成为基础能力。许多印度的服务公司构建的东西复杂性比Uber略低，并没有达到那种广度。那么，当这个过程完全自动化后会发生什么呢？他们会晋升到工程经理或产品经理的职位吗？或者你觉得会有一些裁员吗？

Emad：React是什么呢？当你了解React工程师的工作方式时，你会发现他们并不是直接编写React代码，他们使用的是各种库。这意味着他们已经提升了一个层次。如果你回顾五到十年前，那时候还没有这些库和框架，我们在使用的是纯JavaScript。如今使用React就是向前迈进了一大步。

关键问题在于你的客户希望你完成什么工作。市场上仍然需要应用程序和产品，但是做生意时你不得不思考，当客户能轻易访问这些技术时，他们会使用它吗？答案是，大多数情况下他们不会。因此，如果你能提供这项服务并展示在该领域的专业知识，你仍然可以继续向他们推销服务。

这种演变就像十年前的Flash，当时有多少Flash开发者？如今又有多少？过去所有的Miniclip游戏都是用Flash制作的。你会随着技术的发展而升级。但在某些领域，像Cobalt和Fortran这样古老的技术依旧需要专业知识。尽管这些技术本身没有更新，但有些旧的软件或政府系统仍然在使用它们。

然而，这项技术的潜力和危险在于，你可以用我们的稳定代码模型将几百万行代码转换成Python，并进行单元测试和类似的工作。这曾是一个庞大的架构挑战，但现在可以做到。这意味着你可以更新过去无法更新的Fortran代码库。如果你召集一批顶尖的工程师，他们应该思考：我们现在能做什么过去无法做到的事情？因为他们无需再面对人际沟通问题，突然间软件工程挑战的范围和可以开发的项目类型都得到了扩展。

正因如此，当我们考虑打造以AI优先的政府、教育、医疗等领域时，同时发布开源的数据集和模型，使每个人都能将这些模型整合到现有项目中。这些模型充当了翻译引擎，比如你可以在代码之间进行转译，就像可以用图像模型把我的脸移到你的脸上一样。这些模型嵌入了上下文，我们将大量数据压缩成一个小文件，提供了无限的商业可能性和更高价值的业务。我认为这就是人类进步的方式。

对于AI未来发展的思考

Overpowered：我认为在这个领域，我们常常感受到的基本情绪是“太疯狂了”或“太不可思议了”。但你认为我们是否正在接近一个阶段，即这种情况将不再发生？至少在最近，关于AI热潮是否即将破裂的讨论和文章很多。我看到这其中有两个角度：一个是收入角度，很多公司目前还没有真正实现大量收入，这是一个短期问题，而不是一个长期问题，因为这些公司的价值最终会被挖掘出来。但我更感兴趣的是，我们是否正在接近一个技术平台期？无论是在计算能力还是某种能力层面上，你认为这些模型会不会在某个点之后停止进步，我们无法跨越ANI（狭义人工智能）与AGI（通用人工智能）之间的鸿沟？

Emad：关于AGI和ASI的讨论是一个复杂的话题，我们暂且搁置不谈。我们已经看到模型的饱和，如果仅仅考虑计算能力，那么谷歌会胜出，因为他们拥有比英伟达芯片更好的互连TPU，并且可以在训练中扩展到数百万个芯片。而且你会看到这些巨大的超级计算机正在被建造，比如埃隆·马斯克的10万个H100，仅芯片就花费了35亿美元。

但如果规模是唯一的因素，我们就会朝一个方向发展。然而，我们看到这些模型在其基准测试中已经饱和。比如，当你尝试Flux作为最佳图像模型时，你还需要更多吗？可能不需要。当SD3发布时，我就说过这可能是最后一个伟大的图像模型，假设SD3 8GB 80亿参数已经发布，因为你不需要更多了。

这就是所谓的“满意化”概念。一旦你达到Claude 3.5、GPT-4o、MidJourney或Flux的水平，你在模型上已经不需要更多了。然后你专注于优化，精确地找出如何替换数据，榨取每一滴性能。现在我们进入了这项技术的工程阶段——提炼它，使其更小，但也要使其有用。唯一重要的是这个模型是否有用。以Flux为例。你还希望图像模型能做什么呢？它可以成为一个管道的一部分，检查任何错误，平衡并进行构建。对于图像，你不再需要更多了。

Overpowered：你需要更好的提示遵循性。如果提示很长，有些部分可能就是不适合，就不会出现在图像上。尤其是非常长的提示。而如果你看过Ideogram，那个来自Imagin团队的，它的提示遵循性比今天的SD3要好得多。但我觉得你说得对，随着时间推移，一年内会有一个模型能更好地做到这一点。所以你已经接近顶峰了。

Emad：你已经从核心问题转向边缘。你可以输入一个语言模型来重构提示，进行场景的分段分解。谷歌在这方面做得很好，你可以规划出来，然后提供选项，进行逐步处理。现在模型本身作为这种翻译引擎已经足够好。比如，仍然有很多人使用SD 1.5，因为它足够好，并且有完备的生态系统。就像我们仍然在玩《Team Fortress》，尽管这是一个基于其他东西的模组，但它能完成任务。所以，你怎么能期望从GPT 4o到GPT 5的巨大飞跃呢？它们只是在提示遵循性方面会更好。

通过连续学习过程，CL 3.5已经比以前有更好的遵循性，而下一个模型会比这一代更好。这使得AI和ASI的未来变得不那么清晰，因为现有模型不会有大幅提升，架构会有所改善。因此，你看到谷歌和OpenAI等公司从自回归模型转向MCTS（蒙特卡洛树搜索）这类模型，就像某些程序在DOTA中击败人类一样。这是因为agent开始协同工作，比如最近研制的一百万专家系统，它将检索率从60%提高到95%。OpenAI的功能性输出与JSON一起使用时，能达到100%的协议遵循。还有MoMoa架构，你可以通过最佳模型路由查询。因此，现在的问题是系统设计和设计模式。

基础模型会有所改进，但我觉得我们达到了数据的饱和点。一些架构改进，比如阿联酋推出的Falcon，与昨天推出的38b Llama相比有更好表现。它使用了状态空间中的Mamba，结合了滑动窗口注意力机制。此外，还有一些目前尚未发布的架构即将推出，速度更快。

但问题是，你是否真的需要更多？我们总是喜欢更新的GPU之类的，但如果我能在MacBook上玩《暗黑破坏神4》或《艾尔登法环》，那么就够用了。所以我认为，我们正在达到一个“满意化”点。接下来会让人震惊的是这些模型组合在一起的能力和设计模式。今天你看到有AI科学家出现，尽管他们不算太好，但这是依然是一个shock，但这将成为常态。比如人们将Flux与Gen 3结合，你看到有人在活动中发表讲话，你可能会质疑这是不是AI。虽然才过了两年，我们已经习惯了从文本生成图像这个过程。

Overpowered：归根结底，一切都回到了映射叙事上。你对Open AI的Strawberry模型感到兴奋吗？你觉得那会不会是让我们都惊讶的东西，让我们迫不及待地想要去体验？

Emad：说实话，我一直都被AI的东西弄得有点超负荷，真的很难跟上。我觉得它会变得更好，但不会是那种疯狂的突破。我认为对于更好的数据、构建计算、更好的反馈数据调优，这些我们已经大概知道现在的方向。作为一名视频游戏投资者，我曾经关注玩法的时间流和挫折感。所以，这些技术和模型越能增强我们的能力，就像Stable Diffusion原本是很愉快的使用体验，虽然有错误，但无所谓。

我认为这次会更好用、更友好，但我不期望会有重大的改进，因为我们已经达到了数据所能提供的极限。如果我们成功创建了反映全人类的开放数据集，并能够进行个性化定制，那么我觉得那将是令人难以置信的集体智能。我们可以做各种各样的事情，但是现在你的数据受到限制，不是在大数据问题上，而是在个性化数据上，通过这些反馈循环让AI为我们服务。我认为这可能会是下一个突破，当AI真正理解你的时候，你可以信任它成为你的伙伴。

Claude做得不错，但Claude并没有在学习。除非你写了一个很大的prompt，这其实很有趣。Google偷偷推出了Gemini Flash供开发者自由调优，这意味着你可以使用Google顶级模型进行调整而无需费用。我想，当人们意识到这一点时，会开始疯狂地实验，因为你可以进行大规模的模型个性化之类的事情。但是目前还没有人把Gemma 2B这种性能极佳的模型放到笔记本上，并配上自递归反馈循环，通过对话学习你的信息。这可能是这些模型的下一个步骤，这些超个性化模型适应你的文化、国家、个人想法和数据。

对话是有上下文的，它有记忆，能够理解你，就像一个毕业生能够理解你一样。我说这些是有才华的毕业生，但有才华的毕业生就像金鱼，他们不会回头去从以前的经验中学习。但我们现在有技术做到这一点，比如动态LoRA创建答案AI已经推出并实现了。这是设计空间的问题，你从来没有一个助理可以用你需要的语气和方式引导你度过一天，这会产生深远的影响。

我为自己编程创建的一个编码助手中，加入了我喜欢的顶尖程序员的代码风格，它可以在不同的风格之间切换。我在编程时就跟它聊天，就像变换的角色。这种东西以前是无法实现的，是否让我成为更好的程序员可能没有，但绝对让编程变得更加愉快。

Overpowered：你觉得这个会有更好的形式出现吗？是通过眼镜还是作为一个朋友之类的来实现？你觉得这个的形式会改变，还是会以手机的形式存在？

Emad：就拿印度来说，你看看Jio这些公司，印度是个非常注重语音交流的社会，所以我认为那里的反馈循环大多是通过语音实现的。而像日本这样的国家，有些设计更偏向于视觉。但现在的设计空间是非常开放的，这让人很兴奋。我觉得语音非常强大，比如我就不喜欢用Siri，因为Siri很烦人，但苹果的智能会变得更聪明。它是一个三十亿参数的模型，可以进行动态LoRA调整。就像Stable Diffusion技术一样，他们会为你创建个性化的LoRA，这将是我所描述的第一个例子之一。语音会变得越来越好用，成为你生活的一部分。

但就像我说的，为什么人们不尝试动态UR生成？为什么不在不同模态上进行实验呢？这不需要多少花费，即使在消费能力相对较低的印度，这种智能的价格也非常低廉，这真是不可思议。比如最新的Gemini Flash每百万字的成本大约是15美分，与GPT-3相比这个成本真的很低。

Overpowered：尤其是在边缘计算上，除了设备的价格外几乎不需要什么成本。谷歌的Pixel手机真的在推动设备上的计算，他们希望至少能够让较小的模型流畅运行。

Emad：就以印度的例子来看，比如TCL手机和其他一些品牌，现在的Gemma 2B模型在最新的预算手机芯片上运行速度比你阅读速度还快，耗电量也很低。这个2B模型比最初的GPT-3（1750亿参数）表现得更好。它的表现类似于最初的FL 70B。这是架构设计的一部分，我们需要模型发布的速度慢下来，达到像SD 1.5这样的水平，以便进行适应和构建，得到可预测的输出。因为如果不断改变潜在空间，结果会非常混乱。比如，我说的新标准可能会是Flux 12B，但因为Chel是一个蒸馏模型，所以调整有点困难，而Dev更容易，因为它也是个蒸馏模型。

如果发布了稳定扩散AB8，该模型可能会成为业界标准，因为它既够好又够快，可以大规模应用。这类似于Llama在语言模型上的标准化，但由于语言模型需要比生成模型更高的精确度，目前它们仍处于实验阶段。然而，一旦我们有了标准，Gemma 2B就会是一个很好的起点。今天，他们发布了他们的2B模型，这是一个受到关注的亮点，显示出了良好的表现，尽管训练只完成了一半。我还不明白为什么这个模型没有更大规模的发展，也许我能提供一些帮助，这样就可以带来一种非常好且可预测的体验。你可以观察智能手机的发展方向，如苹果在iPhone的神经引擎上使用的3B模型，来考虑相对的模型规模。需要同步和实时处理的部分可以在本地处理，而一些功能可以通过云端获取，其他则可以在充电时批处理。这是一种非常有趣的设计模式上的变化。

再简单一点，我认为内容正在商品化，模板代码也是如此。但正如我们所描述的，还有更多的空间来创造菜谱，成为一名厨师而不是炊事员。尤其是因为典型的React工程师不相信他们能创造出什么，甚至是为了乐趣去制作自己的React应用，因为他们没有时间，而现在他们可以。所以我认为要拥抱你的创造力，认识到你是有创造力的，然后去解决一些以前无法解决的酷问题，或者制作一些有趣的东西。

Overpowered：最后一个问题。2023年，我们看到大型语言模型和图像模型在质量上取得了爆发式的增长，今年它们仍在不断提升，也许还要再过一到两年，但它们确实在2023年迅速崛起。而2024年至今，视频模型和3D模型到了一定程度上是这一年的亮点。你觉得2025年会如何？你认为在2025年会有哪些领域迅速崛起呢？

Emad：那将是Agent的一年，你可以派这些模型去执行任务，它们完成后再返回，而不是同步处理。我认为会是动态模型定制的一年，持续学习会变得普遍，而现在这种方式还很少。我认为会是多模态的结合，包括链条和模型本身，各种输入和输出的训练，但当你将其链接起来时，会有对任何场景或文章的全方位控制。当你写作时，应该能够从高层次深入到主题扩展，尝试不同的变体，给它不同的指令，这种控制现在才在语言和代码中出现。

你之前问到的关于构建Uber级别应用的问题，AI应该能够带你通过各种抽象层次，任何事情都能做得比人类更好，这现在应该是可能的，只是我们还没实现。而且我认为这些模型在基础层面会标准化，变得非常可预测。当然仍会有更大的模型出现，但我认为，我们暂且不谈AGI和ASI，因为它们是复杂的话题。我认为我们基本到了这个阶段，就像一个视频游戏，现在已经出了Alpha版，进入Beta版，我们还在等待大规模发布，再进行修改，这是一个有趣的看法。

文章来源于“Z Potentials”，作者“Overpowered ”

深度｜对话Stability创始人：视频技术已进入工程阶段，2025年将是Agent元年

关键词: Stability , AI视频 , Agent , 智能体 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。
项目地址：https://github.com/black-forest-labs/flux
在线使用：https://fluximg.com/zh

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0