很少有人喜欢他们用来完成工作的软件。这并不奇怪。无论是幻灯片制作工具、视频编辑器还是照片增强器,如今的工作工具都是几十年前构思的,这一点显而易见!即使是同类产品中的佼佼者,在实际工作中往往也会感到过于不灵活、不成熟,或者学习曲线陡峭、难以掌握(我们正在看着你,Adobe InDesign)。
生成式AI为创始人提供了一个完全重塑工作流程的机会,并将催生一批新的公司,它们不仅仅是AI增强现有业务的公司,而且是完全AI原生公司。这些公司将利用我们现有的技术从零开始,围绕人工智能独有的生成、编辑和合成功能打造新产品。
表面上看,我们认为AI将帮助用户更高效地完成现有工作。AI原生平台将 "提升 "用户与软件的互动水平,使他们能够将技能较低的任务交给人工智能助手,把时间花在更高层次的思考上。这不仅适用于传统的上班族,也适用于小企业主、自由职业者、创作者和艺术家--他们对时间的需求可以说更加复杂。
但是,AI还将帮助用户在技术和审美层面上释放全新的技能组合。我们已经从 Midjourney 和 ChatGPT 的代码解释器等产品中看到了这一点。现在,每个人都可以成为程序员、制作人、设计师或音乐家,从而缩小了创意与工艺之间的差距。每个人都可以成为新一代 "专业消费者",获得专业级但又方便消费者使用的人工智能工作流程产品。
在这篇文章中,我们将重点介绍当今和未来最成功的生成式AI 原生工作流的特点,并对我们如何看待这些产品的发展提出假设。
生成式AI原生内容工作流产品会是什么样子?
所有采用 生成式 AI 原生工作流程的产品都有一个共同的重要特征:将最先进的模型转化为易于使用、高效的用户交互。
工作流工具用户通常并不关心产品背后的基础架构,他们关心的是产品如何帮助他们!虽然我们在生成式AI方面取得的技术飞跃令人惊叹,但成功的产品最重要的出发点仍然是对用户及其痛点的深刻理解。AI可以抽象出什么?哪些是需要审批的关键 "决策点"?以及哪些是最具影响力的点?
我们认为这类产品将具备几个主要特点:
另一个例子是 Durable 的网站建设产品,该公司称迄今已使用该产品创建了 600 多万个网站。 用户输入公司名称、部门和地点,Durable 就会给出一个网站供用户定制。 随着 LLM 的功能越来越强大,我们希望看到像 Durable 这样的产品能从互联网和社交媒体的其他地方获取有关企业的真实信息--历史、团队、评论、徽标等--并通过一次生成生成更复杂的输出。
ElevenLabs 的有声读物工作流是另一个很好的例子。 您可以使用该工具为特定的人物配音,为书中的章节进行旁白,然后通过调整句子或短语的停顿、稳定性或清晰度来完善输出。
从面向外部的角度来看,这些产品可以让用户公开自己的工作流程,供他人在此基础上迭代。这可能是一系列提示或模型组合,或者只是一个 "复制 "按钮,供技术水平较低的用户模仿输出或审美。
面向专业摄影师的编辑平台 Imagen AI 就是这方面的一个例子。该公司根据每位摄影师的个人风格训练一个模型,让他们能够更轻松地进行批量编辑。不过,用户也可以选择按照行业领先摄影师的风格进行编辑,这些摄影师已在该平台上提供了自己的资料。
下一代专业消费类工具的出现还为时尚早。虽然现有工具生成核心资产的能力终于强大到足以添加有意义的工作流,但大多数产品仍然只专注于一种类型的内容,而且功能相当有限。以下是我们希望在未来几个月看到的几种产品:
1.结合多种内容模式的编辑工具。视频可能就是最好的例子。如今,用AI制作一部短片需要在 Pika 或 Runway 等产品中生成多个片段,然后将它们转移到 Capcut 或 Kapwing 等另一个平台上进行剪辑或混音(或添加从其他地方生成的声音!)。
如果您能在一个平台上完成这一过程的每一步,会怎样呢?我们预计,一些新兴的生成产品将能够增加更多的工作流程功能,并扩展到其他类型的内容生成--这可以通过训练自己的模型、利用开源模型或与其他厂商合作来实现。我们还可能看到一种新的独立AI原生编辑器出现,它能让用户 "插入 "不同的模型。
2.采用不同互动模式的产品。Prompt并不总是与人工智能产品交流的最有效方式。我们认为,你应该能够像与人类头脑风暴伙伴合作一样与生成工具合作,无论是通过语音、草图还是分享灵感照片。
我们尤其对语音这种方式感到兴奋,因为它可以让用户分享更复杂的想法(或者只是以文字无法实现的方式滔滔不绝地表达)。此类产品已经开始出现,Oasis、TalkNotes 和 AudioPen 都能将语音笔记转化为电子邮件、博客文章或推文。我们期待音频甚至视频作为输入源出现在更多的工作流产品中,改变用户完成工作的方式和时间。
3.将人类和AI生成的内容视为平等的产品。我们希望看到能让您同时处理AI和人类内容的工具。现在的大多数产品都只专注于其中之一。例如,它们能很好地增强真实照片的效果,但对AO图像却无能为力。或者,它们可以生成新的视频,但无法增强或重新调整 iPhone 中的剪辑。
在未来,我们预计大多数专业内容制作者将混合使用AI和人工生成的内容。他们使用的产品应该欢迎这两种类型的内容,甚至能让它们更容易地结合在一起。Runway 的编辑工具就是一个很好的例子。你可以从公司的生成模型中提取素材和图片,也可以上传真实资产,在同一时间线上使用。然后,您可以在这两种内容上使用该公司的 "魔术工具",例如内画和绿屏。
我们在这里重点介绍的内容工作流产品,只是未来专业消费软件的一个重要组成部分。我们认为,在AI时代,生产力工具的重塑时机同样成熟。
原文:https://a16z.com/the-future-of-prosumer-the-rise-of-ai-native-workflows/
文章来自于微信公众号 “AI工程化”,作者 “ully”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0