如果你是 SenseAI 的老朋友,或许还记得我们在 2023 年 6 月底发布了第一篇文章。八个月以来,我们聚焦前沿的深度 AI 产品和行业研究,共发表了 86 篇原创文章,35 个产品分析。在波动的信息浪潮中收敛、沉淀对 AI 应用的认知,也是我们一直以来的初衷。平时有一些朋友问这些文章是怎么写出来,我更愿意把 SenseAI 同样当作一款产品,是在对海量 AI 信息过滤、收敛、重塑过程中的一种创造。下面回顾 SenseAI 创造的背景、分享自己的产品研究框架,文末提供过往产品研究的文章地图汇总。
感谢你的关注。
“
本篇正文共 5949 字,仔细阅读约 12 分钟
放大器与智力放大器
自古以来,人类创造、发明了各种工具,好奇心与对更美好生活的向往驱使着我们发现与创造新事物,而这也构成了我们的文明史。
我们的好奇心驱使我们去创造,用更少的资源做更多的事情。(Our curiosity drives us to create and do more with less.)
—— Mustafa Suleyman, Inflection CEO
在控制论的理论中,“放大器”指的是一种系统或机制,它能够增强输入信号的强度,以便在输出端产生更大的效果。同时,放大器也可以是任何能够增强人类能力的工具或方法。从生产力与创造力的角度来讲,科学技术的发展涵盖了不同“放大器”的发明史,包括体力放大和智力放大。
体力放大:
智力放大:
而如今我们所说的人工智能放大了什么?
1956年 的达特茅斯会议
人工智能(Artificial Intelligence),这一概念的首次提出其实是在 1956 年的达特茅斯会议。麦卡锡、香农和神经学系的彼得·米尔纳等等来自不同学科背景的专家汇集在达特茅斯学院热血地探讨如何让机器模拟人类智能,包括问题解决、推理、学习和语言理解等能力。六十年来发展至今,人工智能聚焦在基于特定任务的分类、预测算法。直到 OpenAI 2023 年 3 月发布 GPT-4、今年 2 月发布文生视频模型 Sora,我们从自回归式的 next token prediciton 中看到了大规模模型对世界的理解和泛化。
生成式人工智能,通过不限制场景的信息交互,放大了我们获得并理解不同模态信息和对不同内容形态进行创作的能力。
产品研究的起点与初衷
2023 年是生成式人工智能的元年,技术弄潮儿在模型下一个输出的无限性中尝新。当对新技术的欣喜逐渐褪去,产品的使用会回归到用户实际的需求与场景,但与此同时,在 Gen-AI 这一新的变量下,AI 产品需要更大胆的思考和对模型与用户更深入的双边洞察。
走到用户中去,回归产品背后用户实际的需求与场景,这便是自己决定从早期投资转向产品经理,并同时通过 SenseAI 进行产品研究与分享的初衷。在更接近用户、业务的同时深耕产品研究,同时持续发现并带来最前沿、有趣的 AI 产品。
在 AI 应用层面,幻灯片是最先被市场关注的赛道之一,也是我产品研究的起点。去年六月份,国内早期投资的热度逐渐从基座模型转到中间层,应用层创业领域开始出现各业务场景套壳的想法,而以 Tome、Gamma 为代表的 AI+PowerPoint 领域可以算是最先被验证的 AI 产品。
Tome 继 2021 年获得种子轮 630 万美金和 2600 万的 A 轮融资之后,在 2023 年又获得了 4300 万美元的 B 轮融资,估值达到 3 亿美元,融资金额超过 Gamma 成为当时新秀的 AI+幻灯片 产品。在深度体验拆解了 AI+幻灯片 领域的 Top3 产品(Gamma、Tome、Beautiful.ai )之后,我切身感受到想象力开始变得贫瘠, AI 的加成真的可以让创作只需要想象力,内容创作类生产力工具也得以拓展至更多群体。在生成式能力涌现的背后,对产品及其赛道的研究应核心关注 AI 之于此产品与行业的角色和带来的变化。
加上自己过往沉淀的投资+产品视角,在确定了产品的研究框架后共创伙伴招募开始,半年多来以每周 3 个左右的频率共研究了 35 个产品。我们研究的产品覆盖 AI 赋能的各个领域,下面将依次分 Infra、2B 和 2C,提出个人认为各领域下的重点方向并对目前所研究过的 35 个产品进行地图汇总。其中重点划分出“to-超级个体”类产品,包含工作流与内容创作场景。
产品研究框架
Infra
一个针对 Gen-AI 的新基础设施架构正在出现,以安全、可靠、低成本的方式训练、部署和维护 Gen-AI 模型会成为企业级和消费级应用的基础。在基础模型层之上,可以将基础设施层分为三部分:AI+测评、AI+Ops、AI+数据。
1. AI+测评|模型评估框架:企业将需要获得工具和专业知识,以帮助评估针对哪种用例使用哪种模型。开发人员需要决定如何以最佳方式评估特定模型是否适合 "待完成的工作"。评估需要考虑多个因素,不仅包括模型的性能,还包括成本、可实施的控制水平等。
2. AI+Ops|运行和维护模型:帮助企业训练、微调和运行模型(尤其是长尾模型)的平台将会出现。以前训练机器学习时,这些平台被广泛称为 ML Ops 平台,如今这些定义也会扩展到 Gen-AI 领域,比如 Databricks、Weights and Biases、Tecton 等平台在朝这个方向发展。
3. AI+数据|增强系统:模型,尤其是托管的 LLM,需要检索增强生成以提供理想的结果。这就需要做出一系列辅助决策,包括
B 端产品
什么是一个企业级应用的护城河?以前,随着软件工程与信息系统的发展,规模效应、网络效应、深科技/IP/产业积累、高转换成本和品牌/客户忠诚度是技术公司的传统商业护城河。如今,智能系统有望成为企业级应用的护城河,Gen-AI 技术让系统得以跨越、整合多个数据集和多个记录系统。
AWS 的网络效应与规模效应飞轮:
一个产品的规模越大,产品拥有的运营杠杆就越多,反过来会降低产品的成本,比如SaaS和云服务。而亚马逊网络服务(AWS),同时具有规模效应和网络效应。客户和数据在 AWS 上存储运行-->更多的应用和服务得以在 AWS 上构建-->提供解决方案的基础设施生态系统吸引更多的客户和开发者-->更多应用和数据上云。
—— Jerry Chen,Greylock
企业系统的堆栈可以分为记录系统和参与系统,记录系统代表一系列数据库,在企业里包含三个主要的记录系统:客户、员工和资产,分别对应客户关系系统,人力资源管理系统,企业资源计划系统/财务管理管理资产系统。参与系统指用户和记录系统之间的接口,即我们通常所说的“入口”。
在企业级智能系统的构建中,应重点关注特定领域数据与工作流的整合与重塑,包括数据层,即不同记录系统的数据收集与整合,包括传统行业和公司的大量非结构化数据。
同时,应当关注细分领域的智能系统构建,即垂直业务场景的模型智慧,这也是在产品汇总表格中对其业务场景进行分类的原因。从目前研究过的 B 端产品来看,除了通用业务领域的工具,招聘、电商、医疗和代码是最先发展成为智能系统的四个业务场景。
工作流:AI+RPA
随着 LLM 可以理解并处理各种复杂信息,原来我们所说的 RPA 主要在企业侧基于特定任务的工作场景,现在流程自动化有能力拓展到更复杂多样的消费级场景,比如 MultiOn,创始人 Div 和 Omar 创建这个产品的初衷是源于自己生活中的痛点。他们希望技术能帮助自己处理掉生活中的琐事,从而更好地投入到创造性的活动,或者和家人朋友的陪伴中。
MultiOn 的初衷
MultiOn 的创立背景
Div 同时从事三份高要求的工作,他在斯坦福讲课,在一家机器人创业公司工作,同时还有一个他自己的副业。在忙于这些极其需要创造力工作的同时,他免不了还要处理各种生活中乏味重复的琐事,因此他希望能存在接管这些琐事的软件。
Omar 是一个环球旅行者,他在环球旅行中不断追逐他创业和技术的目标,他的旅途经过了叙利亚首都大马士革、柏林、伦敦再到帕罗奥图,在旅行的过程中他总是在思考技术帮助他快速在一个新的环境安顿和适应的可能性,就像家乡的家人和朋友一样提供系统性的支持。
需要注意的是,对于流程自动化在 C 端或者更复杂或模糊的 B 端场景,AI Agents 在实际应用中要应对的场景通常远比 Demo 中复杂。这种复杂不仅会来源于任务本身或 AI 的能力限制,也可能因为用户指令的不明确、非常规的交互逻辑等外部因素而产生。
C 端产品
前面提到参与系统,对于企业而言,Microsoft Teams 和钉钉是公司员工的参与系统,而对于 C 端产品而言,参与系统代表用户使用产品的入口,比如微信已经成为我们最主要的参与系统,我们在微信上存储的各种数据包括与人的关系链和聊天记录、朋友圈,构成了微信的护城河。
技术的发展会带动出现用户与应用的交互方式,我们与程序的交互方式也从基于命令拓展至图形界面交互系统。在交互方式的发展迭代中,拥有参与系统的所有权最有价值。一个应用如果可以成为满足用户更多需求的入口,它便能覆盖更多用户的更多参与。
如今,聊天可能会成为一种新的参与系统。好比如我们下一个外卖订单会关心外卖能否及时送达而不是它使用了哪个数据库,在聊天这个入口能够稳定地满足用户细分需求的时候,我们也更愿意使用自己的 AI 助手来叫外卖或者做旅行攻略,而不是打开单个应用程序。
考虑到 C 端用户对不同需求场景的应用准确度与稳定性偏好不同,未来可能会整体形成两大入口,一个“有用”,联动搜索和 RPA 做信息收集、整理和任务执行,另一个入口足够“有趣”,为用户带来各种个性化的有趣体验。“有用”场景下包含搜索、教育、购物电商,考虑到他们各自对应的独立知识领域,可能会出现整合细分领域的独立入口。下面将产品分为“好玩”、“有用”,此外在满足用户“好玩”或”有用“需求的同时,会通过过程中人与人的联结来满足用户的”陪伴“需求。
For fun: AI+创作 |游戏|社交(陪伴)
“当一种新型媒介技术在一个文化中出现时,将会促成一种全新文化的诞生,而不是旧文化在新媒介上的简单呈现。”——波兹曼。
2023 年出现过三次面对各种内容生成能力感受到自己脑洞“有限性”的时刻,第一次是用 Gamma 想写一个有趣的幻灯片故事却不知从何起笔,第二次是用 Suno 写首歌,第三次是用 Tldraw 画一幅“有代码”的画。当然与之对应的,是被 AI 创作之“无限性”惊喜,比如可爱熊熊 Rilakkuma 是如何统治世界的,一首关于上海的歌和一场随笔触实时流动翻滚的浪潮。
我的 AIGC 作品
我们说模型即产品,是指模型对下一个 token 的预测能力决定着产品功能。Gen-AI 技术让各种模态的内容创作成本和门槛大幅降低,想法到实现的距离缩短,创造的边际成本趋近于零。
2023 年出现的内容创作模态和研究过的相应产品包括图文(Gamma、Tome)、图片(Midjourney)、视频(Pika)、音乐(Suno)、网站与软件开发( Trace.ai,Tldraw,Durable)。整体而言,目前的产品还处于“玩具”阶段,实现了基础的生成能力。未来在不断打磨模型能力和稳定性的同时,应当重点关注产品层面的交互性和可迭代性。当然最近 Gamma 发布了网站生成能力,回看近一年的产品迭代,也可以看得到产品的体验进步。
理想的创作产品应当是模型作为用户创意的副驾驶(copilot),通过交互设计和创意发散来降低用户创作第一个作品的门槛,并通过生成可编辑的输出辅助用户完成迭代的全过程,最终实现某种形式的自我表达。
“工业革命奖励的是高强度的劳动,信息时代奖励的是清晰的思想,而人工智能革命奖励的是极致的品味。”正如 Tinder 的 CPO ,Brian Norgard 所言,AI 将放大每一个内容创作者的生产力,包括优质内容的生产效率。也许到那时,当内容的质与量可以同时得到满足的时候,区分优秀创作者的标准之一会是他的品味或者审美(taste)。
AI+社交
对于社交产品而言,Airchat 是近半年看到的 AI 真正赋能人与人交流过程的产品。声音是最古老的媒介,这是纳瓦尔为自己创建的一款异步语音社交产品。A dinner party in your pocket,口袋里的晚餐盛宴,很多人第一次在这里通过真实的“语音”感受到纳瓦尔和自己的距离如此之近并实现和纳瓦尔的异步交流。同时借助 AI 实现语音的实时翻译,很多人也第一次听到带有自己音色的流利英文口音。
对于虚拟人陪伴产品,其“人-bot”的关系无法等同于“人-人”的关系带来的自我表达、价值认同与社交比较需求,这类产品在此不做讨论。
For use: AI+搜索|教育|电商
有用即解决用户的日常需求,包含学习/教育、购物和信息搜索。在这三个领域,我们也分别研究了头部产品 Perplexity、Speak 并通过分析营销的各环节来探讨 AI 如何重塑电商的全流程。
对于搜索产品而言,人们搜索信息背后的诉求是为了解决问题,为了能搜索到更准确或更需要的信息而选择搜索工具。
人们获取信息的方式随互联网算法的发展依次经历了互联网前杂志时代的无差别内容、电子邮件、互联网时代的目录(如像雅虎通过编辑对内容配置目录服务)、网址、关键词直接搜索。最早,以电台广播为代表的传统电子大众媒体只允许单向的交流。由于它的结构是中心化角斗场式的,信息的传递类似单方向射出的放射线,也因此无法形成互动。互联网信息技术发展,人们同时成为信息的接收者和生产者,我们进入“去媒体化”时代,博客(Blogs)、推特(Twitter)、脸书(Facebook)和小红书、即刻这样的媒体剥去了交流的媒介。现今的言论社会和信息社会建立在这样的一种去媒体化的交流基础之上。
如今,AI 让信息搜索不再是关键词和链接的单向匹配,而是一种直观而精确的双向对话。Perplexity AI 是搜索领域最头部的产品,它拥有深刻的产品洞察和极快的产品迭代,是 2023 年最为关注的 AI 产品。通过深入研究 Perplexity 看搜索与搜索引擎的未来,我们认为搜索引擎有望成为一种新的内容平台,而任何需要和外部信息互动的场景,都可以期待 LLM 的重构。
我们的关注者至今覆盖了投资人、创业者和其他 AI 关注者,其中当一些忠实读者得知这些都是在工作之余写出来的会觉得惊喜。SenseAI 是一个以 AI 产品深度研究为主的共创团队,这也是我们的“智力放大器”。
共创伙伴合照!
在这里,我会分享自己的产品和赛道研究框架,共同发现最前沿、有趣的 AI 产品并以周为单位带领大家进行深度研究。半年来我们的共创小伙伴已经建立了某种默契,成为了一个散步各地但充分凝聚高效协同的团队。
共创团队现在开放少量招募,如果你把 AI 当作长期的热爱,喜欢在海量信息中沉淀思考、探索“真相”,喜欢写字,欢迎带上你最喜爱的产品和自己的过往研究填写下方问卷进行报名。
如果你是我们的读者,希望我们的内容会对你有所帮助。欢迎来赞赏,打赏金将作为共创团队的咖啡基金,当然也欢迎来喝咖啡,一起开源认知。
附:产品研究目录
1. Infra
2. B 端产品
3. C 端产品
文章来自于微信公众号 “深思SenseAI”,作者 “ la Vela ”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner