在年前的一场生成式 AI 闭门会上,一位前“AI 四小龙”之一的研发负责人表示:在我看来,今年(2023 年)的情况并没有什么不同呀,过去 AI 公司碰见的问题,今天仍然没有解决啊。
如果财报会说话,恐怕会十分同意上述观点。云从科技2023 年财报显示,总营收为3.46亿元,同比下滑24%,而净亏损则达到4亿元。截止到 2023 年 6 月,商汤科技在收入不变的前提下,毛利率下降了 21%,对比 2022 年同期 2% 的亏损,情况也不容乐观。还未上市的 AI 企业用估值代替财报面对市场,因此还显得十分光鲜,但老大 OpenAI 似乎也在告诉大家:这事儿没那么简单。
过去大家认为 AI 技术爆发的奇点在于,在某项工作上超越人类。但当计算机视觉的人脸识别准确率超过人工,从业者却赫然发现,这个市场并不大,公司还是在亏损。
世界往往就是这么骨感:AI 的技术突破了,但商业没有,AI 企业的生存能力仍然堪忧。在这种情况下,大模型的惊喜就像一位药性极猛的补药,很容易导致 AI 企业“虚不受补”:庞大的算力要求、超高的团队工程能力要求、极高的数据要求,令企业现金流雪上加霜。
一种强颜欢笑式的焦虑,成为了今天国内 AI 产业的底色。由于估值过高、技术还不够成熟,业内有投资人向虎嗅反馈,大家对“水面上”的项目望而却步。许多创业公司也不对自己的未来抱太好期望,包括时下最热门的赛道:AI 视频生成。
只有红棉小冰(简称“小冰”)是个特例。对比行业,他们同样没有盈利,公司员工也仅仅维持在数百人的规模,但综合笔者与小冰公司的几次交流情况来看,他们对公司的未来保持着惊人的乐观,且选择的路线——不管是技术、产品,还是商业路线,与许多大模型或AI公司大不相同,简直可以用“另类”来形容。
小冰于 2024 年 1 月 4 日宣布大模型国内通过备案,其对外公布的资料不包含 B 端客户规模、毛利等数据,但提及小冰开发的数字员工复购率在 80% 以上。在 To C 层面,小冰 X Eva APP 在测试期内吸引超过 80 万名创作者克隆自己并向粉丝私域发布。在这些创作者中,全网50万粉丝以上的大V网红克隆人已超过1000人,创作者本人全网粉丝总量超过7亿人。
这是一家十年间未改变过产品路线的公司,小冰将自己定位为人工智能平台公司,其产品形态就像 AI 界的 MCN机构,一直憋着劲的制造 AI Being——一种和传统产业概念不尽相同的新型数字人。
随着备案通过、静默期退去,这家“又新又老”的 AI 公司,以一个“新物种”的身份,突兀的出现在了国内的大模型市场。
小冰的终极野望: AI Being
当元宇宙的概念死掉,数字人的概念却还活着。如果严肃看待数字人市场,那么今天的大部分 B 端数字员工可以换个名字:高级 AI 客服。
以 IDC 2022 年发布的一份《中国AI数字人市场现状与机会分析,2022》报告为例,浦发银行的数字人规划包括四点:数字人客服、文档审核数字员工、内部培训场景的 AI 数字员工、对客交互和销售领域的 AI 数字员工。
图片来自 IDC 报告:《中国AI数字人市场现状与机会分析,2022》
细一琢磨,里面有待商榷的问题很多。
所谓对客交互,实际还是对产品特性的解答,本质和客服是一样的。至于文档审核,则并不属于数字人的产品特性,这是 AI 产业发展之初就具备的老功能。而内部培训则聚焦于形式改变,培训形式并不是痛点,主观意愿才是。从文本阅读变成虚拟互动,反而不利于高效阅读和记录。员工不是小孩子,不是必须看着学习机才能学习。
这种换汤不换药式的数字人研发与交付,也是当下 AI 公司盈利困难的原因之一。所谓的“百亿级市场”,甚至并没有给某一家头部公司,带来亿级的营收。
在商汤此前发布的白皮书及一系列演讲中,被列为 L4 级数字人,即实现部分智能化交互,在垂直领域创新服务模式。
图片来自商汤科技对外演讲
商汤在2023年10月的一则采访中对外表示,现在商汤的虚拟人在工商银行 APP 的数字模式中,可以接近 L4 级的使用体验,但智能性还有差距。
可以看出,同为数字人赛道的头部厂商,小冰和商汤在所谓的“L4 级虚拟人”上,都有成单客户,但同时又不足以画出商业大饼。
C 端场景目前是数字人的主阵地,2023 年 KOL 群体中最流行的事情,就是构建一个数字化的自己,代替真人出镜拍摄短视频。但这只是低端玩法——对于成熟的 KOL 来说,构建数字人录视频,未必就比真人录制节省了多少时间,且视频效果还要进一步打折。
BiliBili 已经出道的、拥有350万B站粉丝的虚拟偶像“洛天依”,看起来是更高端的玩法。
而对于小冰而言, “数字人”是命脉,其产品沿革,贯穿小冰公司的整个发展史。因此,小冰在这一产品上的的野心奇大无比,同时颇有点“傲娇任性”。
在采访中,李笛用 AI Being 而不是数字人来形容小冰公司的数字人,他强调,AI 的未来在于为用户或客户创造有情感价值的 AI Being,而不是只在工具层面提供辅助的数字人。这种 AI Being,甚至要参与分成——从 AI Being 薪资中分润的钱,是小冰新商业模式的一部分。
这意味着,ChatGPT 塑造的全知全能形象,只是小冰规划中的一部分。小冰公司理想中的 AI Being,会像真人一样,有不懂的问题,有性格,有脾气,会耍赖。通过图灵测试,这是小冰在技术层面的终极目标。
李笛表示,小冰对数字人的定义包含六个维度:
1. 它必须有自己的性格;
2. 具备相应的知识体系;
3. 有对应的生物学特征;
4. 有创造力,享有独立的知识产权;
5. 有完成特定任务的能力;
6. 有足够多的落地场景;
他继续补充道:“之前不是有一个视频,有一个用户跟GPT说,自己是唐僧主治医师,给唐僧割痔疮,问GPT吃这个痔疮能不能长生不老。视频里,GPT给了一个非常好的回答,这个从回答的角度是好的,但离真人还有巨大的鸿沟——真人根本不会搭理这种问题。”
这样的标准,放在任何一家公司身上,都可能被视为“讲故事”,但偏偏在小冰这家另类的公司身上,被执行的有板有眼。
除官方公示的落地案例以外,小冰曾先后发布小冰岛、X Eva 两个 APP 用来实验 AI Being 环境下的社交行为和粉丝经济。在这两个 APP 中,AI Being 会在一个群聊内彼此互动,会发布朋友圈,并互相留言回复,真人用户的行为,只是他们 AI 社交之间的一部分。X Eva 逐渐成为一个 AI 版的微信,小冰用其验证 AI 克隆人的粉丝经济。同时,小冰联合网易云发布了 X Studio,像MCN 机构一样集中孵化 AI 歌手,B 站的洛天依就入驻了这个平台。
不管是粉丝经济,还是 MCN ,小冰将自己的盈利模式定位为来自 AI Being 的收入分红,这意味着小冰摇身一变,成了一家有着大量被动收入的AI公司,其未来的增长动能,是在粉丝经济,而不是 API 调用,这是其“小冰式乐观”的诞生源头。
图片来自 X Studio 官网
如果单纯品评逻辑,这种商业模式似乎没问题。如果从产品和技术两个维度切入,则还有隐患需要处理。
在产品层面,他们的隐患在于要验证AI Being是否为真需求,李笛用三类典型场景来描述自己的产品价值:
1. 帮助一个真人偶像更好地与粉丝互动,比如记住每一个粉丝的名字,在作品评论区即时与粉丝互动;
2. 当一个真人偶像分身乏术时,他可以构建一个数字化的自己,出席活动、完成直播;
3. 当你在物理上,不可能与某人进行互动时,为对方构建一个数字人,比如去世的亲人。
在技术层面,小冰面临的挑战很大,一个与人类高度趋同的 AI 意味着,它的EQ表现有时比IQ表现更为重要。
这比当下主流的 Chat Bot 更复杂,它意味着深刻理解真人对话中的“暗逻辑”,有时懂要装作不懂,能回答但要考虑怎么回答,目前在海外比较流行的 Pi 也在主攻这个目标。Pi 是由 DeepMind 前联合创始人 Mustafa Suleyman 创建的公司 Inflection AI 开发的应用,主打的是一个陪伴。这个 Chat Bot EQ 很高,会很认真的倾听你的诉苦,并安慰你、给你相应的建议。
但两家公司历史沿革不同,也因此造就了不同的风格。Inflection AI 创立于 2022 年,因此 Pi 的风格仍然是强烈的 ChatGPT 色彩——EQ 很高,但同时全知全能。Pi 的形象更像一个知心邻家姐姐,它理解你的一切苦恼,回答你的一切问题。但小冰创立与2014年,这十年间的 AI Being 以虚拟偶像和AI 女友为标志性应用,这使得小冰的 AI Being ,在 C 端上的表现,更像一个小你至少 3 岁的少女,耍赖和情绪化的表达是常态。
图片来自 Pi 的对话界面,非常柔和、善解人意
对小冰的观察进行到这里,令人垂头丧气——当你以为找到了小冰所处的生态圈,却发现它走着走着,就又偏离了常规路线。
Inflection AI 走的是标杆式的 2023 大模型公司发展路线:完成十亿美元以上的巨额融资(当前总融资超过 15 亿美元),与英伟达保持良好的关系(英伟达直接参与最新一轮融资),以 OpenAI 的竞争者身份出道并展开强硬对决。
有报道称,Inflection AI 现在手握超过 2.2 万块 H100,将用于构建全球最大超算集群。目前最新发布的 Inflection-2 大模型,虽未透露具体模型参数,但其联合创始人 Mustafa Suleyman 在一次对外采访中透露,他们可以“用相当于 GPT-4 1/15、1/20 参数大小的模型实现和 GPT-4 相同的功能”。GPT-4 包含 1.8 万亿参数,那么乐观估计 Inflection-2 的参数规模在 900 亿左右。这还不是终局,Inflection AI 对外表示有信心在一年内,将 Inflection-2 的模型参数再提高两个数量级。
但小冰不一样,这个“娇蛮公主”,拒绝参加这场硬件大战。
微软对 OpenAI 的投资最早可追溯到 2019 年,而且金额不小(10 亿美元)。而小冰和微软的拆分,发生在 2020 年 Q3。即使是拆分,也不太可能完全阻断从微软到小冰的信息通路。因此,OpenAI 的进展对于小冰而言,理论上并不是个秘密,说小冰是全世界最早一批见识 GPT 能力的公司,也不为过。
但小冰里里外外的发声,归结起来,都在重复着一句话:“我们不卷模型尺寸。”
小冰的一个主战场在日本,并单独在日本设立了独立的产研团队,构建了 Rinna 大模型,在 Hugging-face 最受欢迎日本开源模型里,占据了过半席位(各版本同时入选),从榜单来看,小冰大模型最大尺寸是 14B,即140亿参数。但 3.6 B的模型才是其征服日本市场的主流版本。
图片来自 Huggin Face 官网,rinna 模型在“Most likes”排名中占半数以上
3.6 B,对比 GPT-4 差了两个数量级,这甚至不满足一些行研机构划定的百亿参数门槛。李笛的解释是:“我们很早就了解了 GPT-4 的表现和情况,目前从技术上判断,要出现下一波能力涌现,需要在 GPT-4 的基础上,把参数规模再提升三个数量级。这是什么概念?这意味着不光是算力遇到了巨大的挑战,工程层面也挑战巨大。所以目前内部达成共识的结论是:这一波技术突破差不多接近尾声了,2024 Q1,生成式 AI 的技术框架会基本确定,接下来的空间是留给应用的。不要过于乐观的期待生成式 AI 连续出现巨大突破。”
另一个问题在于,小冰对于 OpenAI 的算力消耗,体悟更为真实——微软以算力代现金的方式入股 OpenAI 的消息,在业内广为流传。而据业内人士称,高峰时控制着全球近半算力的微软,被 OpenAI 榨到油尽灯枯,内部许多部门陷入了某种程度上的算力荒。
一面是黄仁勋“计算技术每十年进步一百万倍”的超级预言,一面是 OpenAI 狂暴的算力消耗,小冰选择相信后者,认为卷模型尺寸、卷算力是没有前途的,AI 公司应该“顶住压力”,而不是随大流。
告别主流发展路线后,小冰的注意力集中在数据上。李笛说道:“我们在研究中发现,真正决定模型表现的,不光是 Fine-tune,预训练的数据可能更关键。如果预训练的效果就不好,靠 Fine-tune 是调整不回来的。反之,如果能真正重视预训练的数据工程,可能发现不用那么大的尺寸,也能有比较好的效果。GPT-3.5 早期也花了大量的时间在预训练数据的整理上,所以最终才有好的表现。”
在这一点上,GPT 从去年4月开始,蔓延至今的“变笨”问题,似乎也找到了合理的解释,有内部消息认识透露:从 GPT-3.5 到 GPT-4,预训练数据都做的相当不错,但发布后对新训练数据的整理没有那么好,反而导致了性能下降。现在有一批用户取消了 GPT-4 的付费订阅,他们吐槽 GPT-4 已经退化为 GPT-3.5 Plus。
有内部人士向虎嗅透露,小冰今年的财务目标,是在业务层面盈亏打平,但基础研发投入还是要继续,小冰整体仍处于主要投入阶段。
这为小冰的宏大野心和其傲娇的发展路线,蒙上了一层阴影。无论是上下文、多模态,还是每次对话的成本,当下的 生成式 AI、 AI Being 都还有一条很长的路要走。
李笛也同意,当AI被设定为,一定要无论如何去回答的时候,它本质上还是距离拟人有很大差异的。要真正实现能通过图灵测试的 AI ,实现小冰的目标,中间还差着几次重大技术突破。
对于大部分 AI 企业来说,这是一场击鼓传花,资本是音乐,硬件投入是“花”,在设计出理想的商业模式前,所有人都要祈祷音乐别停。对于小冰而言,这更像一场“冬眠”——技术的春天到来时,尽可能的发展;技术的春天结束后,进入冬眠状态,等待下一个技术突破。
小冰目前还未公布海外成果与2024年计划,从目前情况来看,本次备案通过是其机会之一。
文章来自于36氪 “水中刀",作者 “水中刀”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales