在AI大模型初创企业普遍还处于入不敷出、疯狂烧钱的阶段时,一家专注于AI数据服务的初创企业已经赚得盆满钵满,成为收入最高的AI创业公司之一。
据外媒近日报道,总部位于旧金山的美国初创企业Scale AI 2023年年化收入达到7.5亿美元,为前一年的3倍。得益于AI大模型的发展,Scale AI的业绩收入也如同坐上了“火箭”,一跃成为收入可以与OpenAI比肩的AI创企之一。不过,与直接提供大模型服务的OpenAI不同,Scale AI主要从事AI训练数据标注服务,是大模型时代的“卖铲人”。正如为大模型提供算力支持的英伟达备受资本追捧一样,提供数据支撑的Scale AI也得到了投资人的青睐。目前,Scale AI的估值已达到73亿美元(约526亿元人民币),成为AI数据标注领域遥遥领先的独角兽。
公开资料显示,Scale AI成立于2016年,主要为人工智能训练提供数据服务,创始人为华裔青年Alexandr Wang。据媒体报道,Alexandr Wang的父母均为物理学家。他从小就表现出了杰出的数理天赋与才能,曾被麻省理工大学录取,但在出色地完成第一年学业后便选择了辍学创业,与Lucy Guo共同创办了Scale AI。
值得注意的是,Scale AI创业初期就得到了创业孵化公司Y Combinator的支持。彼时,Y Combinator的总裁为山姆·奥特曼,也即OpenAI的联合创始人及现任首席执行官。
Scale AI主要从事的AI训练数据标注,通俗理解,就是通过分类、画框、标注、注释等对图片、语音、文本、视频等原始的数据进行处理,标记对象的特征,以作为机器学习基础素材。比如,如果要训练AI识别出图片中的狗,则需要采集大量有关于狗的图片,将其中的关键信息标注出来,供AI识别,在多次识别的过程中让AI形成识别各式各样的狗的能力。
与高级、洋气、科技感满满的AI大模型相比,数据标注工作一直被视为“脏活儿”和“累活儿”,被贴上“劳动密集型产业”的标签。所以,Scale AI也被外界评价为“在最洋气的行业干着最接地气的活儿”。正因如此,Scale AI的成功一直存在争议,曾有业内人士犀利指出,“Scale AI不是一家AI创企,它只是一家提供廉价劳动力的公司”。
事实上,由于数据标注对于人工有大量的需求,而美国的人力成本十分高昂,Scale AI在东南亚、非洲等地区设立了一些外包机构,培训大量的数据标注员。据媒体此前报道,Scale AI的外包公司Remotasks支付给标注员的薪酬很低,位于肯尼亚的标注员薪酬只有每小时1到3美元。
不过,作为驱动人工智能大模型发展的三驾马车之一,高质量标注数据是训练深度学习算法的“燃料”。在大模型持续迭代进化的带动下,大模型厂商对于高质量标注数据有着持续、强烈的需求,带动Scale AI的业绩不断提升。PayPal联合创始人彼得·泰尔也是Scale AI的投资人,他曾高度评价Scale AI:“在激烈的竞争中,AI公司们会出现又消失,但是Scale会一直存在。因为Scale AI提供的是整个AI/ML(人工智能/机器学习)行业的基础设施,数据是这个行业最重要的东西。”
记者梳理发现,Scale AI从创立至今,融资过程可谓顺风顺水,而且融资金额节节攀升。创办伊始,Y Combinator向其提供了12万美元的投资;2017年,获得了450万美元的A轮融资;2018年,成功完成1800万美元的B轮融资;2019年,再获1亿美元C轮融资;2021年1月,完成1.5亿美元D轮融资;同年4月,顺利完成3.25亿美元E轮融资。至此,Scale AI用5年的时间将估值水平提升至73亿美元的水平,成为AI数据标注领域的独角兽。
Scale AI的客户群也很庞大,除了有Meta、OpenAI、微软等科技巨头外,Alphabet的自动驾驶汽车公司Waymo、通用汽车的Cruise、丰田汽车Toyota、Uber都是Scale AI的客户。
Scale AI的成功,一直让国内的AI数据标注企业颇为眼红。由于AI数据标注本质上是人力“内卷”的生意,人工越便宜,接到的订单就越多。很长一段时间以来,国内AI数据服务商都难以摆脱“行业内卷”和“价格战”的困境,这一领域的初创企业生存境况普遍比较艰难。
一名业内人士分析,中国的AI数据标注行业主要有两种形态:一种是科技大厂自建数据标注团队,直接使用自身掌握的数据进行标注;另外一种就是专门的数据标注服务商,这些服务商大多数都是中小公司,承接大公司的标注任务。据介绍,由于自建团队更能保证数据安全,科技大厂的核心数据基本使用自建团队来标注,而边缘数据则交给第三方处理。
“科技大厂依托自身的数据优势,往往更青睐自建团队。剩下的那些零星需求,只够养活一些小公司,还不足以支撑起一个规上企业。”该业内人士表示。
除此以外,美国由于人力成本高,除了在海外设立外包公司提供相对低廉的数据标注服务以外,还需要通过技术方式解决数据生产问题。近年来,Scale AI就一直致力于提高数据标注的效率,公司研发的自动标注工具能够通过算法自动标记图像和文本数据,大大减少了人工标记的时间和工作量。虽然通过初筛的图片和文本数据还要经过人工二次筛查和标注,但这种人机配合的方式大大提高了标记效率。
相比而言,中国依托人口红利,人力资源获取极为便利,人力成本也比美国要低得多,数据服务商并没有很强的动力去发展相关的技术。曾有第三方数据服务商向记者表示,在许多标注项目中,甲方所提供的数据标注工具往往不够完善,降低了标注的效率与质量。于是,公司便干脆用线下的标注工具,通过增加人手等方式保证项目的完成。虽然短期是完成了项目,但技术并未得到积累,如此循环,以低价取胜的“堆人力”模式便难以破除。
事实上,早在去年大模型风口刚起时,一些数据标注初创企业就进入了投资人的视野,获得了融资。但记者梳理发现,与像Scale AI这样的行业独角兽相比,国内数据服务初创企业所获投资额相对较少,也还没有形成比较强的盈利能力。曾有一名国内的数据标注企业负责人公开表示,公司与Scale AI“在业务模式、团队背景上均存在不少相似之处,但大洋两岸的企业服务环境和投资人特点存在差异,使得国内数据标注难以突破。”
在多种因素的影响下,Scale AI的成功目前在中国还难以复制。不过,随着大模型的快速发展与变化,未来中国能否跑出能跟Scale AI媲美的数据标注独角兽,答案依然值得期待。
文章来自微信公众号 “ 证券时报 ”,作者 周春媒