近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。AI基础数据服务可加速高质量数据的获取与标注,推动AI算法的创新与持续优化,是AI产业发展的重要支撑。基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。
在过去几年里,大众已见识到GPT、BERT等大语言模型在自然语言理解和生成方面的卓越能力。相比单一模态的大模型,多模态大模型能够提供更自然的人机交互方式,具备更全面和准确的认知能力,并在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应用。因此,多模态技术已成为诸多大模型厂商的研发重点。此外,长文本处理能力的提升,使大模型在理解和生成复杂文档方面表现更佳,能够更好地支持多主题和多步骤的推理任务;通过知识蒸馏、模型剪枝和混合精度训练等技术,大模型得以小型化,减少了计算资源需求,提高了推理效率,使大模型在资源受限设备上高效运行,提升了响应速度和用户体验,保护了用户的数据隐私。聚焦国内AI商业化市场,大模型商业化进程加速,API市场竞争激烈,价格战频现,但同时也反映出供应商间能力同质化的问题,亟需破局;另一方面,央国企凭借较好的数字化基础、丰富的数据资源及业务场景、相对充足的科技投入预算,成为现阶段国内大模型项目建设的主力军,推动了大模型在中国AI产业的商业化落地。
在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。
根据AI基础数据服务厂商LXT对322家有AI项目经验的美国企业的调研,训练数据的资金投入占这些企业的AI整体建设投入的15%,61%的企业认为未来2到5年对数据的需求量将会增加,62%的企业认为数据质量比数据量更为重要。LXT的调研结果揭示了企业在AI建设过程中对高质量数据的迫切需求。鉴于AI基础数据服务厂商在高效提供高质量数据集方面的专业能力,它们已成为AI研发企业的重要合作伙伴,AI基础数据服务已是推动AI产业发展的关键支撑。
AI基础数据服务厂商是专注于为各行业的AI算法训练与调优提供基础数据产品服务的公司。这些公司通过提供标准数据集、定制数据集和配套产品工具服务,支持互联网、大模型、智能驾驶等各领域的AI技术发展。数据集按内容格式可分为文本、图像、视频、语音等类型,核心生产流程主要包括方案设计、数据采集、数据清洗、数据标注和数据质检等五个关键环节。标准数据集是由数据服务厂商研发并可多次销售的数据集;定制数据集是依据客户需求制作特定数据集,数据的知识产权归客户所有;配套产品工具服务包括标注工具、实训平台及AI模型评测等软硬件工具服务,用于满足高效标注数据、培训数据标注、评估AI能力效果等不同层次的客户需求,辅助和延展数据服务厂商的相关业务。
算法模型从理论到实践的应用过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推理的结果就越可靠。在本报告的讨论中,传统AI泛指Transformer架构出现之前的AI架构,参数量通常相对较小,大模型架构则以Transformer为代表。作为应用大模型架构的代表,ChatGPT在2022年11月上线以来,掀起了AI乃至社会经济各领域对大模型的研讨与应用的热潮。与传统AI相似,大模型依然需要大量优质数据,但其所需数据量更大,数据维度更加多元,标注方式及质量评判标准也更为复杂多样。
纵观业界开源及闭源大模型的能力特性,结合艾瑞对大模型研发企业的调研,虽然当下主流大模型应用仍相对侧重文本输入、文本输出的能力,但对图像、视频、语音等多模态数据的使用已越来越普遍,艾瑞预计大模型训练数据中多模态数据的占比将在未来数年持续提升。根据艾瑞对部分通用大模型及综合型AI厂商的调研,目前大模型的训练数据主要来源于公开数据、网络爬虫数据等可公开获取的数据,其次是采购数据。相比大模型初创企业,综合型AI厂商凭借现有的互联网应用和AI业务积累,具备独特的数据优势。在模型的通用能力建设方面,公开数据和爬虫数据已被广泛利用,未来这两类数据在整体上的提升空间相对有限,Epoch AI等机构的研究人员于2024年6月更新的论文中表示,大语言模型将在大约2026至2032年之间耗尽所有公开的文本数据。艾瑞预计,大模型研发厂商将通过更多的采购数据来提升模型的通用能力;而在垂直场景优化及行业客户的拓展中,公开数据和爬虫数据仍有较大的获取提升空间,大模型研发厂商也将更多地利用客户侧的合作数据,增强模型解决行业特定领域或企业特定问题的能力。
随着大模型技术的快速迭代及其在众多领域的广泛应用,相关评测需求同步增长。对于模型研发企业,评测是发现模型在功能、性能、安全性和可靠性等方面优劣势的关键步骤,并可与其他企业的模型横向对比,进而针对性地优化模型,提高其表现和稳定性;对模型应用企业而言,评测是选型和项目验收的重要工具,通过专业评测服务,企业能够评估模型的实际应用适用性,确保所选模型满足需求,并保障定制类模型项目的交付质量。相较传统AI,大模型的应用空间更广,评测本身也更加复杂和多样化,市场对专业评测服务的需求潜力巨大。公开评测基准和商业化评测服务的发展,将为大模型评测提供重要支撑,促进技术与产业的健康发展。
在大模型和端到端技术的加持下,智能驾驶的自动化程度不断提升,相关功能已成为部分消费者购车时的重要考虑因素。除个别厂商专注于纯视觉路线外,当下高级别的智能驾驶系统中,摄像头和激光雷达是两大核心传感器。摄像头主要捕捉二维图像,具有高分辨率和丰富的色彩细节;激光雷达则通过发射和接收激光脉冲生成高精度的三维点云数据,能够精确测量物体的距离、尺寸和相对位置,受光照等环境条件影响较小。摄像头和激光雷达等各类传感器各具优势,互为补充,数据标注需对来自不同传感器的数据标签对齐和交叉验证工作。AI基础数据服务是支撑智能驾驶、大模型等AI算法研发的基石,而AI算法也大幅提升了智驾研发领域数据标注的效率和效果,为数据服务行业的发展注入了新的活力。数据与AI彼此支撑、相互促进,共同推动着自动驾驶的实现。
AI基础数据服务产业的中游即数据标注等数据服务的供应商,包括专业厂商及云厂商两类,其中后者以支持内部算法研发及云业务客户需求为主。上游提供原料数据、人力资源支持及IT基础设施,其中人力资源服务供应商主要包括垂直做数据标注的厂商和综合IT类厂商两类,目前业界通常采用远程线上服务即云BPO的模式进行人力支持。下游为数据服务的需求方,包括大模型、智能驾驶等各行业各领域投入AI算法研发的厂商。
基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。在需求侧,随着AI算法研发从面向特定任务领域的小模型向具备更强通用泛化能力的大模型过渡,数据服务需求企业将产生大量高质量、多模态的数据需求。同时,随着大模型在通用及垂直场景中的应用拓展和智能驾驶等AI技术的规模化商业落地,良好的商业回报将进一步推动需求侧加大对基础数据的投入。在供给侧,随着数据要素等相关支持政策的持续深化,服务商将加快数据源的获取及数据集的制作。数据工程技术、数据标准规范、标注方法等日益成熟,人才生态及服务软件平台的自动化、流程化也在不断完善,供给侧的供应能力和服务质量得以加强。综合供需两侧的情况,艾瑞预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。
延续艾瑞在2020年中国AI基础数据服务行业研究中的供给方划分方式,本报告将供给方分为需求方自建团队、品牌数据服务商、中小数据服务三类。其中,有AI基础数据对外服务的云厂商最为特殊,因其所属集团的内部AI算法研发所需的数据服务,可能由云服务业务线、算法研发业务线的内部标注团队,以及外部的品牌和中小数据服务商等四种团队承接。在艾瑞对供给方的市场份额统计中,云服务业务线的对内支持计入需求方自建团队的市场;因云服务厂商具备较大的市场影响力、相对完善的服务软件平台,将云业务线对外部厂商的数据服务计入品牌数据服务商的市场。
相比4年的市场份额情况,中小数据服务商的整体市场份额下滑约41%,需求方自建团队上升36%,品牌数据服务商上升5%:传统AI数据标注市场竞争激烈,而大模型、智能驾驶等新兴项目体量较大需要较强的综合服务能力,叠加疫情影响,较多中小数据服务商已退出市场;在大模型、智能驾驶等新兴AI算法及对应标注方式快速迭代时期,为追求更高的开发效率、保障信息安全,较多需求方通过自建团队满足数据服务需求;未来随着品牌数据服务商的数据版权的丰富、专业能力的提升、标注方法的成熟,品牌数据服务商将承接更多的数据服务需求。
据艾瑞调研统计,2023年中国AI基础数据服务行业的CR4(前四大企业的市场份额)为22.0%,市场仍较为分散。相比2019年14.3%的CR4,中国AI基础数据服务市场在2023年的集中度显著提升。展望未来,随着大模型等AI技术的发展,数据服务的需求日益庞大且复杂,这对服务企业的综合能力提出了更高的要求。没有自动化软件平台或平台能力较弱、资源整合能力有限的厂商将面临生存空间不断被挤压的困境;高质量数据版权丰富、运营管理能力强大、行业理解深刻的头部数据服务厂商有望持续提升市场份额。
在行业集中度不断提升的过程中,基于自动化平台不断强化项目运营及资源整合能力、深刻理解行业需求,积极应用前沿算法、积累高质量数据集版权的AI基础数据服务厂商,将在激烈竞争的市场中脱颖而出,赢得市场领先地位。
由于大模型对数据集的要求更加复杂、高质量数据需求的增加,以及需求方对数据安全及保护核心技术的重视,AI基础数据服务行业面临诸多挑战,包括数据标注工程师的门槛提升、项目管理复杂性增加、项目规模大、高质量数据获取困难、信息安全问题等。尽管面对挑战,行业也迎来了新的机遇。大模型等AI技术的快速发展带来了高涨的数据需求,推动了AI基础数据服务市场的增长,高质量数据集成为供应商的核心竞争力,此外,多模态数据集的需求也将增加。凭借精细的流水分工和日益精准的AI算法,数据服务软件平台在行业中的价值不断提升,平台可帮助服务方更好的满足需求方的高质量数据需求,应对好人力及项目管理方面的挑战。
本文来自微信公众号“艾瑞咨询”(ID:iresearch-),作者:艾小妹
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai