中国生成式AI的“物种大爆炸”

10656点击 2024-03-07 10:27

行业应用迅速落地，大厂领跑新赛道

生成式AI在中国的发展究竟是快还是慢？

最近国外的Sora风头正劲，让不少国人产生了悲观情绪。其实，国内生成式AI也在迅速的发展中，就在Sora发布后不久的2月18日，网信办发布了第四批深度合成服务算法备案信息，从中可以一窥我国生成式AI的现状。

什么是深度合成服务？是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术，包括但不限于：

（一）篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术；

（二）文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术；

（三）音乐生成、场景声编辑等生成或者编辑非语音内容的技术；

（四）人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术；

（五）图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术；

（六）三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。

《互联网信息服务深度合成管理规定》是在2022年11月3日审议通过的，在不到一个月后的11月30日，ChatGPT就横空出世了。

中国生成式AI的“物种大爆炸”

图片来源：网信办

不难发现，深度合成服务的概念与生成式AI有很大的重合——半年后我国发布的《生成式人工智能服务管理暂行办法》中，定义生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。

按照规定，在我国境内提供深度合成服务，需要进行相应的备案，从2023年6月至今，已经有4批备案，合计546个算法，可以说是迎来了生成式AI的“物种大爆炸”。

中国生成式AI的“物种大爆炸”

从图不难看到，算法备案的数量和频率都在上升，第四批备案距离发布第三批备案仅有一个月，算法数量也从129个增长到了266个。其中，服务技术支持者和服务提供者累计下来分别为151和395个。（深度合成服务提供者，是指提供深度合成服务的组织、个人；深度合成服务技术支持者，是指为深度合成服务提供技术支持的组织、个人。）

01.大厂成为主力军

在这些算法中，既有来自互联网大厂的，也包括垂直领域的领军企业，还有一众的创业公司。

先看服务技术支持者，算法备案数量的前十名基本都来自大厂，在后面的榜单中，也有科大讯飞、京东科技、出门问问、360、猎户星空等知名互联网公司。相对来说，对外提供技术服务的门槛要高于自用，会出现这种情况也就不奇怪了。

中国生成式AI的“物种大爆炸”

去年大模型爆火，备案的546个算法中，大模型的算法足足有70个，不过大多数都是企业用于自身业务的，对外提供技术支持的仅有19个，并且包含多个垂类大模型，通用大模型为数并不多，可见“百模大战”有些名不副实。

中国生成式AI的“物种大爆炸”

再来看服务提供者，由于数量过多（395个），就不一一列举了，重点说一下大模型，表单中的内容和上表有些许重合，比如百度的文心大模型，因为有的大模型既可对外做技术支持，也可以用于自家的产品。

中国生成式AI的“物种大爆炸”

值得一提的是，2023年生成式AI的浪潮中，腾讯表现的较为低调，却在技术支持者榜单中数量排名第一。除了技术力量强大外，大厂涉猎的行业多，因此有更多的落地场景，可以身兼“卖水人”和“掘金者”两个角色，例如腾讯，深度合成服务算法备案中，囊括了人脸融合、语音合成、绘画、P图等多个领域。

中国生成式AI的“物种大爆炸”

与之类似的是网易，作为服务技术支持者，算法涉及图像、语音生成、文本生成、三维场景等多个行业；作为服务提供者，算法则服务了有道词典、逆水寒手游等应用。

中国生成式AI的“物种大爆炸”

但要说自身应用算法最广泛的大厂，则莫过于阿里巴巴。可能源于组织拆分的缘故，阿里巴巴对外提供技术支持的算法都来自达摩院，但淘宝、钉钉以及天猫等，又都有各自的算法备案。DoNews向达摩院了解到，淘宝、钉钉等大部分技术来自于自研，也有部分技术有达摩院提供或者联合研发。

中国生成式AI的“物种大爆炸”

百度的文心大模型是目前国内大模型的领军者，在数字人、语音合成及识别、文生文/图、人脸融合等领域都有算法，不过在产品层面就明显单调许多，只展现了文心一言大模型的App和网站。由此可见，单纯看算法数量，并不能全面体现企业的AI能力。

中国生成式AI的“物种大爆炸”

华为云则是彻底走“2B”路线，目前拥有6个算法备案，全部作为服务技术支持者，主要分为两类：盘古及MetaStudio（数字内容生产线）。

中国生成式AI的“物种大爆炸”

02.行业应用加速落地

通过整理算法备案的资料，我们还发现另一个情况，生成式AI在互联网领域迅速扩展，并在向更多垂直领域蔓延。

比如，电商就是一个重点发展大模型的行业，阿里巴巴旗下的电商最积极拥抱AI。

中国生成式AI的“物种大爆炸”

短视频领域也大量应用了生成式AI技术，抖音和快手一如既往是领头羊，应用场景集中在特效、合成、换脸几大方向。

中国生成式AI的“物种大爆炸”

传统行业也在积极拥抱生成式AI，比如医疗健康，应用主要集中在健康咨询、医疗内容生成上。

中国生成式AI的“物种大爆炸”

2024年开年，AI手机成为了热点话题，OPPO和vivo都提前进行了大模型的算法备案。

中国生成式AI的“物种大爆炸”

此外，不少令人意想不到的行业，也在应用生成式AI。比如家电巨头TCL，看似和生成式AI不沾边，却通过TCL智能文本生成算法，在APP中根据用户输入的文本内容，生成产品说明和使用指导。

在教育领域，好未来一共备案了多达8个算法，既有自用也有对外做输出的，展现了强大的科技实力。母婴行业，宝宝树孕育（APP）应用的宝宝树母婴家庭领域大模型生成合成算法，可以根据用户提出的备孕育儿问题，生成备孕育儿等相关知识内容，输出文本内容回复。

还有一个重要的落地场景，就是汽车行业。年初的CES上，奔驰、宝马、大众等汽车厂商都展示了融合最新AI大模型技术的车机系统，比亚迪也在近期推出了全新的整车智能化架构“璇玑”及其AI大模型“璇玑AI大模型”，“智驾”正在成为新能源汽车标配。

通过深度合成服务算法备案信息，我们可以看到，生成式AI在中国蓬勃发展，虽然有只见广度不见深度的嫌疑，但随着生成式AI的不断深入产业落地，未来我们也将看到更多和更好行业案例涌现。

文章来自于微信公众号“DoNews”（ID：ilovedonews），作者 “小不董”

中国生成式AI的“物种大爆炸”

关键词: 生成式AI , Sora , ChatGPT , 互联网信息服务深度合成管理规定

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales