行业应用迅速落地,大厂领跑新赛道
生成式AI在中国的发展究竟是快还是慢?
最近国外的Sora风头正劲,让不少国人产生了悲观情绪。其实,国内生成式AI也在迅速的发展中,就在Sora发布后不久的2月18日,网信办发布了第四批深度合成服务算法备案信息,从中可以一窥我国生成式AI的现状。
什么是深度合成服务?是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于:
(一)篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;
(二)文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术;
(三)音乐生成、场景声编辑等生成或者编辑非语音内容的技术;
(四)人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术;
(五)图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术;
(六)三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。
《互联网信息服务深度合成管理规定》是在2022年11月3日审议通过的,在不到一个月后的11月30日,ChatGPT就横空出世了。
图片来源:网信办
不难发现,深度合成服务的概念与生成式AI有很大的重合——半年后我国发布的《生成式人工智能服务管理暂行办法》中,定义生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。
按照规定,在我国境内提供深度合成服务,需要进行相应的备案,从2023年6月至今,已经有4批备案,合计546个算法,可以说是迎来了生成式AI的“物种大爆炸”。
从图不难看到,算法备案的数量和频率都在上升,第四批备案距离发布第三批备案仅有一个月,算法数量也从129个增长到了266个。其中,服务技术支持者和服务提供者累计下来分别为151和395个。(深度合成服务提供者,是指提供深度合成服务的组织、个人;深度合成服务技术支持者,是指为深度合成服务提供技术支持的组织、个人。)
在这些算法中,既有来自互联网大厂的,也包括垂直领域的领军企业,还有一众的创业公司。
先看服务技术支持者,算法备案数量的前十名基本都来自大厂,在后面的榜单中,也有科大讯飞、京东科技、出门问问、360、猎户星空等知名互联网公司。相对来说,对外提供技术服务的门槛要高于自用,会出现这种情况也就不奇怪了。
去年大模型爆火,备案的546个算法中,大模型的算法足足有70个,不过大多数都是企业用于自身业务的,对外提供技术支持的仅有19个,并且包含多个垂类大模型,通用大模型为数并不多,可见“百模大战”有些名不副实。
再来看服务提供者,由于数量过多(395个),就不一一列举了,重点说一下大模型,表单中的内容和上表有些许重合,比如百度的文心大模型,因为有的大模型既可对外做技术支持,也可以用于自家的产品。
值得一提的是,2023年生成式AI的浪潮中,腾讯表现的较为低调,却在技术支持者榜单中数量排名第一。除了技术力量强大外,大厂涉猎的行业多,因此有更多的落地场景,可以身兼“卖水人”和“掘金者”两个角色,例如腾讯,深度合成服务算法备案中,囊括了人脸融合、语音合成、绘画、P图等多个领域。
与之类似的是网易,作为服务技术支持者,算法涉及图像、语音生成、文本生成、三维场景等多个行业;作为服务提供者,算法则服务了有道词典、逆水寒手游等应用。
但要说自身应用算法最广泛的大厂,则莫过于阿里巴巴。可能源于组织拆分的缘故,阿里巴巴对外提供技术支持的算法都来自达摩院,但淘宝、钉钉以及天猫等,又都有各自的算法备案。DoNews向达摩院了解到,淘宝、钉钉等大部分技术来自于自研,也有部分技术有达摩院提供或者联合研发。
百度的文心大模型是目前国内大模型的领军者,在数字人、语音合成及识别、文生文/图、人脸融合等领域都有算法,不过在产品层面就明显单调许多,只展现了文心一言大模型的App和网站。由此可见,单纯看算法数量,并不能全面体现企业的AI能力。
华为云则是彻底走“2B”路线,目前拥有6个算法备案,全部作为服务技术支持者,主要分为两类:盘古及MetaStudio(数字内容生产线)。
通过整理算法备案的资料,我们还发现另一个情况,生成式AI在互联网领域迅速扩展,并在向更多垂直领域蔓延。
比如,电商就是一个重点发展大模型的行业,阿里巴巴旗下的电商最积极拥抱AI。
短视频领域也大量应用了生成式AI技术,抖音和快手一如既往是领头羊,应用场景集中在特效、合成、换脸几大方向。
传统行业也在积极拥抱生成式AI,比如医疗健康,应用主要集中在健康咨询、医疗内容生成上。
2024年开年,AI手机成为了热点话题,OPPO和vivo都提前进行了大模型的算法备案。
此外,不少令人意想不到的行业,也在应用生成式AI。比如家电巨头TCL,看似和生成式AI不沾边,却通过TCL智能文本生成算法,在APP中根据用户输入的文本内容,生成产品说明和使用指导。
在教育领域,好未来一共备案了多达8个算法,既有自用也有对外做输出的,展现了强大的科技实力。母婴行业,宝宝树孕育(APP)应用的宝宝树母婴家庭领域大模型生成合成算法,可以根据用户提出的备孕育儿问题,生成备孕育儿等相关知识内容,输出文本内容回复。
还有一个重要的落地场景,就是汽车行业。年初的CES上,奔驰、宝马、大众等汽车厂商都展示了融合最新AI大模型技术的车机系统,比亚迪也在近期推出了全新的整车智能化架构“璇玑”及其AI大模型“璇玑AI大模型”,“智驾”正在成为新能源汽车标配。
通过深度合成服务算法备案信息,我们可以看到,生成式AI在中国蓬勃发展,虽然有只见广度不见深度的嫌疑,但随着生成式AI的不断深入产业落地,未来我们也将看到更多和更好行业案例涌现。
文章来自于微信公众号“DoNews”(ID:ilovedonews),作者 “小不董”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales