技术拐点之后,数十元的数字人比以前一百多万的效果更强。
《智能涌现》获悉,智能数字人平台开发商「向量方程」,此前完成近千万元天使轮融资,由真成资本(已投资得到APP、印象笔记)领投,北京极信管理咨询和上海天使汇跟投。资金将用于丰富数字人产品技术的研发。
「向量方程」成立于2024年3月14日,创始人&CEO沈仁奎为原得到/ 罗辑思维CTO,曾先后就职于腾讯和百度,联创团队具有百度、美团等互联网研发经验。产品「石榴数字人」为聚焦于亚洲人的一站式AI数字人视频创作平台,于今年6月开始商业化运作。
短视频早已成为流量获客的王者,AI数字人更添一把火。海外AI视频生成公司Heygen,年化收入在14个月内从100万美元快速增长到3500万美元。国内预计到2025年,虚拟数字人的核心市场规模将达到480.6亿元人民币,腾讯、阿里、字节等也纷纷入局。
沈仁奎向《智能涌现》透露,早在四年前他就萌生了做数字人的想法,只是一直在等到技术拐点的到来。
“当看到一篇论文中提出的数字人新架构时,我意识到这就是自己一直在等待的、可商业化的技术。”他提到,“以往采集建模数据通常一天起步,现在3-5分钟就能迅速生成一个数字人。”
数字人赛道正从上一代的3D引擎等技术栈向大模型靠拢,数字人的生产效率有很大提升——即便是低价位数十元做出来的数字人效果,也比以前一百多万的效果要强。
在沈仁奎看来,因为技术负债少,公司“新”反而是优势。而在巨头的竞争中,新一代创业者的机会依旧存在。巨头的主要赛道是信息分发,而不是信息生产,并且他们即使入局也难以通吃标准化产品和服务。
「石榴数字人」是典型的信息生产产品,能够将文本信息转为数字人视频,为内容创作提效。画面上,它的仿真程度高,能1:1重现真人视频的人物、场景、服装和动作。高质数据训练得到的优质底层模型,可以促进不同语种的嘴型对齐等任务,并大幅减少所需的数据量。
与目前头部的视频生成厂商相比,「石榴数字人」录制视频所需时长较短,从以往的30分钟大幅缩短至了30秒。同时,「石榴数字人」更适应中文环境,在户外走动等动态场景中表现出优势,还可以实现多个数字人在同一画面中互动。
能打篮球、能骑车、会说多国语言的石榴数字人
声音上,TTS(Text To Speech,文本转语音)的机械音问题得到了解决,现在的发声更真实自然、抑扬顿挫。售价千元级的自研高阶版声音对标业内十万级别,可以个性化定制口音与发声习惯,更高质,也更适配场景。
沈仁奎向《智能涌现》介绍,「石榴数字人」已实现全流程自动化定制数字人。一方面,用户在录制视频时无需注意对口型的细节,脸部扭动角度不超过30度即可。另一方面,系统能够处理中英文混排和复杂的数字场景,通过智能断句和上下文分析,实现自然流畅的输出。因为去除了人工干预成本,平台只按视频生成时长收费。
对于高客单,「石榴数字人」还会提供AI助手,在微信对话窗口中实现抓字幕、改写和生成视频等交互功能。
当前,国内许多产品聚焦于创作者生态,「石榴数字人」也推出了一键式视频创作服务,这是现阶段应用最广泛的场景。然而,沈仁奎认为,面向企业级市场的机会更大,且市场尚未饱和,是公司更关注的方向。
在这条赛道上,「石榴数字人」为企业提供创新的视频解决方案,借助数字人和自动化技术,帮助企业快速生成大量视频内容,提升运营效率并加速效果优化。
此外,「石榴数字人」计划拓展至互动视频领域,让数字人能够与观众进行实时互动,不再局限于静态展示。
互动视频并不等同于直播,直播只是其中的一个应用场景之一。尽管数字人直播是未来的发展方向,沈仁奎表示当前仍在等待技术进一步成熟。
“数字人直播的核心挑战不仅在于技术,更在于对行业需求的深刻理解,关键在于快速提炼出可操作的行业经验,并将其转化为用户友好的产品体验。”他补充道。
目前,「石榴数字人」已成功实现商业化运营。未来,公司将持续优化产品功能,扩大市场布局,并吸引更多优秀人才,推动进一步发展。
文章来自于“袁滢靓”,作者“袁滢靓”。
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales