ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
前得到CTO创业AI数字人,「向量方程」获近千万天使轮融资
7875点击    2024-10-30 11:34

技术拐点之后,数十元的数字人比以前一百多万的效果更强。


《智能涌现》获悉,智能数字人平台开发商「向量方程」,此前完成近千万元天使轮融资,由真成资本(已投资得到APP、印象笔记)领投,北京极信管理咨询和上海天使汇跟投。资金将用于丰富数字人产品技术的研发。


「向量方程」成立于2024年3月14日,创始人&CEO沈仁奎为原得到/ 罗辑思维CTO,曾先后就职于腾讯和百度,联创团队具有百度、美团等互联网研发经验。产品「石榴数字人」为聚焦于亚洲人的一站式AI数字人视频创作平台,于今年6月开始商业化运作。


短视频早已成为流量获客的王者,AI数字人更添一把火。海外AI视频生成公司Heygen,年化收入在14个月内从100万美元快速增长到3500万美元。国内预计到2025年,虚拟数字人的核心市场规模将达到480.6亿元人民币,腾讯、阿里、字节等也纷纷入局。


沈仁奎向《智能涌现》透露,早在四年前他就萌生了做数字人的想法,只是一直在等到技术拐点的到来。


“当看到一篇论文中提出的数字人新架构时,我意识到这就是自己一直在等待的、可商业化的技术。”他提到,“以往采集建模数据通常一天起步,现在3-5分钟就能迅速生成一个数字人。”


数字人赛道正从上一代的3D引擎等技术栈向大模型靠拢,数字人的生产效率有很大提升——即便是低价位数十元做出来的数字人效果,也比以前一百多万的效果要强。


在沈仁奎看来,因为技术负债少,公司“新”反而是优势。而在巨头的竞争中,新一代创业者的机会依旧存在。巨头的主要赛道是信息分发,而不是信息生产,并且他们即使入局也难以通吃标准化产品和服务。


「石榴数字人」是典型的信息生产产品,能够将文本信息转为数字人视频,为内容创作提效。画面上,它的仿真程度高,能1:1重现真人视频的人物、场景、服装和动作。高质数据训练得到的优质底层模型,可以促进不同语种的嘴型对齐等任务,并大幅减少所需的数据量。


与目前头部的视频生成厂商相比,「石榴数字人」录制视频所需时长较短,从以往的30分钟大幅缩短至了30秒。同时,「石榴数字人」更适应中文环境,在户外走动等动态场景中表现出优势,还可以实现多个数字人在同一画面中互动。


能打篮球、能骑车、会说多国语言的石榴数字人


声音上,TTS(Text To Speech,文本转语音)的机械音问题得到了解决,现在的发声更真实自然、抑扬顿挫。售价千元级的自研高阶版声音对标业内十万级别,可以个性化定制口音与发声习惯,更高质,也更适配场景。


沈仁奎向《智能涌现》介绍,「石榴数字人」已实现全流程自动化定制数字人。一方面,用户在录制视频时无需注意对口型的细节,脸部扭动角度不超过30度即可。另一方面,系统能够处理中英文混排和复杂的数字场景,通过智能断句和上下文分析,实现自然流畅的输出。因为去除了人工干预成本,平台只按视频生成时长收费。


对于高客单,「石榴数字人」还会提供AI助手,在微信对话窗口中实现抓字幕、改写和生成视频等交互功能。


当前,国内许多产品聚焦于创作者生态,「石榴数字人」也推出了一键式视频创作服务,这是现阶段应用最广泛的场景。然而,沈仁奎认为,面向企业级市场的机会更大,且市场尚未饱和,是公司更关注的方向。


在这条赛道上,「石榴数字人」为企业提供创新的视频解决方案,借助数字人和自动化技术,帮助企业快速生成大量视频内容,提升运营效率并加速效果优化。


此外,「石榴数字人」计划拓展至互动视频领域,让数字人能够与观众进行实时互动,不再局限于静态展示。


互动视频并不等同于直播,直播只是其中的一个应用场景之一。尽管数字人直播是未来的发展方向,沈仁奎表示当前仍在等待技术进一步成熟。


“数字人直播的核心挑战不仅在于技术,更在于对行业需求的深刻理解,关键在于快速提炼出可操作的行业经验,并将其转化为用户友好的产品体验。”他补充道。


目前,「石榴数字人」已成功实现商业化运营。未来,公司将持续优化产品功能,扩大市场布局,并吸引更多优秀人才,推动进一步发展。


文章来自于“袁滢靓”,作者“袁滢靓”。




关键词: AI , 数字人 , 向量方程 , AI融资
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales