2024年欧洲杯如火如荼进行之际,一则由法国电信公司 Orange 创作的足球比赛视频也迅速走红。
视频中,我们看到了姆巴佩、吉鲁、格里兹曼......,实际上,所有在球场上奔跑的运动员都不是真人,而是人工智能生成的虚拟角色。
凭借出色创意和独特性,该作品斩获了广告创意营销界“奥斯卡”——今年的戛纳国际创意节的体育类大奖。而 AKOOL 为这一大奖作品提供了核心技术支持。
他们开发的 AI 面部捕捉系统能精确捕捉人脸细微表情和动作,在精心设计的渲染技术加持下,作品中的虚拟人物几乎以假乱真。这种影像级别的视觉效果,足以满足高质量视频制作需求。
AKOOL客户Orange的戛纳获奖视频截图
AKOOL 发力实时数字人,多领域应用显潜力
现在,AKOOL 进一步将目光投向数字人业务和直播推流领域。
在现有技术基础上,他们推出了一套数字人系统,不仅可以捕捉人脸的细微表情,还能实时展现流畅动作,生成数字人的娱乐性与互动性可与真人媲美。
而直播技术致力于提升直播呈现方式,透过主播实时表情和动作的虚拟化,丰富观众收看体验。
AKOOL直播技术展示
目前,AKOOL有近300万用户,并与多家世界500强公司合作。去年他们还为可口可乐公司和英雄联盟游戏的联合营销活动提供了AI 面部增强技术支持。
近年来,数字人技术在多个领域展现出巨大潜力,为用户体验和商业模式带来创新。
前不久某平台主播直播时,突然晕厥倒地,而在直播和互动体验上,实时数字人技术为直播平台提供了新的可能性。数字人主播不仅语言流畅,能与观众实时互动,增强用户参与感,还可以24小时在线,永不疲惫。
数字人教师也在改变远程教育的授课模式。借助实时互动、情景模拟等手段,数字人教师能让课堂体验更加生动和吸引人,提高学生的学习兴趣和课堂参与度。
在客服领域,不管是常见问题解答、产品推荐、还是简单故障排除,数字人都可以轻松应对,并能提供全天候、个性化客户支持,为人工客服减负,提高商家服务效率。
在社交媒体平台上,实时数字人技术为内容创作者提供了新工具。让雷军、埃隆·马斯克两位大佬隔空来一段虚拟脱口秀,是不是很有趣?无论是逗乐、寓教于乐、从中了解品牌故事,实时数字人都拿手。
实时数字人技术还能为个性化营销带来创新和效果提升,使企业能够更好地吸引和留住客户。
AKOOL 实时数字人平台:亮点与关键技术
AKOOL 的实时数字人平台提供了多样化的数字人模板,满足不同用户的风格和需求。用户可以根据偏好从中选择合适的形象,满足不同应用场景的需求。
在声音处理方面,AKOOL 提供了两种主要的声音定制方式。用户既可以从预设声音库中选择,也可以上传自己或他人声音样本进行克隆。系统会利用语音合成技术,尝试生成与用户样本高度相似的语音、语调和语速,为数字人赋予更加个性化的声音特征。
AKOOL还提供自定义数字人功能,用户能够详细定义数字人各项属性,包括职业背景、对话情境、交流风格、专业领域、语气倾向以及知识库内容等,尝试创建适应特定交流需求的数字人。如模拟一位资深雅思考试专家,能够根据雅思考试的标准,对考生回答进行专业评估和提问,提供更为专业化的交互体验。
实时数字人技术在直播、远程教育、客服、社交媒体内容创作和营销等多个领域都有应用潜力,其技术的发展也离不开多项关键技术的积累。
如云端计算的突破性优势。AKOOL 实时虚拟人对话系统采用云端计算技术,减少了对本地硬件的依赖。无论使用何种设备,用户都能获得一致的高质量对话体验。云端强大处理能力在确保对话实时性的同时,也大幅提升了系统的灵活性和可扩展性。
为了进一步提升用户体验,AKOOL相比竞品还做了突破性升级。AKOOL集成了先进的人工智能算法。这些算法显著增强了系统的响应速度和对话理解力,使交互更贴近用户的自然语言习惯,带来更加个性化和富有洞察力的互动方式。
在视觉呈现方面,AKOOL也做出了重要突破。为了大幅提高数字人的真实感,他们开发了面部表情与口型同步技术,确保数字人的面部动作和口型与语音或文字输入精确对应,使得数字人表现更加生动自然
除了追求影视级视觉效果,AKOOL 还注重提升数字人的智能交互能力。
如系统集成了自然语言处理(NLP)技术和机器学习算法,使数字人能够理解和响应复杂的语言结构和语义,实现更加智能的人机交互。
面对实时虚拟人所需的大量数据处理和复杂算法运算,AKOOL对计算资源的分配和使用进行了精心优化,旨在提供稳定而流畅的数字人交互体验。
为了促进技术广泛应用,AKOOL提供了API接口,方便企业快速接入并利用这一先进的人工智能技术。同时,系统支持超过40种主流语言,满足了全球化环境下的多语言需求。
在整个系统的设计过程中,AKOOL始终注重响应速度和可靠性,目标是在各种网络环境下提供稳定的用户体验。此外,系统采用4K超高清分辨率,旨在呈现高质量的画面和精细的动作细节,进一步提升数字人的真实感和沉浸式体验。
AKOOL:“另一种对空间的征服”
据了解,AKOOL员工近50名,分布在多个国家和城市,体现了其国际化的运营模式。顾问团队包括来自全球知名企业的高管和一些顶尖高校的研究人员。
公司创始人吕家俊在伊利诺伊大学香槟分校获得人工智能博士学位,曾在斯坦福大学进行访问研究,并参与过哈佛商学院总裁班(PLDA)的学习。在创立AKOOL之前,他参与过其他科技公司的早期运营,并在生成式人工智能领域有多年研究经验。
吕家俊曾表示,公司正在开发的数字克隆技术旨在帮助人们以数字化形式保存自己的声音和形象。他认为这项技术未来可能成为保存个人智慧的一种方式。吕家俊将AKOOL在AI领域的工作比作"另一种对空间的征服"。
为了应对Deepfake视频可能带来的滥用风险,AKOOL 也正在研发Fake视频鉴别功能。公司表示,将继续在数字人技术领域进行探索和创新,并在创新和责任之间寻找平衡,推动行业发展。
文章来源于“机器之心”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales