讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己
3186点击    2024-10-25 10:10

跟讯飞星火AI女神视频面对面,国产《Her》从此有了脸!


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


不管跟你科普面霜,推荐酒水礼物,还能看图说话讲故事,都能轻松拿捏。


你有看过孙悟空奥特曼一起打怪兽吗?(狗头)


即便是这么一个不着调的“名场面”,“她”也能硬讲出来一段生动的故事来。嗯嗯论讲故事还得是AI来~


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


除此之外,你也可以自己DIY一个虚拟人。只需一张照片+一句话,就能创造一个“自己”。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己

(白小交从此有了脸)


目前,该功能已经在讯飞星火APP上线。


而背后的底座大模型也迎来重大升级——讯飞星火4.0 Turbo正式发布,七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。


与此同时,国产超大规模智算平台“飞星二号”正式启动。


跟讯飞星火视频面对面


此次发布会的重头戏,就是讯飞星火在多模态视觉、超拟人虚拟人上交互能力的提升。


在大模型的驱动下,我们正在迎来一个崭新的万物智联时代。新时代下的交互标准,科大讯飞有自己的定义。


董事长刘庆峰介绍道,在已有远场高噪、全双工、多语种多语言等基础上,还包括多模态、超拟人、个性化等特点。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


其实在今年8月,讯飞版《Her》就已经发布。这次语音能力升级基础上,还具备了视觉能力、并拥有了自己的形象。


简单来说,实现了从语音交互到音视频流的实时多模态交互的跨越,情感感知(包括项环境、文字、物体、姿态、着装等)更全面、任务理解(包括语音、手势、行为、情绪等)更精准。


在现场,讯飞研究院院长刘聪率先展示了语音能力,除了本身语气和情感度更加逼真以外,它还能跟你玩角色扮演游戏。


模拟个孙悟空、小猪佩奇都不在话下~


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


俺老孙一路只顾得披荆斩棘,降妖除魔。要说有趣,当然是捉弄八戒那呆子最有趣!


在此基础之上,讯飞版Her现在能面对面聊天,它能根据语义、语音节奏来自动生成表情和动作。


比如听到几百万人在线上看表演时,一些小惊讶、开心激动的表情。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


据介绍,这也是业内率先实现「口唇、表情、动作」语义对齐、贯穿的超拟人数字人。


而一旦打开摄像头,它还能基于动态的视频画面来进行对话交流。


比如识别各种物体,各种花草、建筑还有小玩具。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


龙船花,好好好,小知识get。


更炸裂的是,就是连什么酒水饮料,哪个牌子的水乳面霜都能分清!


在现场,它不仅认出了这是雪花秀的产品,还科普了具体组成和用处,甚至纠正了大的那瓶不是眼霜是面霜……


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


此次新增的视觉能力,在常见视觉知识问答准确率90%+、场景图文理解准确率也超90%+。


这样一来,可以在出境购物了解商品信息的时候“哪里不懂问哪里”,识别食物、玩游戏,陪孩子进行绘本伴读。


而量子位也第一时间进行了一波实测。目前这一功能在讯飞星火APP右上角「小星畅聊」里面,点击右边「摄像头」就能开启对话了。


随便拍了拍天空,说一句“今天天气不错”,它会随声附和一句;还会给你推荐合肥推荐好玩的地方。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


而将摄像头指向1024开发者论坛,它能准确解读出来,并给你推荐~


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


可以看到,此次的交互能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能听能说,你还可以捏一个自己——创建一个属于自己的虚拟人。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


同样是讯飞星火APP右上角,点击「创建智能体」。


只需上传一张照片,创建自己的AI形象,包括性格职业信息人设等自定义设置;然后再根据一句话复刻语音,就能完成了,已支持1300+种人设打造。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


这语气这形象确实很像数字世界的自己,以后就可以派它来对接客户了。(不是)


目前,讯飞超拟人数字人的声音自然度可以达到4.2分。刘庆峰称,最好的播音员可以达到5.0分左右,真人水平一般为4.0分左右。


不过这些能力展示,也只是此次讯飞星火底座升级的一部分。


讯飞星火4.0 Turbo正式发布


今年讯飞星火大模型迎来重大升级——星火4.0 Turbo发布。


基础能力上,数学、代码、特定领域长文本能力等七大能力方面已经全面超越GPT-4 TUrbo,效率也相对提升50%。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


尤其是数学方面,刘庆峰透露,目前已经完成超长思维链、树搜索和自我反思评价等算法验证,预计今年年底将实现类o1的高难度数学能力显著提升。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


代码能力层面,星火在HumanEval测试集上,星火4.0 Turbo性能已超越GPT-4o。与此同时,他们还推出代码7B版本,支持代码生成、代码补全等任务。


在14项中英文主流测试集中,相较于GPT-4o,星火4.0 Turbo实现了9项超越。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


除此之外,还首次发布了多语言认知大模型,覆盖包括英语、俄语、日语、汉语、法语、西语、葡语、德语等多种语言。


在汽车、家电、办公、翻译等行业的任务场景中,多语言大模型效果超过了GPT-4o


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


在一些垂直领域,此次也有多款大模型首发和升级。


比如在医疗领域的医学影像大模型,它能根据影像照片,帮助医生快速生成诊断报告。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


还有智能汽车方面的端侧星火大模型,车载应用效果损失小于1%,响应时间小于40毫秒。预计今年第四季度起,包括奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。


教育方面,讯飞星火联合中国教科院,发布了基于问题链的数学教师助手。它以问题链的方式来展开逻辑,包括核心问题、子问题、问题单元,这样层层推进,让学生学会主动思考、学会提问,从而改变学生的学习范式。


现在已经有来自12个区域50多位数学教研员、400多位教师参与到人机共创。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


在底层智算平台上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联手,打造国产超大规模智算平台“飞星二号”,目前已经正式启动。


去年飞星一号首次亮相,据刘庆峰介绍,一年以来“飞星一号”平台已经解决了超过500次的基础软硬件问题和模型适配问题。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


大模型迎来规模化应用时代


整场发布会下来最强感知到的是,正如刘庆峰所言,大模型迎来规模化应用时代


多模态虚拟人交互成为发布会的主角,各种垂直领域大模型的真机演示成为发布会的重点。一切围绕着应用而来,围绕着行业而来。


可以看到的是,以讯飞星火为代表,国产大模型应用生态持续繁荣。发布会一开始,刘庆峰就亮出了他们过去一年“七个第一”的成绩单。


  • 央国企中标第一,讯飞星火成为央国企大模型第一选择
  • 教育医疗市场第一;
  • 智能汽车市场第一;
  • 大模型开发者生态第一;
  • 智能硬件市场第一;
  • 赋能科研应用第一;
  • 赋能工业应用第一。


截至今年10月,讯飞已经与各头部企业共建了20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数都位于国内第一位置。


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


值得一提的是,除了产业上的赋能,在科研行业,讯飞星火也持续在为高校提供服务。今年物理、化学诺奖都颁给了AI科学家,对此,刘庆峰表示:


AI for Science带来科研范式的根本变革,正在成为科技发展的新引擎。


人工智能赋能科研工作的三个台阶:依托科研文献助手和代码助手提升基础工作效率,基于深度神经网络对科学任务进行精准建模,以及借助认知大模型学习领域知识并辅助设计科研实验方案。


以星火科研助手为代表,它自去年底发布以来,已在中科院下属116个院所使用。此外还联合中国科技大学研发“化学大模型”,联合中科院大连化学物理研究所研发“化工大模型”等等。


只有生态的繁荣,才能反哺技术持续进步。根据IDC研究报告和市场公开数据显示,科大讯飞在语音语义市占率中第一、大模型开发者规模第一,达78.1万。


接下来,科大讯飞计划将开放全场景资源,覆盖从技术能力到应用落地。他们还将牵头成立AI基金,用5亿创业基金推动开发者创业。


对于未来人工智能的产业发展,刘庆峰提出了他们自己行业参考。五个关键词:顶天立地、自主可控、通专结合、端云联动、软硬一体


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己


也只有把握这五个关键点,大模型才能真正解放生产力、释放想象力,带来全行业的范式变革。


文章来自于微信公众号“量子位”,作者“白小交”


讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己

关键词: Her , 讯飞星火4.0 , 讯飞星火 , AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales