ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己
2903点击    2024-10-25 10:10

跟讯飞星火AI女神视频面对面,国产《Her》从此有了脸!



不管跟你科普面霜,推荐酒水礼物,还能看图说话讲故事,都能轻松拿捏。


你有看过孙悟空奥特曼一起打怪兽吗?(狗头)


即便是这么一个不着调的“名场面”,“她”也能硬讲出来一段生动的故事来。嗯嗯论讲故事还得是AI来~



除此之外,你也可以自己DIY一个虚拟人。只需一张照片+一句话,就能创造一个“自己”。


(白小交从此有了脸)


目前,该功能已经在讯飞星火APP上线。


而背后的底座大模型也迎来重大升级——讯飞星火4.0 Turbo正式发布,七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。


与此同时,国产超大规模智算平台“飞星二号”正式启动。


跟讯飞星火视频面对面


此次发布会的重头戏,就是讯飞星火在多模态视觉、超拟人虚拟人上交互能力的提升。


在大模型的驱动下,我们正在迎来一个崭新的万物智联时代。新时代下的交互标准,科大讯飞有自己的定义。


董事长刘庆峰介绍道,在已有远场高噪、全双工、多语种多语言等基础上,还包括多模态、超拟人、个性化等特点。



其实在今年8月,讯飞版《Her》就已经发布。这次语音能力升级基础上,还具备了视觉能力、并拥有了自己的形象。


简单来说,实现了从语音交互到音视频流的实时多模态交互的跨越,情感感知(包括项环境、文字、物体、姿态、着装等)更全面、任务理解(包括语音、手势、行为、情绪等)更精准。


在现场,讯飞研究院院长刘聪率先展示了语音能力,除了本身语气和情感度更加逼真以外,它还能跟你玩角色扮演游戏。


模拟个孙悟空、小猪佩奇都不在话下~



俺老孙一路只顾得披荆斩棘,降妖除魔。要说有趣,当然是捉弄八戒那呆子最有趣!


在此基础之上,讯飞版Her现在能面对面聊天,它能根据语义、语音节奏来自动生成表情和动作。


比如听到几百万人在线上看表演时,一些小惊讶、开心激动的表情。



据介绍,这也是业内率先实现「口唇、表情、动作」语义对齐、贯穿的超拟人数字人。


而一旦打开摄像头,它还能基于动态的视频画面来进行对话交流。


比如识别各种物体,各种花草、建筑还有小玩具。



龙船花,好好好,小知识get。


更炸裂的是,就是连什么酒水饮料,哪个牌子的水乳面霜都能分清!


在现场,它不仅认出了这是雪花秀的产品,还科普了具体组成和用处,甚至纠正了大的那瓶不是眼霜是面霜……



此次新增的视觉能力,在常见视觉知识问答准确率90%+、场景图文理解准确率也超90%+。


这样一来,可以在出境购物了解商品信息的时候“哪里不懂问哪里”,识别食物、玩游戏,陪孩子进行绘本伴读。


而量子位也第一时间进行了一波实测。目前这一功能在讯飞星火APP右上角「小星畅聊」里面,点击右边「摄像头」就能开启对话了。


随便拍了拍天空,说一句“今天天气不错”,它会随声附和一句;还会给你推荐合肥推荐好玩的地方。



而将摄像头指向1024开发者论坛,它能准确解读出来,并给你推荐~



可以看到,此次的交互能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能听能说,你还可以捏一个自己——创建一个属于自己的虚拟人。



同样是讯飞星火APP右上角,点击「创建智能体」。


只需上传一张照片,创建自己的AI形象,包括性格职业信息人设等自定义设置;然后再根据一句话复刻语音,就能完成了,已支持1300+种人设打造。



这语气这形象确实很像数字世界的自己,以后就可以派它来对接客户了。(不是)


目前,讯飞超拟人数字人的声音自然度可以达到4.2分。刘庆峰称,最好的播音员可以达到5.0分左右,真人水平一般为4.0分左右。


不过这些能力展示,也只是此次讯飞星火底座升级的一部分。


讯飞星火4.0 Turbo正式发布


今年讯飞星火大模型迎来重大升级——星火4.0 Turbo发布。


基础能力上,数学、代码、特定领域长文本能力等七大能力方面已经全面超越GPT-4 TUrbo,效率也相对提升50%。



尤其是数学方面,刘庆峰透露,目前已经完成超长思维链、树搜索和自我反思评价等算法验证,预计今年年底将实现类o1的高难度数学能力显著提升。



代码能力层面,星火在HumanEval测试集上,星火4.0 Turbo性能已超越GPT-4o。与此同时,他们还推出代码7B版本,支持代码生成、代码补全等任务。


在14项中英文主流测试集中,相较于GPT-4o,星火4.0 Turbo实现了9项超越。



除此之外,还首次发布了多语言认知大模型,覆盖包括英语、俄语、日语、汉语、法语、西语、葡语、德语等多种语言。


在汽车、家电、办公、翻译等行业的任务场景中,多语言大模型效果超过了GPT-4o



在一些垂直领域,此次也有多款大模型首发和升级。


比如在医疗领域的医学影像大模型,它能根据影像照片,帮助医生快速生成诊断报告。



还有智能汽车方面的端侧星火大模型,车载应用效果损失小于1%,响应时间小于40毫秒。预计今年第四季度起,包括奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。


教育方面,讯飞星火联合中国教科院,发布了基于问题链的数学教师助手。它以问题链的方式来展开逻辑,包括核心问题、子问题、问题单元,这样层层推进,让学生学会主动思考、学会提问,从而改变学生的学习范式。


现在已经有来自12个区域50多位数学教研员、400多位教师参与到人机共创。



在底层智算平台上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联手,打造国产超大规模智算平台“飞星二号”,目前已经正式启动。


去年飞星一号首次亮相,据刘庆峰介绍,一年以来“飞星一号”平台已经解决了超过500次的基础软硬件问题和模型适配问题。



大模型迎来规模化应用时代


整场发布会下来最强感知到的是,正如刘庆峰所言,大模型迎来规模化应用时代


多模态虚拟人交互成为发布会的主角,各种垂直领域大模型的真机演示成为发布会的重点。一切围绕着应用而来,围绕着行业而来。


可以看到的是,以讯飞星火为代表,国产大模型应用生态持续繁荣。发布会一开始,刘庆峰就亮出了他们过去一年“七个第一”的成绩单。


  • 央国企中标第一,讯飞星火成为央国企大模型第一选择
  • 教育医疗市场第一;
  • 智能汽车市场第一;
  • 大模型开发者生态第一;
  • 智能硬件市场第一;
  • 赋能科研应用第一;
  • 赋能工业应用第一。


截至今年10月,讯飞已经与各头部企业共建了20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数都位于国内第一位置。



值得一提的是,除了产业上的赋能,在科研行业,讯飞星火也持续在为高校提供服务。今年物理、化学诺奖都颁给了AI科学家,对此,刘庆峰表示:


AI for Science带来科研范式的根本变革,正在成为科技发展的新引擎。


人工智能赋能科研工作的三个台阶:依托科研文献助手和代码助手提升基础工作效率,基于深度神经网络对科学任务进行精准建模,以及借助认知大模型学习领域知识并辅助设计科研实验方案。


以星火科研助手为代表,它自去年底发布以来,已在中科院下属116个院所使用。此外还联合中国科技大学研发“化学大模型”,联合中科院大连化学物理研究所研发“化工大模型”等等。


只有生态的繁荣,才能反哺技术持续进步。根据IDC研究报告和市场公开数据显示,科大讯飞在语音语义市占率中第一、大模型开发者规模第一,达78.1万。


接下来,科大讯飞计划将开放全场景资源,覆盖从技术能力到应用落地。他们还将牵头成立AI基金,用5亿创业基金推动开发者创业。


对于未来人工智能的产业发展,刘庆峰提出了他们自己行业参考。五个关键词:顶天立地、自主可控、通专结合、端云联动、软硬一体



也只有把握这五个关键点,大模型才能真正解放生产力、释放想象力,带来全行业的范式变革。


文章来自于微信公众号“量子位”,作者“白小交”


关键词: Her , 讯飞星火4.0 , 讯飞星火 , AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales