
免费用!阿里通义大模型上新,超逼真音视频生成SOTA!
免费用!阿里通义大模型上新,超逼真音视频生成SOTA!近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
阿里通义实验室语音团队负责人鄢志杰已于近期离职,离职时间为2月15日,按照以前的P序列(原阿里内部职级体系)比照,其职级为P10。鄢志杰是智能语音领域的技术大牛。公开资料显示,2003年,鄢志杰大学本科毕业,升入中科大语音实验室,攻读博士学位,师从语音领域专家王仁华教授(科大讯飞创始人之一,曾任科大讯飞公司董事长)。
面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。
现在,大模型可以帮你梳理新闻时间线了,以后吃瓜就更方便了! AI Agent的风,咱们赛博乐子人也得吹吹。 这就是来自阿里巴巴通义实验室与上海交通大学的新研究,他们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS。
多模态检索增强生成(mRAG)也有o1思考推理那味儿了! 阿里通义实验室新研究推出自适应规划的多模态检索智能体。 名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。
高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
让多智能体开发就像搭积木,阿里巴巴通义实验室开源多智能体编程框架与开发平台AgentScope。