7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
7930点击    2025-03-27 15:18

深夜重磅!阿里发布并开源首个端到端全模态大模型——


通义千问Qwen2.5-Omni-7B,来了。


仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。


堪称7B模型的全能冠军。


你的iPhone搭载的很可能就是它!


现在打开Qwen Chat,就能直接和它实时进行视频或语音交互:


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


话不多说,先来看一波能力展示。


在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆:


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


走进厨房,它又化身“智能菜谱”,一步步指导你变成大厨:


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下新SOTA,远超谷歌Gemini-1.5-Pro等同类模型。


在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模型以及闭源模型。


在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


这意味着Qwen2.5-Omni-7B能很好地和世界进行实时交互,甚至能轻松识别音视频情绪。


再来敲重点:


模型非常轻量,手机等终端都可轻松部署运行,且开源用的是宽松的Apache2.0协议,开发者、企业现在都可免费在魔搭社区或Hugging Face下载商用


Qwen2.5-Omni-7B一开源,网友直呼这才是真正的OpenAI(doge)。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


网友纷纷表示可以直接拿来装到智能眼镜上了:


这可能是智能眼镜的完美模型。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


7B模型的新纪录!


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


目前,在Qwen Chat上即可体验该模型支持的AI语音和视频通话功能。


更多实例,一起来看~


实测效果惊艳


首先,Qwen2.5-Omni-7B能胜任免费的数学家教。


它能像人类老师一样,看到题目、听懂问题,并且一步一步耐心讲解。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


更复杂的论文它也看得懂。


只需共享屏幕,然后将论文从上至下滑动,“给它看一遍”。


它就能通俗解释论文内容。


比如PPT、网页资料等,也能找它做讲解。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


而且它还有一定艺术见解,比如可以陪着你画画,然后给出指导建议。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


或者听你演奏的音乐,给出更好的改进建议。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


我们还进行了一手实测,在Qwen Chat上每天可使用语音和视频聊天10次。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


实测中,模型能很好地理解商品界面和优惠政策。


响应速度也很快,并且会引导人类继续问下去、很有耐心。


需要注意的是,当前视频通话还只是Beta测试版,每次通话限时3分钟。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


Hugging Face的产品负责人Jeff Boudier也第一时间上手试玩。


模型的英文能力一样出众,而且它不仅回答看到了杯子,还细致描述了杯子上的笑脸花纹。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


首创Thinker-Talker双核架构


目前官方已放出Qwen2.5-Omni技术Blog和论文。


Qwen2.5-Omni采用通义团队首创的全新架构——Thinker-Talker双核架构


其中,Thinker就像“大脑”,负责处理和理解来自文本、音频、视频等多模态的输入信息,生成高层语义表征以及对应的文本内容。


Talker则更像“嘴巴”,以流式的方式接收由Thinker实时输出的语义表征与文本,并流畅地合成离散语音tokens。


具体来说,Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取。


而Talker采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享Thinker的全部历史上下文信息。因此,整个架构作为一个紧密结合的单一模型运行,支持端到端的训练和推理。


与此同时,团队还提出了一种新的位置编码算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding (位置嵌入)融合音视频技术


TMRoPE编码多模态输入的三维位置信息,即多模态旋转位置嵌入(M-RoPE),并结合绝对时间位置,通过将原始旋转嵌入分解为时间、高度和宽度三个部分实现。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


另外值得一提的是,从技术层面来看,Qwen2.5-Omni和一般的视频/语音理解模型以及其相应的视频/语音对话的AI功能,也有本质性区别。


在传统语音理解大模型的人机交互场景里,一般运用 ASR(Automatic Speech Recognition,自动语音识别)技术,把人类语音转换为文字文本,随后将其交给大语言模型处理,最终生成的内容借助 TTS(Text-to-Speech,语音合成)技术转化为语音反馈给用户。


而视频理解模型是基于图片、视频进行大模型理解,并以文字形式输出反馈。


这两种模型均属于相互独立的单链路模型。在一些AI应用中,甚至会串联多个模型来实现类似功能,如此一来,链路变得更长,效率大打折扣。


Qwen2.5-Omni-7B的特点在于,它原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出


也就是说,一个模型就能通过“看”、“听”、“阅读”等多种方式来综合思考。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


所以Qwen2.5-Omni得以在一系列同等规模的单模态模型权威基准测试中,拿下最强全模态性能,在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的音频(Audio)或视觉语言(VL)模型。


抢先看到Apple Intelligence?


一个月前,阿里公开确认与苹果合作,宣布通义千问将为国行iPhone用户提供AI功能,此消息一经披露,便在科技圈引发热议。


而这次Qwen2.5-Omni开源,就是奔着端侧部署来的,7B尺寸使其具备直接嵌入手机的可行性,仿佛提前看到了Apple Intelligence,让大家看到多模态大模型上手机都能有哪些效果。


不只是苹果,据量子位了解,这种端侧部署能力已吸引超90%国产手机品牌接入通义千问,包括OPPO、vivo、荣耀、传音等,还有众多汽车品牌、AI硬件产品选择与之携手。


为啥都选通义千问?


梳理通义千问的最新发展动态,答案便不难理解。


首先,通义千问Qwen目前已稳居全球最大AI大模型族群。


仅在最近一个月的时间里,就接连推出了一系列具有竞争力的模型:推理模型Max旗舰版QwQ-Max-Preview、视频生成模型Wan 2.1、推理模型QwQ-32B、视觉语言模型Qwen2.5-VL-32B-Instruct……


实际上,2023年至今,阿里通义团队已累计开源200多款模型,涵盖从0.5B到110B全尺寸范围,模型类型覆盖文本生成、视觉理解与生成、语音理解与生成、文生图及视频模型等全模态领域,应用场景也极为丰富。


在海内外开源社区中,通义千问Qwen衍生模型数量更是一路飙升,现已超过10万,超越Llama系列。


根据Hugging Face 在2月10日发布的最新全球开源大模型榜单,排名前十的开源大模型无一例外,全部是基于通义千问Qwen开源模型二创的变体模型。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


其次,阿里巴巴通过开源等一系列积极举措,成功构建起一个丰富且活跃的大模型生态。


阿里不仅将开源进行到底,更向大模型公司提供了全方位的服务支持,其中包括算力资源以及开发工具等,阿里云已成为中国大模型领域的公共AI算力底座。


截至2025年2月中旬,阿里魔搭社区ModelScope的模型总量已超4万个,服务超1000万开发者。


那么通义千问Qwen团队下一步要干啥?


期待听到您的反馈,并看到您使用Qwen2.5-Omni开发的创新应用。
在不久的将来,将着力增强模型对语音指令的遵循能力,并提升音视频协同理解能力。还将持续拓展多模态能力边界,发展全面的通用模型。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用


感兴趣的友友不如一起来上手试试吧~


Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo


文章来自于“量子位”,作者“西风 明敏”。


7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales