Mistral发布首款开源AI音频模型Voxtral​

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Mistral发布首款开源AI音频模型Voxtral​
5862点击    2025-07-16 16:32

Mistral发布首款开源AI音频模型Voxtral​

▲(图源:来自其官网)


随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。


法国初创公司 Mistral 也加入了这场“语音竞赛”。它推出了首个开源音频模型家族 Voxtral,试图打破那些被大公司封闭系统所垄断的局面,用开放模型给开发者更多自由。


本周二,Mistral 正式发布 Voxtral。这是它面向企业用户的首个音频模型系列。


Mistral发布首款开源AI音频模型Voxtral​


Mistral 的目标很明确:Voxtral 要成为首个能在真实业务场景中落地的“可用语音智能”开源模型。


换句话说,开发者不再需要在“便宜但效果差的开源模型”和“强大但封闭昂贵的商业产品”之间做痛苦选择。现在,他们可以同时拥有效果和控制权,还能节省一半以上的成本。


Mistral发布首款开源AI音频模型Voxtral​


据官方介绍,Voxtral 最长可以转录 30 分钟的音频内容。因为模型背后接入了自家的 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。不光是听懂说了什么,还能回答相关问题、生成摘要,甚至把语音指令转化为 API 调用或执行操作。


Mistral发布首款开源AI音频模型Voxtral​


Voxtral 还支持多种语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。


Mistral 提供了两个版本的“语音理解模型”:Voxtral Small,参数规模 240 亿,用于大规模部署,定位接近 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash;Voxtral Mini,参数 30 亿,更适合本地和边缘设备部署。此外还有一个超轻量的转录专用模型 Voxtral Mini Transcribe,只做转录,但速度更快、价格更低,号称比 OpenAI 的 Whisper 更省钱、效果更好。


Mistral发布首款开源AI音频模型Voxtral​


开发者可以免费试用 Voxtral,支持在 Hugging Face 下载 API,或在 Mistral 的聊天机器人 Le Chat 中直接体验。根据官方介绍,API 调用起步价为每分钟 0.001 美元。


这次发布距离 Mistral 上次推出推理模型家族 Magistral 仅过去一个月。Magistral 是其首批具备“逐步推理”能力的大模型,用来提升复杂任务的可靠性。


Mistral发布首款开源AI音频模型Voxtral​


作为欧洲最受关注的 AI 创企之一,Mistral 一直以推动开源模型著称。据 TechCrunch 报道,公司目前正与包括阿布扎比 MGX 基金在内的多家投资方洽谈融资,金额最高可能达到 10 亿美元。


立即免费试用


无论你是在笔记本上快速原型、在本地私有环境中处理任务,还是在云端大规模部署,使用 Voxtral 都非常简单。


本地部署:Voxtral(240亿参数)和 Voxtral Mini(30亿参数)都已上线 Hugging Face,支持下载运行。


API 调用:只需一行代码,就能将先进的语音理解能力集成进你的应用。价格低至每分钟 0.001 美元,轻松实现高质量转录与理解,适用于大规模使用。文档在这里查看。


Le Chat 体验:你也可以在 Le Chat 聊天机器人中体验 Voxtral 的语音模式(未来几周将全面开放)。支持网页端和移动端,录音或上传音频后,可以获取文字转写、提出问题或生成摘要。


企业级高级功能


针对对安全性、规模或行业专业性有更高要求的企业客户,Mistral还提供以下能力:


本地私有化部署:Mistral的解决方案团队可协助你在私有基础设施中搭建生产级别的 Voxtral 推理系统,适用于医疗、金融等对数据隐私要求严格的场景。支持多GPU/多节点部署,提供量化模型版本,兼顾吞吐和成本效率。


行业定制微调:可与 Mistral 应用 AI 团队合作,对模型进行领域微调,如法律、医疗、客服或内部知识库等场景,提升语义理解准确度。


更强的上下文能力:Mistral正在与合作伙伴开发更高级的语音功能,如说话人识别、情绪识别、说话人分离,以及更长的上下文处理能力,开箱即用,满足多样化需求。


专属集成支持:提供工程团队优先支持和咨询服务,帮助企业将 Voxtral 无缝集成进现有产品、工作流或数据系统。


敬请期待


8 月 6 日(周三),Mistral将联合 Inworld 举办线上直播,演示如何用 Voxtral 和 Inworld TTS 打造端到端语音智能体。欢迎报名参加,感受语音 AI 的全流程魅力!


接下来几个月,Voxtral 语音能力将继续拓展。除语音理解外,我们还将支持:


  • 说话人分段识别
  • 音频标注(如年龄、情绪)
  • 逐词时间戳
  • 非语音音频识别
  • 还有更多功能!


Mistral很期待看到你们用 Voxtral 做出怎样的创新项目。


参考链接:

https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/

https://mistral.ai/news/voxtral


文章来自于“AI星球视界”,作者“星球”。

关键词: AI新闻 , Mistral , AI语音 , Voxtral
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales