▲(图源:来自其官网)
随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。
法国初创公司 Mistral 也加入了这场“语音竞赛”。它推出了首个开源音频模型家族 Voxtral,试图打破那些被大公司封闭系统所垄断的局面,用开放模型给开发者更多自由。
本周二,Mistral 正式发布 Voxtral。这是它面向企业用户的首个音频模型系列。
Mistral 的目标很明确:Voxtral 要成为首个能在真实业务场景中落地的“可用语音智能”开源模型。
换句话说,开发者不再需要在“便宜但效果差的开源模型”和“强大但封闭昂贵的商业产品”之间做痛苦选择。现在,他们可以同时拥有效果和控制权,还能节省一半以上的成本。
据官方介绍,Voxtral 最长可以转录 30 分钟的音频内容。因为模型背后接入了自家的 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。不光是听懂说了什么,还能回答相关问题、生成摘要,甚至把语音指令转化为 API 调用或执行操作。
Voxtral 还支持多种语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。
Mistral 提供了两个版本的“语音理解模型”:Voxtral Small,参数规模 240 亿,用于大规模部署,定位接近 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash;Voxtral Mini,参数 30 亿,更适合本地和边缘设备部署。此外还有一个超轻量的转录专用模型 Voxtral Mini Transcribe,只做转录,但速度更快、价格更低,号称比 OpenAI 的 Whisper 更省钱、效果更好。
开发者可以免费试用 Voxtral,支持在 Hugging Face 下载 API,或在 Mistral 的聊天机器人 Le Chat 中直接体验。根据官方介绍,API 调用起步价为每分钟 0.001 美元。
这次发布距离 Mistral 上次推出推理模型家族 Magistral 仅过去一个月。Magistral 是其首批具备“逐步推理”能力的大模型,用来提升复杂任务的可靠性。
作为欧洲最受关注的 AI 创企之一,Mistral 一直以推动开源模型著称。据 TechCrunch 报道,公司目前正与包括阿布扎比 MGX 基金在内的多家投资方洽谈融资,金额最高可能达到 10 亿美元。
无论你是在笔记本上快速原型、在本地私有环境中处理任务,还是在云端大规模部署,使用 Voxtral 都非常简单。
本地部署:Voxtral(240亿参数)和 Voxtral Mini(30亿参数)都已上线 Hugging Face,支持下载运行。
API 调用:只需一行代码,就能将先进的语音理解能力集成进你的应用。价格低至每分钟 0.001 美元,轻松实现高质量转录与理解,适用于大规模使用。文档在这里查看。
Le Chat 体验:你也可以在 Le Chat 聊天机器人中体验 Voxtral 的语音模式(未来几周将全面开放)。支持网页端和移动端,录音或上传音频后,可以获取文字转写、提出问题或生成摘要。
针对对安全性、规模或行业专业性有更高要求的企业客户,Mistral还提供以下能力:
本地私有化部署:Mistral的解决方案团队可协助你在私有基础设施中搭建生产级别的 Voxtral 推理系统,适用于医疗、金融等对数据隐私要求严格的场景。支持多GPU/多节点部署,提供量化模型版本,兼顾吞吐和成本效率。
行业定制微调:可与 Mistral 应用 AI 团队合作,对模型进行领域微调,如法律、医疗、客服或内部知识库等场景,提升语义理解准确度。
更强的上下文能力:Mistral正在与合作伙伴开发更高级的语音功能,如说话人识别、情绪识别、说话人分离,以及更长的上下文处理能力,开箱即用,满足多样化需求。
专属集成支持:提供工程团队优先支持和咨询服务,帮助企业将 Voxtral 无缝集成进现有产品、工作流或数据系统。
8 月 6 日(周三),Mistral将联合 Inworld 举办线上直播,演示如何用 Voxtral 和 Inworld TTS 打造端到端语音智能体。欢迎报名参加,感受语音 AI 的全流程魅力!
接下来几个月,Voxtral 语音能力将继续拓展。除语音理解外,我们还将支持:
Mistral很期待看到你们用 Voxtral 做出怎样的创新项目。
参考链接:
https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/
https://mistral.ai/news/voxtral
文章来自于“AI星球视界”,作者“星球”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales