融资1600万美元，这家法国AI创企推新语音转录引擎，支持100种语言

6123点击 2024-10-17 09:22

Gladia筹集了1600万美元用于AI转录和分析。

智东西10月16日消息，据VentureBeat昨日报道，法国AI转录和音频智能创企Gladia成功融资1600万美元，并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发，推出一站式音频AI工具包。

Gladia成立于2022年，一直专注于开发端到端的音频基础设施。该公司推出的最新微调引擎可以提供超过100种语言的高级实时转录功能。

该引擎的独特之处在于能够实时捕捉通话中有价值的信息，包括来电者的情绪、对话中的关键信息和摘要。

该新产品克服了语言理解和实时数据处理等挑战，实时语音转文本引擎的延迟低于300毫秒。

本轮融资由欧洲风投机构XAnge领投，Illuminate Financial、XTX Ventures等多家风投公司参投。

截至目前，Gladia累计融资金额已达到2030万美元，早期种子轮投资者包括New Wave、红杉资本（作为First Sequoia Arc计划的一部分）、Cocoa和GFC。

一、Gladia新引擎：100多种语言实时转录，不到1秒生成内容

语音转文本产品在克服语言理解挑战方面面临着诸多困难。

其中，语言资源的数量和质量不足是一个关键问题。

在Gladia公司看来，目前大多数语音识别系统主要依赖于英语音频数据进行训练，这在一定程度上限制了它们对其他语言的识别能力。

为了解决这个问题，Gladia致力于开发一个真正多语言的实时语音识别产品。

该公司新开发的微调引擎能够提供100多种语言的高级实时转录服务。

Gladia特别增强了新引擎对各种口音的识别能力，使其能够迅速适应不同语言环境，从而为用户提供更加全面和高效的语音转文字体验。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner在接受VentureBeat采访时称，他创立Gladia的初衷源于个人经历，现有的音频转录服务无法准确识别他的法语口音。

他说：“考虑到目前大多数语音识别模型主要在英语音频数据上训练，存在固有的偏见，Gladia优先构建了第一个真正多语言的实时产品。”

此外，Gladia引擎的特别之处在于能够即时从对话中提取信息，如来电者的情绪、关键信息和对话摘要。这意味着使用Gladia从通话或会议中生成文字记录和见解只需不到1秒钟的时间。

二、克服语言、数据多个挑战，延迟低于300毫秒不损准确性

由于上下文信息有限，实时模型在迅速生成内容、准确输出内容上可能会遇到难题。

此外，实时模型需要更多的计算资源来支持其运行，这进一步增加了引擎开发的复杂性。

Gladia推出的新产品克服了语言理解和实时处理数据等上述挑战，并且能够对功能进行持续优化，以提供更准确的服务。

Gladia的实时语音转文本引擎在延迟方面达到了行业领先水平，延迟时间低于300毫秒，且无论用户使用的是哪种语言、位于何地或使用何种技术栈，都不会影响转录的准确性。

XAnge合伙人Alexis du Peloux说：“Gladia代表了我们在XAnge所推崇的品质：一支大胆的全球科技团队，处于AI创新的前沿，拥有成熟的商业模式，能够为各个行业带来新机遇。在快节奏的AI环境中，Jean-Louis Quéguiner和他的团队表现非常出色，我们很自豪能够支持Gladia进行A轮融资。”

融资1600万美元，这家法国AI创企推新语音转录引擎，支持100种语言

▲Gladia创始人Jonathan Soto（左）和Jean-Louis Quéguiner（右）。（图源：VentureBeat）

三、整合AI功能，单一API已为7万用户600家企业服务

Gladia试图将多种AI功能整合到其现有平台中。

联合创始人兼首席技术官Jonathan Soto说：“我们的单一API兼容所有现有的技术栈和协议，包括SIP、VoIP、FreeSwitch和Asterisk。这使我们能够轻松将实时转录和分析集成到客户的AI平台中，让他们专注于为终端用户提供最佳服务。”

该公司在2023年6月推出了其第一个异步转录和音频智能API。

自推出以来，Gladia的API在企业应用中受到了广泛关注，尤其在会议记录和笔记辅助工具方面表现突出。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner说：“Gladia的技术使垂直市场中需要尖端实时转录（包括销售支持和联络中心平台）的公司能够从人工呼叫后处理无缝转向主动、低延迟的工作流程。无论是自动进行客户关系管理（CRM），还是采用AI为坐席提供实时指导，Gladia都旨在帮助企业更智能、更高效地运营。”

目前，该API已为全球超过7万名用户和600家企业客户提供服务，包括Attention、Circleback、Method Financial、Recall、Sana和VEED。

结语：Gladia放新招！新资本助力研发一站式音频AI工具包

Gladia将利用新资金推进其研发工作，计划很快将一站式音频AI工具包推向市场，并通过大语言模型和检索增强生成扩展其产品范围。

该公司在联络中心即服务 (CCaaS) 领域拥有多家设计合作伙伴，目前正在试行由Gladia的实时AI引擎提供支持的代理协助解决方案。

Gladia的这些新动作，加上新资本的助力，使得公司在研发一站式音频AI工具包方面有了更多的底气，进一步巩固其在竞争激烈的市场中的地位。

这对Otter.ai和Fireflies.ai等竞争对手以及其他将语音对话转录为文本的基于AI的服务来说将会是一个新的挑战。

文章来自于“智东西”，作者“杨蕊伃”。

融资1600万美元，这家法国AI创企推新语音转录引擎，支持100种语言

关键词: AI , AI融资 , Gladia , AI音频 , AI实时转录

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales