ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
3460点击    2024-10-17 09:22

Gladia筹集了1600万美元用于AI转录和分析。



智东西10月16日消息,据VentureBeat昨日报道,法国AI转录和音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发,推出一站式音频AI工具包。


Gladia成立于2022年,一直专注于开发端到端的音频基础设施。该公司推出的最新微调引擎可以提供超过100种语言的高级实时转录功能。


该引擎的独特之处在于能够实时捕捉通话中有价值的信息,包括来电者的情绪、对话中的关键信息和摘要。


该新产品克服了语言理解和实时数据处理等挑战,实时语音转文本引擎的延迟低于300毫秒。


本轮融资由欧洲风投机构XAnge领投,Illuminate Financial、XTX Ventures等多家风投公司参投。


截至目前,Gladia累计融资金额已达到2030万美元,早期种子轮投资者包括New Wave、红杉资本(作为First Sequoia Arc计划的一部分)、Cocoa和GFC。


一、Gladia新引擎:100多种语言实时转录,不到1秒生成内容


语音转文本产品在克服语言理解挑战方面面临着诸多困难。


其中,语言资源的数量和质量不足是一个关键问题。


在Gladia公司看来,目前大多数语音识别系统主要依赖于英语音频数据进行训练,这在一定程度上限制了它们对其他语言的识别能力。


为了解决这个问题,Gladia致力于开发一个真正多语言的实时语音识别产品。


该公司新开发的微调引擎能够提供100多种语言的高级实时转录服务。


Gladia特别增强了新引擎对各种口音的识别能力,使其能够迅速适应不同语言环境,从而为用户提供更加全面和高效的语音转文字体验。


Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner在接受VentureBeat采访时称,他创立Gladia的初衷源于个人经历,现有的音频转录服务无法准确识别他的法语口音。


他说:“考虑到目前大多数语音识别模型主要在英语音频数据上训练,存在固有的偏见,Gladia优先构建了第一个真正多语言的实时产品。”


此外,Gladia引擎的特别之处在于能够即时从对话中提取信息,如来电者的情绪、关键信息和对话摘要。这意味着使用Gladia从通话或会议中生成文字记录和见解只需不到1秒钟的时间。


二、克服语言、数据多个挑战,延迟低于300毫秒不损准确性


由于上下文信息有限,实时模型在迅速生成内容、准确输出内容上可能会遇到难题。


此外,实时模型需要更多的计算资源来支持其运行,这进一步增加了引擎开发的复杂性。


Gladia推出的新产品克服了语言理解和实时处理数据等上述挑战,并且能够对功能进行持续优化,以提供更准确的服务。


Gladia的实时语音转文本引擎在延迟方面达到了行业领先水平,延迟时间低于300毫秒,且无论用户使用的是哪种语言、位于何地或使用何种技术栈,都不会影响转录的准确性。


XAnge合伙人Alexis du Peloux说:“Gladia代表了我们在XAnge所推崇的品质:一支大胆的全球科技团队,处于AI创新的前沿,拥有成熟的商业模式,能够为各个行业带来新机遇。在快节奏的AI环境中,Jean-Louis Quéguiner和他的团队表现非常出色,我们很自豪能够支持Gladia进行A轮融资。”


▲Gladia创始人Jonathan Soto(左)和Jean-Louis Quéguiner(右)。(图源:VentureBeat)


三、整合AI功能,单一API已为7万用户600家企业服务


Gladia试图将多种AI功能整合到其现有平台中。


联合创始人兼首席技术官Jonathan Soto说:“我们的单一API兼容所有现有的技术栈和协议,包括SIP、VoIP、FreeSwitch和Asterisk。这使我们能够轻松将实时转录和分析集成到客户的AI平台中,让他们专注于为终端用户提供最佳服务。”


该公司在2023年6月推出了其第一个异步转录和音频智能API。


自推出以来,Gladia的API在企业应用中受到了广泛关注,尤其在会议记录和笔记辅助工具方面表现突出。


Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner说:“Gladia的技术使垂直市场中需要尖端实时转录(包括销售支持和联络中心平台)的公司能够从人工呼叫后处理无缝转向主动、低延迟的工作流程。无论是自动进行客户关系管理(CRM),还是采用AI为坐席提供实时指导,Gladia都旨在帮助企业更智能、更高效地运营。”


目前,该API已为全球超过7万名用户和600家企业客户提供服务,包括Attention、Circleback、Method Financial、Recall、Sana和VEED。


结语:Gladia放新招!新资本助力研发一站式音频AI工具包


Gladia将利用新资金推进其研发工作,计划很快将一站式音频AI工具包推向市场,并通过大语言模型和检索增强生成扩展其产品范围。


该公司在联络中心即服务 (CCaaS) 领域拥有多家设计合作伙伴,目前正在试行由Gladia的实时AI引擎提供支持的代理协助解决方案。


Gladia的这些新动作,加上新资本的助力,使得公司在研发一站式音频AI工具包方面有了更多的底气,进一步巩固其在竞争激烈的市场中的地位。


这对Otter.ai和Fireflies.ai等竞争对手以及其他将语音对话转录为文本的基于AI的服务来说将会是一个新的挑战。


文章来自于“智东西”,作者“杨蕊伃”。


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales