Hume AI发布全能语音引擎OCTAVE：文本秒变真人声，克隆人格特征

9662点击 2024-12-25 09:44

人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎，该引擎能够仅凭简单的文本描述或一段5秒的语音录音，即可生成或克隆出逼真的语音和人格特质，为虚拟角色和人机交互带来了无限可能。

OCTAVE的强大之处在于，它不仅能够生成自然的语音，还能精确地模仿说话者的性别、年龄、口音、情绪语调以及职业特定的说话风格。这使得它能够创造出高度个性化的虚拟角色，并让用户感受到更加真实的人机交互体验。

Hume AI发布全能语音引擎OCTAVE：文本秒变真人声，克隆人格特征

视频地址：https://www.youtube.com/watch?v=betkiRw9MD8

更令人惊艳的是，OCTAVE能够在毫秒级别内完成语音生成，实现了真正的实时对话，并且还允许用户实时动态地调整生成内容。这意味着，用户可以与虚拟角色进行流畅自然的实时对话，并根据需要随时改变其说话风格和内容。

据了解，OCTAVE结合了Hume AI自研的EVI2模型以及OpenAI的语音引擎、Elevenlab的TTS语音设计和Google Deepmind的NotebookLM等多个系统的优势，这使得它在语音生成和理解方面都表现出了卓越的性能。

OCTAVE还支持多个虚拟角色的语音生成，每个角色都可以拥有完全不同的语音风格、情绪和口音，甚至可以生成完整的播客内容。这为内容创作者提供了极大的便利，让他们能够轻松地创作出多样化的音频内容。

此外，OCTAVE能够生成丰富多样的情绪语音，包括愤怒、兴奋、悲伤、平静等。它能够捕捉微妙的语音变化，并通过不同情绪语调来增强自然交互感，更好地表现复杂的情绪。在理解文本语义的基础上，OCTAVE生成的语音与当前主流语言模型（如GPT系列）的语言理解能力相当，确保了生成的语音内容准确且符合语境。

官网：https://www.hume.ai/blog/introducing-octave

Hume AI发布全能语音引擎OCTAVE：文本秒变真人声，克隆人格特征

关键词: Hume AI , OCTAVE , TTS , AI语音

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales