人工智能语音领域再迎重大突破!Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机交互带来了无限可能。
OCTAVE的强大之处在于,它不仅能够生成自然的语音,还能精确地模仿说话者的性别、年龄、口音、情绪语调以及职业特定的说话风格。这使得它能够创造出高度个性化的虚拟角色,并让用户感受到更加真实的人机交互体验。
视频地址:https://www.youtube.com/watch?v=betkiRw9MD8
更令人惊艳的是,OCTAVE能够在毫秒级别内完成语音生成,实现了真正的实时对话,并且还允许用户实时动态地调整生成内容。这意味着,用户可以与虚拟角色进行流畅自然的实时对话,并根据需要随时改变其说话风格和内容。
据了解,OCTAVE结合了Hume AI自研的EVI2模型以及OpenAI的语音引擎、Elevenlab的TTS语音设计和Google Deepmind的NotebookLM等多个系统的优势,这使得它在语音生成和理解方面都表现出了卓越的性能。
OCTAVE还支持多个虚拟角色的语音生成,每个角色都可以拥有完全不同的语音风格、情绪和口音,甚至可以生成完整的播客内容。这为内容创作者提供了极大的便利,让他们能够轻松地创作出多样化的音频内容。
此外,OCTAVE能够生成丰富多样的情绪语音,包括愤怒、兴奋、悲伤、平静等。它能够捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,更好地表现复杂的情绪。在理解文本语义的基础上,OCTAVE生成的语音与当前主流语言模型(如GPT系列)的语言理解能力相当,确保了生成的语音内容准确且符合语境。
官网:https://www.hume.ai/blog/introducing-octave
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales