两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
6827点击    2025-04-24 18:51

两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


谷歌现象级产品NotebookLM,两个本科生自学3个月就复刻了?


Nari Labs刚刚开源的Dia-1.6B,能够生成关于任何主题的对话,语音音色自然,还会添加语气、咳嗽声、笑声等。


官方演示提供了与热门语音模型ElevenLabs和SeaSame的对比,先来感受一下:


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


Dia-1.6B模型权重与推理代码全开源,在GitHub上不到一天就获得近5000标星。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


目前Dia 1.6B在单张英伟达RTX A4000上每秒约可生成40个token,而86个token大约是1秒的音频内容。


也就是说,在更强的GPU或者多卡配置下可以做到实时生成音频。


官方表示完整版模型需要10GB显存运行,未来会添加量化版本,以及CPU支持。


不过开源社区已经通过优化torch编译进一步提高推理速度和节省显存。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


如果没有算力资源,也可以到HuggingFace试玩Demo,不过很可惜,目前版本不支持中文。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


真实语气语音生成


使用Dia-1.6B非常简单,用[s1] [s2]标签带标两个不同的音色,目前模型为针对任何音色微调,每次都会随机得到不同的音色。


如果想保持特定音色,可以添加音色提示词(教程稍后发布)或固定随机种子。


语气会自动适应文字内容,如官方演示中一段与着火了有关的对话,AI语气就明显紧张起来。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


相比之下,Eleven Labs和Seasame模型生成的语气还是不紧不慢的。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等要素,特别是笑声会与。其他模型暂不支持这个功能。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


不过目前版本的在线Demo也有一些问题,由于最大生成时长相对固定,输入的文字越多语速就会越快。


如果在参数中调整速度因子,会像调整音频播放速度一样让声音更低沉,没那么自然了。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


两位本科生自学3个月打造


Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),


其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


Toby Kim透露项目灵感正是来自谷歌去年爆火的NoteBook LM自动生成播客对话功能,但他们想要对声音的控制力更强,脚本的自由度更高。


他们尝试了当时市面上所有的文本转语音API后,认为没有一个听起来像真实的人类对话。


于是他们靠申请免费的谷歌研究计划TPU资源训练模型,


并推荐学习入门TPU的团队去看DeepMind的《How to Scale Your Model》 和HuggingFace的《Ultra-Scale Playbook》


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标


未来,他们计划把Dia打造成一款完整应用,可以创建有趣的对话、重新组合内容并与好友分享。


在线试玩:


https://huggingface.co/spaces/nari-labs/Dia-1.6B


How to Scale Your Model


https://jax-ml.github.io/scaling-book/


Ultra-Scale Playbook


https://huggingface.co/spaces/nanotron/ultrascale-playbook


参考链接:


[1]https://x.com/_doyeob_/status/1914464979266449863


[2]https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/


文章来自于微信公众号 “硅星人Pro”,作者 :梦晨


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标

关键词: AI , AI语音 , TTS , Nari Labs , Dia-1.6B
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0