AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标
8600点击    2024-06-09 17:51
千万种声音里,只听到你。


最近几年来,很多人都在使用降噪耳机。这种设备能让人在吵闹的环境中享受安静,安心地听音乐或工作。


通常,降噪耳机会通过内置的芯片算法对外界噪音信号进行计算,然后由喇叭发出反向声波进行抵消的方式创造安静环境。


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


不过安静归安静,大多数情况下人们还是需要交流的,这就带来了不小的挑战。人们曾提出过各种解决方案,比如苹果最新款的 AirPods Pro 就会自动调整,如果耳机感知到人在说话就会停止降噪,但用户是无法控制听谁说话,或何时关掉降噪的。


近日,华盛顿大学的一个团队开发了一种 AI 系统,让戴着耳机的用户看着说话的人三到五秒钟来「记录」他们。


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


该系统名为「目标语音听觉」(Target Speech Hearing),能驱动降噪耳机消除环境中的所有其他声音,并实时播放已记录的说话者的声音。这样一来,即使听众在嘈杂的地方走动并且不再面对说话者,也不会丢失重要信息了。


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


也有人表示,它或许能拯救很多婚姻:


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


华盛顿大学团队于 5 月 14 日在檀香山举行的 ACM CHI 计算机系统人因会议上展示了他们的研究成果,还获得了大会的最佳 lunwen。概念验证设备的代码已经开源,可供他人使用。


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


  • 论文《Look Once to Hear: Target Speech Hearing with Noisy Examples》:https://programs.sigchi.org/chi/2024/program/content/147319
  • GitHub 链接:https://github.com/vb000/LookOnceToHear


要使用该系统,佩戴配有麦克风的常规降噪耳机的人只需要点击按钮,同时将头转向正在说话的人。


然后,来自该说话者声音的声波会同时到达耳机两侧的麦克风,误差幅度为 16 度。耳机将该信号发送到板载嵌入式计算机,其中的机器学习软件会在那里学习所需说话者的声音模式。


系统会锁定该说话者的声音,并继续将其播放给听者,即使这对说话者不断变化站位,四处走动也能保持跟随。


随着说话者不断讲话,AI 系统关注注册声音的能力会不断提高,从而为系统提供更多的训练数据。


作者表示,该研究的主要贡献包括:


  • 实现了带有噪声示例的注册网络。设计并比较了两个不同的注册网络 —— 波束形成器网络和知识蒸馏网络 —— 以使用短双耳噪声示例即可有效生成一个可捕捉目标说话人特征的嵌入向量。
  • 实时嵌入式的目标语音听觉网络。TSH 使用生成的嵌入,随后使用 IoT 级别 CPU 上实时运行的优化网络提取目标语音。为此,研究者探索了各种模型和系统级优化,实现了在嵌入式设备上实时运行的轻量级目标语音听觉网络。
  • 推广到现实世界的多径、HRTF 和移动性。作者提出了一种训练方法,仅使用合成数据,也可以保证系统不会被现实世界中未见过的目标干扰。
  • 此外,该研究明确使用多路径进行训练,以推广到室内和室外环境。作者还引入了一种微调机制,可以解决移动源和听众头部方向的突然变化(高达 90°/s 的角速度),并允许系统在注册期间处理听者头部方向多至 18° 的误差。


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标


具有噪声消除功能的端到端目标语音听力系统。(b)一对 Sony WH-1000XM4 耳机在各个频率下启用和不启用主动噪声消除的噪声隔离性能。低频下较大的值是由于入耳式麦克风拾取了佩戴者的声音。(c)模型推理时间的 CDF 图,包括和不包括从输出到输入的缓存缓冲区副本。


「如今,很多人把人工智能等同于基于网络的聊天机器人,可以回答问题,」华盛顿大学保罗・G・艾伦计算机科学与工程学院教授、该研究主要作者 Shyam Gollakota 说道。「但在这个项目中,我们开发的 AI 可根据佩戴耳机的人的偏好来改变他们的听觉感知。有了我们的设备,即使身处嘈杂的环境中,有很多人在说话,你现在也可以清楚地听到单个说话人的声音。」


该团队对 21 名志愿者测试了该系统,受试者对已注册说话者声音清晰度的评分平均几乎是未过滤音频的两倍。


据介绍,这项研究建立在华盛顿大学之前的「Semantic Hearing」研究的基础上(论文《Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables》),该研究允许用户选择他们想听到的特定声音类别(例如鸟叫声或声音),并消除环境中的其他声音。


目前 TSH 系统一次只能注册一个对话人,且只有在没有其他巨大声音从目标说话人相同方向传来时才能注册说话人。如果用户对音质不满意,则可以对说话者进行另一次注册以提高清晰度。


该团队表示,在未来这样的系统可以扩展到耳塞和助听器等更多设备上。


文章来源于“机器之心”


AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标

关键词: AI , AI耳机 , AI降噪耳机 , AI硬件
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner