Z Highlights
01 开始:从Wolverine到Iyo
2018年,Alphabet 的 X 实验室(也称为'Moonshot Factory',登月工厂)正在悄悄研发一款革命性的听力设备,该项目被命名为“金刚狼”。这个大胆又略带侵略性的名字大约是参考了漫画书中的变种人角色金刚狼。金刚狼这个角色具有极其敏锐的感官,特别是听觉能力异常发达,能够感知极其微小的声音或环境变化。
2021年8月,该项目从谷歌中独立了出来,项目负责人Jason Rugolo成立了初创公司Iyo。2024年x月,Jason选择在TED大会上推出新品Iyo One,官网上打出的名号更是:“The first-ever audio computer(有史以来第一款音频计算机)”。
从金刚狼到Iyo One,这个团队一直在做的就是让计算机改善我们的生活,让语言和声音能部分替代屏幕上的文字,使我们能从手机屏幕上“喘一口气”。这款大约一枚硬币大小的金属圆盘塞下了各种计算机和蓝牙组件:硬件方面4nm 工艺的 CPU、最高 2GB 的内存、32GB 的闪存以及电池、蓝牙、WiFi、GPS 等模块,装载了波束成形、计算听觉场景分析、机器学习降噪、AI 转录和翻译等APP。
目前的人工智能市场主要分为AI软件、AI硬件、AI服务。其中最小的应用市场就是AI硬件,根据2020年的数据,AI硬件只占市场规模的8.5%。尽管AI硬件市场目前规模较小,但它实际上是AI技术的基础设施,特别是在高性能计算(如训练大型AI模型)、自动驾驶、边缘计算等场景中,AI硬件是不可或缺的。同时AI硬件市场的扩展不仅来自于企业需求,还包括消费类市场的爆发潜力。
根据相关市场研究,AI硬件市场的年复合增长率(CAGR)预计在2020年至2027年间达到35.6%。这意味着随着AI技术的逐步成熟,尤其是对高性能计算和边缘设备的需求增加,AI硬件市场将迅速扩展。这意味着这是一片广袤的尚待开采的石油。
短时间内无论哪家公司说其产品能替代手机或计算机都是天方夜谭,但是市场对于Iyo 的表现依旧非常期待,期待它能通过对传统耳机和计算设备的重新定义给我们一个不一样的惊喜。
02 产品:从专业耳机到音频计算机
穿戴式AI应用硬件并不是Iyo的独创,AI蓝牙耳机领域也曾有初创公司涉足。但是市场才是检验产品好坏的地方,而不是实验室。Humane推出的Ai Pin操作复杂、反应迟缓,且在户外使用时投影屏幕几乎不可见,等等硬伤简直是挑战用户耐心,何况售价高达699美元。至于Rabbit R1,定位是“用户与智能手机之间的中介”,号称由AI大模型系统驱动,但后来被曝光它其实只是一个运行在Android系统上的应用程序。它们失败的共同点是:过于依赖“新颖”技术,而忽视了实用性和用户体验的平衡。
技术创新不应仅仅追求功能的多样化或高端化,而是必须真正解决用户的实际问题。硬件设计也要紧紧围绕用户的生活场景,以提供实用、易用的解决方案。忽略这一点的产品,即便技术上看似前沿,也难以获得用户青睐。
Iyo One一共发布了两款产品,第一是Vad Pro,一款面向音乐专业人士的高端音频监听设备,另一个是同名产品Iyo One,世界上第一款音频计算机。
图片来源:Iyo One
Vad Pro和Vad都是面向音频专业人士和音乐创作者的高端音频产品,旨在满足专业用户对音频质量的严苛要求。
参考级音频还原:Vad Pro使用高精度数字信号处理(DSP)技术,确保音频还原的准确性。DSP技术能够在不影响原始音质的情况下,精确还原音频信号的各个频段。通过减少音频处理过程中的失真,Vad Pro可以输出未经加工的“干净”音频,适合音乐创作者和音频工程师进行母带制作和混音处理。
场景模拟:Vad软件通过3D音频模拟引擎,能够构建不同的虚拟听觉环境,提供极具沉浸感的听觉体验。Vad Pro能通过创建虚拟的听觉环境,比如室内、户外、剧院等,模拟不同场景中的声音传播特性,以确保音频无论在哪种播放环境下都能够保持高质量的呈现。
图片来源:Iyo One
Iyo One 既是音频计算机,又是一款高端蓝牙耳机,集成了音频处理、计算能力和蓝牙设备功能,可以说进可攻退可守。相比之下,竞争对手AI Pin 作为纯粹的 AI 硬件,功能单一,主要依赖 AI 算力和软件支持,作为AI硬件的产品功能没有做好便不能提供其他价值,因此收到大量退货和质疑。
作为单纯的蓝牙耳机似乎是Iyo One的保底用途,但是高质量的音频让这款蓝牙耳机也依旧实力不俗。通过结合高保真音频技术和先进的硬件配置(如Qualcomm S5 Gen 3芯片),耳机能够输出24位/48kHz的高质量音频,确保音乐和人声的原始性和细腻度。同时还还引入了3D音效和头部跟踪技术,通过追踪用户头部的移动,耳机会根据方向动态调整声音的方向,使声音感觉来自一个固定的空间位置。
图片来源:Iyo One
作为音频计算机的用途是Iyo One得以脱颖而出的关键之处。在TED演讲中,Jason为观众展示了一个充满未来感的视频:在一个嘈杂的餐厅里,视频中的主角指示AI助手屏蔽左侧婴儿的哭声,同时增强对面朋友的说话声音。更令人惊叹的是,这位朋友用西班牙语对话,而AI助手即时将其翻译成带有西班牙口音的英语。这个智能、互动、充满科技感的应用场景瞬间点燃了观众的热情,赢得了全场热烈的掌声。Iyo One最引人注目的功能就在于此。
首先是环境音频识别功能,Iyo One 搭载了基于深度学习的环境音频识别算法,能够实时分析声音信号,通过卷积神经网络(CNN)识别用户周围的声音特征,并自动调整音频输出,确保对话音频的优先级。想象一下,当你与朋友在喧闹的街道上聊天时,Iyo One 的AI技术会自动识别并增强朋友的声音,使你们的对话清晰可闻。这种技术使用户能够在背景噪声高达85 dB 的环境中,依然听清对话内容。
图片来源:Iyo One
其次是音频混合现实功能,Iyo One 通过其先进的基于波束成形(beamforming)的空间音频引擎,能够动态构建虚拟的音频场景,创造混合现实音频体验。想象一下,你仿佛身处一场激情四溢的足球比赛,听到观众的呐喊,球员的奔跑声,甚至是球进网的那一刻,所有声音都被清晰捕捉和呈现。这样的场景是可以根据用户的听觉偏好生成的。
实时翻译功能也可圈可点,Iyo One 利用集成的基于 Transformer 架构的自然语言处理(NLP)模型,通过低延迟的云端计算,支持超过40种语言的实时语音翻译。并且翻译能保证准确和流畅,最大延迟不过1.2秒。
图片来源:Iyo One
Iyo One目前分为WiFi版本和蜂窝版本。根据 TechCrunch 的说法,当 Iyo One 与手机配对时,续航可以达到 16 个小时。但是在蜂窝模式下独立使用,续航就会骤降至 1.5 个小时。WiFi版本收费699美元,蜂窝版本收费799美元,但是不收取AI服务的订阅费。
Iyo One的两款产品确实可圈可点,但是接受市场检验的实际情况仍未可知。Iyo One 和未来AI硬件产品应该汲取失败的竞争者的教训,明确用户的痛点和需求进行发力。
03 Jason Rugolo:从学术精英到Iyo创始人
Jason Rugolo是Iyo的创始人兼首席执行官,他在科技和创新领域拥有丰富的经验和扎实的学术背景。
Rugolo 于2002年至2006年在亚利桑那州立大学攻读物理学学士学位,并成为巴雷特荣誉学院(Barrett Honors College)的成员,随后在哈佛大学攻读应用物理学博士学位,研究方向涉及电力存储技术和再生氢卤化物燃料电池(如Cl2和Br2燃料电池)。他的研究重点是为风能和太阳能等可再生能源开发大容量电池存储技术。
图片来源:LinkedIn
2011年,Rugolo 创立了EarthCell,一家致力于消除消费电池废物的初创公司。2012年底EarthCell这段初创经历最终失败,于是Rugolo进入Zero Mass Labs担任执行董事,负责推动科学研究成果向实际应用的快速转化,特别是在社会、环境和经济影响方面的技术突破。时间并不长,大约是一年半,但或许正是这两段时间不长的经历使他积累了初创心得,以及丰富的管理和技术转化经验。
2014年8月,Rugolo在美国先进能源研究项目署(ARPA-E)担任项目主管,负责管理超过88百万美元的28个项目,重点开发天然气车辆、分布式电力生产、机器人技术等创新能源技术。他还启动了FACES资金计划,目标是开发超现实的数字人类,以替代与交通相关的通讯工具。
图片来源:LinkedIn
2017年年底,Rugolo加入Google X,并作为实验室的负责人领导并参与了多个“高度机密”的项目,其中就有Iyo One的前身,“Wolverine”项目。
2021年8月,Jason Rugolo 在2021年从谷歌X实验室(Google X)的“Wolverine”项目中独立出来,创立了Iyo。经过6年的潜心研发,产品Iyo One终于在2024年4月17日的TED演讲中与公众见面。目前,Iyo的旗舰产品Iyo One正逐步推向市场。
至于为什么Iyo不选择留在谷歌继续研发?主要是因为项目负责人Jason Rugolo认为,像Iyo这样的新型AI硬件产品,在外部独立运营会更加健康。他指出,随着项目Wolverine在谷歌X内部快速增长,其他部门开始担心这一项目侵占了他们的资源和领域,导致项目遇到了一些内部阻力,类似于“免疫反应”。所以独立出来的Iyo能在外部获得更多自由度。
04 融资:从初创到2150万美元A轮融资
Iyo One公司自从2021年从谷歌X实验室分拆出来以来,成功进行了多轮融资。融资信息显示,该公司在 2023 年 3 月完成了 2150 万美元的 A 轮融资,投资方包括 Cleo Capital、Lockheed Martin Ventures 和 Think + 等知名风险投资机构。
文章来源于“ Z Potentials”,作者“ Z Potentials”
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales