很多人在学生时代都有一个音乐梦想,这个乐队梦通常最后苦于凑不齐吉他手、鼓手、贝斯手、键盘手等等乐手而做罢。
但是随着人形机器人的发展,这种充人头的事情变得不再是事了:机器人乐手们踏着七彩祥云来了,拯救两个拥有艺术细胞的科学家组成了第一支“人机乐队”。
“人机乐队”在2019年人形机器人应用挑战赛(HAC)上演奏
SnoBots乐队在2019年IROS的HAC人形机器人应用挑战赛上,以一首鲍勃·迪伦的第一首歌《Knockin’on Heaven’s Door》拉开序幕。
左边的高个子是鼓手:Polaris (北极星)、右边的矮个子是键盘手:Oscar(奥斯卡)
Snobots乐队是加拿大曼尼托巴大学理学院计算机科学系自主代理实验室的一个类人机器人团队,由机器人键盘手Oscar(奥斯卡)、机器人鼓手Polaris(北极星)、人类主唱MengCheng Lau和人类调音师Chris 合作。键盘手和鼓手经过短暂的调试节奏后,“两人两机”开始协同演奏起来:“It's getting dark too dark to see~Feels like I'm knockin' on Heaven's door~”。
最终这支乐队获得当年人形机器人应用挑战赛第二名,这是他们后续在2020年人形应用挑战赛中比赛的视频:
除了做2019年人形应用挑战赛(HAC)音乐主题的机器人,这个团队在2017年魔术主题机器人的第一名,和2018年同主题的第二名。
目前该团队基于SnoBots Band的音乐主题研究还在继续,作者在2024年5月提交了最新的研究,并于2025年1月发表于PeerJ Computer Science期刊。
Polaris (北极星)是一个中型人形机器人,高92厘米,重7.5公斤,有20个自由度(Degrees of Freedom),使用Intel双核i5处理器。
(A) 鼓手 polaris (北极星)、(B) MIDI鼓模拟器: Hydrogen.
如图A所示,polaris (北极星)的鼓击通过JoyToKey软件转换为节奏输入。
如图B所示,Midi应用程序使用鼓套件进行操作,鼓声的不同组合已经被编程。例如,JoyToKey会将任何击鼓或踏板的动作转换为相应的键盘敲击,以产生鼓手Polaris (北极星)的演奏所需的节拍和声音。
像摇滚乐队一样念鼓单
在鼓的运动控制上,Polaris (北极星)采用了与键盘手Oscar的视觉伺服等模块相同的策略——视觉模块捕获表格内容并识别每帧播放的音符,这些音符随后输入鼓手Polaris (北极星)的运动控制模块——它可以根据屏幕上显示的乐谱调整演奏。
键盘手Oscar(奥斯卡):
人形键盘手Oscar(奥斯卡)身高51厘米,体重3.5公斤,具有20个自由度。它具有128个声音和一个集成扬声器,拥有八个鼓垫和一个四向操纵杆,随着四个旋钮的增加,奥斯卡可以实时操纵8个不同的参数,将熟练地演奏音符和和弦。
(A)奥斯卡正在演奏键盘、(B)定制化手指
奥斯卡使用Robotis-OP3动作编辑器来编程预定义的动作,因为它的手指是定制的,所以有两种演奏方式。第一种为每只手有一根手指,可以弹奏单个白键,左手处理中央c键左侧的低音键,右手处理相反方向的低音键。第二种方式使用左手一个手指和右手两个手指来演奏和弦,为了适应手指定制的限制,早就预先定义了主要和弦,如C大调,A小调,G大调等。
人形机器人Oscar的简化和弦图
1.统一的ros框架:
为了简化操作并提高效率,鼓手Polaris将自己的ROS框架迁移成与键盘手Oscar相同的Robotis-OP3 ROS框架,这样它们就拥有了一样的“底层逻辑”。
这个统一的ROS框架是主要服务于四种要素的中心枢纽:交互、多事件、网络和动作。
交互组件侧重于机器人与人类或其他机器人之间的信息交换,通过管理输入和输出以实现无缝通信。
Multi-event元素处理机器人可能需要执行的任务管理,允许ROS框架协调各种活动并确定优先级,确保有效地处理并发操作。
网络化是指在不同机器人之间或机器人与外部系统之间建立和维护通信链路,保证机器人能够交换数据和协作,便于分布式作业。
Action组件负责执行机器人的任务和行为,包括控制机制和算法,使机器人能够执行特定的动作,无论是预先编程的还是基于实时数据动态确定的。
统一的ROS框架集成了以上四种元素,为机器人操作提供了一个内聚和高效的平台,使机器人能够以同步的方式进行交互、管理多个事件、网络和执行动作。
统一的ROS框架
为了适应Oscar和Polaris在机械结构、执行器和子控制器方面的差异,科研工作者们又更新了运动和外围模块,使Polaris能够无缝集成到Robotis-OP3 ROS框架中。
相关模块在简化机器人音乐家的操作
基本模块,如动作和行走模块——每个模块集成多个ROS节点,这些节点作为ROS计算图中的核心构建块。
例如,Event模块由与特定音乐事件(如击鼓和键盘演奏)相关的各种节点组成。该模块通过标记节点主题进入Vision模块。通过这样做,它接收视觉伺服的基本数据。经过处理后,Event模块将必要的事件数据传递给Motion模块,指导机器人在表演期间的物理动作。
在保持节奏和谐方面,同步模块起着重要的作用。配备BPM(每分钟节拍)和歌曲舞台同步工具(例如,主歌和合唱),该模块确保机器人在整个表演过程中保持同步。具体来说,会弹键盘的机器人奥斯卡(Oscar)充当服务器,播报歌曲的舞台流程。与之对应的打鼓系统北极星(Polaris)作为客户端运行,根据收到的流程进度开始打鼓。
为了使机器人对动态视觉信息做出快速响应,这里采用了一种颜色分割算法来区分钢琴、机器人的手和背景的颜色配置文件:使用对光照变化不太敏感的色彩空间,如HSV(色相、饱和度、值)来识别钢琴键和机器人手中的颜色,并将其与图像的其余部分隔离开来;再利用分割后的图像,计算出钢琴键相对于机器人双手的位置和方向。
这些信息被输入到一个控制回路中,该回路调节机器人的手臂和手的运动,使其与琴键对齐,从而精确地敲击出音符。
键盘手奥斯卡(Oscar)钢琴视觉伺服控制器
MC、Chris(人类DJ)和机器人音乐家Oscar和Polaris之间的动态互动是有流程的:最开始需要奥斯卡检查声音,这个步骤可以确保键盘的所有设备和设置都调好了。
在奥斯卡的试音结束后,压力给到Polaris北极星。它需要进行声音检查,来保证自己打的鼓与表演的整体节奏一致。这两个流程至关重要,因为它确保了机器人鼓手的鼓声输出与人类音乐家完美同步,才能创造出有凝聚力的音乐体验。
“两人两机”的集体表演
对于这种“两人两机”式的集体表演,一个重大挑战就是保持精确的定时,特别是在节拍转换期间,需要精确的同步,以确保音乐流畅。机器人鼓手北极星(Polaris)必须像人类鼓手一样,以同样的灵活性和反应能力来适应这些音符的转变。
高级编程和实时调整可以解决上面的问题,使得这种集体表演可以展示出人机互动在音乐中的无缝融合,它超越了传统的音乐界限,为观众提供独特而创新的体验。
站在科技与艺术交融的新纪元门槛上,研究人员还在三重维度里寻找更优的答案:
同步算法的精确:雕琢毫秒级的时间校准与节拍捕捉技术,让机器之躯在聚光灯下与人类艺术家更好的协作演奏。
情感交互的突破:开发音乐情绪解析系统,建立机器人与观众的实时沟通。
即兴创作的革命:构建基于深度学习的动态音乐生成模型,打破预设乐谱限制,让键盘手奥斯卡(Oscar)也可以来一段freestyle。
而得益于动作捕捉、强化学习等方面的研究进展,机器人得以更加自主的方式进行演奏。
比如清华大学的“墨甲”机器人乐队,由项目首席科学家、清华大学美术学院副教授米海鹏组织的团队研发,这是国内第一支具有中国文化特色的机器人表演团体,三个机器人乐师分别演奏了竹笛、箜篌、排鼓这三种传统乐器。
“墨甲”机器人乐队演奏乐曲《墨甲幻音》
2024年,上海傅利叶公司率先展示了基于动作捕捉技术的GR-1人形机器人表演架子鼓技术,而真正让GR-1实现架子鼓技能的是背后复杂的算法与人工智能技术。以往人形机器人会采用固定化编程方式进行动作的输出与设定,但随着多模态大模型的加入,人形机器人在学习技能方面有了全面的突破。
“傅利叶智能GR-1为我们完美地呈现了一场架子鼓表演,GR-1不仅实现了动态环境下的手、脚、眼、脑、协调控制,同时也再次展示了大模型赋能人形机器人快速模仿学习的能力,让大众再次刷新对具身智能的认知。相信在不久的将来,具身智能人形机器人通过模仿学习人类一次动作,即可轻松掌握人类技能来完成相关工作任务。”
机器人已经走进需要灵光乍现的艺术领域——音乐圣殿的穹顶之下,硅基生命正以二进制的心跳,叩响与人类共鸣的响指。
文章来自于“具身智能大讲堂”,作者“ 冯浪时、李鑫”。