ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI就业指南:AI音乐博士毕业入职字节Seed的就业分享
10025点击    2024-11-11 17:09
现在的社会卷的厉害,特别是年龄焦虑,大多数博士毕业后都不再年轻,多数有编制的单位对于博士年龄要求好像是在40岁还是45?记不清了。
前段时间与一个正在读博的朋友简单聊过,说是超过35岁就业就很困难了。
现在社会已经卷成这样了??那过了35岁的人该怎么办?
下面由AI领域的博士给大家答疑解惑


今年拿了腾讯 Al Lab(青云计划”), 字节跳动(Seed) 的 offer, 国外有之前实习的 Sony Research 和 Yamaha 的 return offer, 也有正在面试的 Adobe 和 Meta。 这些工作机会的方向都和我的博士工作完全 match, 没有转方向的痛苦。


最后, 我接了字节 Seed 团队的 offer, 结束秋招。


背景介绍  


我是一个方向比较独特的博士, 做的是音乐生成。今年年底四年顺利毕业, 最后的选择是: 接了字节 Seed 的 offer, 在工业界继续进行研究。


逛知乎的这个方向的同行们应该多少读过我在知乎写的鸟瞰 ISMIR 知乎专栏系列。和很多人一样, 我是从其他方向转来计算机音乐方向的, 早年我边看边学, 留下了一些笔记, 现在还挂在知乎里有人不时点赞。


虽然 AIGC 火起来的这两年, 看上去音乐生成已经成为一片红海, 但我入行的时候并不是这个样子的。甚至我之所以出国读博, 是因为国内只有屈指可数的两三个老师有计划培养这个方向的博士 (当然现在国内稍微多了一些, 央音、上交、港中深 等一些学校都开始招收 PhD 和工作岗位)。


我在读博的时候, 认真考虑过自己博士毕业之后会不会没饭吃, 会不会被迫转行。确实是一个扎扎实实的穷方向。大部分人都是在为爱发电, 扎扎实实将自己的博士四年投入到音乐方面的各种研究之中。


但是这两年大模型和 GenAI 的风一吹, 音乐生成方向突然又行了。我算是一个比较幸运的学生, 在行业的 bar 不高的时候入行, 在市场壮大之际毕业。


找工作过程中, 其实有很多感慨。


1. 找工作是一个长久的过程。很多时候, 在读博期间建立的 connection 能很大程度上帮助我拿到面试, 找到工作。在我秋招的过程中, 给我面试的公司, 无一例外都是之前建立过联系的同行。我在找工作的时候, 能把简历直接递给 hiring manager 之后, 整个流程都很顺利。


2. 一个领域的工作机会, 很多时候更大的决定因素并不仅仅是个人努力。我 2019 年的时候还在做音乐结构分析, 而 2023 年之前, 计算机音乐方向都是不温不火的方向。现在生成方向搭上了 GenAI 的快车, 让更多同行能拿到高薪, 但这和他们的选择并没有什么关系; 一个公司有没有给 offer, 很多时候更可能是很多其他因素导致了这个结果。


这个时候, 有一句勉励的话可以恰如其分地用在这里:


世界上没有快乐或痛苦; 只有一种状况与另一种状况的比较, 只是如此而已。只有曾身受过最深切的悲哀的人, 才最能体会最大的快乐。摩莱尔, 我们必须经验过死的痛苦, 才能体会到生的快乐。所以, 我心爱的孩子呀, 享受生命的快乐吧! 永远不要忘记, 在上帝揭露人的未来以前, 人类的一切智慧是包含在这四个字里面的: "等待" 和 "希望"。


确实是这样的。


煎熬的毕业前半年  


毕业的前半年无疑是煎熬的。


因为从这个时候开始, 全职的 offer 就可以开始陆续谈下来了。


我在英国玛丽女王大学 (Queen Mary University of London, QMUL) 的数字音乐中心 (Centre for Digital Music, C4DM) 读的 PhD program。实验室近几年保持着 70 余位研究计算机音乐的 PhD 学生, 从规模上应该是全世界最大的计算机音乐实验室。


这个 PhD program 与一般的英国 PhD program 的差别在于: 英国传统上是三年制, 而我的 PhD program 是四年制, 第四年结束之后可以提交学位论文, 这个阶段最长可以有一年。我们称这个阶段为 "writing-up" 阶段。这就使得我接受的 training 像是一个半英半美的结合体。


我本科毕业之后没有直接读博, 而是 gap 了一年之后申请了 PhD。在第一年经历了上课的过渡期之后, 我在博二博三期间的产出其实并不算多, 加上实验经历并不如同学们那么充分, 于是我经历了长达一年的可怕阶段: 做什么实验, 什么实验 fail。我又是一个科研自尊心很强的人, 博三结束之后, 我焦虑地整夜整夜睡不着觉。


事实上, 那是光明之前的最后黑暗, 因为构成我毕业论文的主要的三篇论文, 都是在我博三结束到博四期间构思完成的论文。


那个时候要撑过来, 其实很感谢我的博导 Prof. Simon Dixon。用我们实验室的话来说, 他的风格有点像 big daddy, 温暖呵护每一个博士生。虽然他有点上年龄了, 不是总能跟得上科研前沿, 但他有三个优点: 我想做什么, 他都支持我去做, 他总是正确地指出我科研不成熟的地方, 从 idea 完善, 到实验设计, 到论文写作。把我摆正之后, 他又开始放羊。


MIR领域的毕业选择: 高校还是工业界?  


尽管我们领域这么冷门, 但博士毕业之后的主流出路仍然是两个: 高校或是业界。


事实上,我在就读博士期间,对这个选择一直保持open的态度。


学术界的选择  


学术界来说,目前高校仍然是一个比较卷的选择。可以参考今年大学放出来的名额:



我没有去学术界的原因有两个:  


1. 大模型时代, 工业界资源更为丰富。  


这一点想必同行们都深有感触。现在需要训练一个参数量比较大的模型,学校实验室的那一点显卡根本是不够用的。如果有机会去公司实习,有足够的A100,H800可以用,那么很多idea才有实现的可能。如果有机会去公司实习,有足够的A100,H800可以用,那么很多idea才有实现的可能。


2. 大团队作战的工业界实质上领先于学术。  


这一点也可以从这两年大模型的突破性工作的比例看出来。最具代表性的工作,基本出自Meta,Google这些公司的团队作品,这一点音乐方向也是差不多的。


换而言之,如果要上大模型的战车,那么工业界是一个更加实际的选择。


工业界的选择


来看一下目前涉及音乐业务的工业界版图:


大厂:


•ByteDance(经费充足,研究人员多,产出稳定)

•Meta(音频组兼做音乐,研究人员多,不专一,报酬丰厚)

• Google DeepMind*(经费充足,研究人员中多,公司导向不开源)

•Adobe(经费中等,研究人员少,侧重编辑产品落地,学术界活跃)

•NVIDIA(经费中等,研究人员少,音频组兼做音乐)

• Sony Research & Sony CSL(经费较少,研究人员多,气氛最接近学术界的公司)

•Spotify*(欧洲知名大厂,经费充足,产出稳定,气氛优秀)

•Apple(Apple Music和Shazam部门,整体来说是比较四平八稳的产品部门)

•Dolby*(研究做得很不错,只是Music研究比例不高)

•Bose(音频组有时做一些音效研究)

• Microsoft Research Asia(虽然产出多,但是名额偏少,偏重小团队作战)

•腾讯&腾讯音乐TME*(经费中多,研究人员多,注重产品转化)

•网易云音乐(经费中等,最近学术产出下滑)

•华为中央媒体研究院(base HK,有一些音乐研究人员,最近成果多起来了)


中小厂


• Suno*(目前在积极招人)

• Stability AI(前公司还是很有感情,很有活力的start-up+)

• Udio(不知道在不在招人)

• Riffusion(创业公司)

• Music AI(前Moises,人数不多,学术研究气氛还不错)

• Deezer(欧洲知名公司,学术上很有名气)


非AI公司


•Yamaha(经费中等,Al研究人员少,非常专注于做很music的方向)

• Steinberg*(Yamaha子公司,AI研究人员少,注重产业化)

• iZotope & Native Instrument(近年有一些AI技术和论文,但不多)

•BBC(我们实验室的合作公司,总体上做得偏音频)

•Universal*(就是那个环球音乐公司,研究人员少,但是也有学术产出)


更多的我就不列举了。


当然,值得多说一句的是,这些公司并不是一直在招人。很多情况下,音乐相关的岗位一年可能只有寥寥数个,相对于GenAI的大方向来说,确实不是性价比很高的方向。


最后的选择:字节跳动Seed语音团队


借用一句朋友的话,在团队里工作是这样的:


找到了一个自己愿意醉心研究的领域,获得成就感和自我实现的同时,还能获得非常对得起自己付出的经济回报。


总体来说我觉得十分贴切。


我现在在的团队是Seed-语音团队,而音乐方向的研究则是Seed-语音部门的一个重要子方向。


Seed语音团队在过去的很长一段时间里,一直是计算机音乐领域的学术会议常客。可以用这样一句话来说,每一个入行MIR的研究者,都会很快在工作中引用到组里发表的至少一篇论文。


虽然MIR领域做的人不多,一篇论文有50引用就是比较高的引用了。组里这样的论文不在少数,并且遍布MIR的各个方向。举几个例子,我们领域的人应该多少听过:


• 音频编码器PANNS:


https://ieeexplore.ieee.org/abstract/document/9229505/


钢琴音频转MIDI的重要数据集GiantMIDI-Piano:


https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.07061


最早的text-to-music模型之一,MeLoDy:


https://link.zhihu.com/?target=https%3A//proceedings.neurips.cc/paper_files/paper/2023/hash/38b23e2328096520e9c889ae03e372c9-Abstract-Conference.html


Music基座大模型Seed-Music:


https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2409.09214


专用于MIR各类任务的当时最好的模型之一:


https://link.zhihu.com/?target=https%3A//ieeexplore.ieee.org/abstract/document/10448314


于是在2024年3月,在我毕业的前8个月,收到ByteDance的面试邀请的时候,我并没有犹豫便答应了。


面试流程


由于保密协议限制,我不能描述更多细节,只能大致说一下时间线。


•2024年3月,我收到了现在直属上级的邀请。

•2024年4月,第一轮面试到第三轮面试。

•2024年5月,和我的直属上级的直属上级约了slot进行一对一谈话。

•2024年5月,我提出了package的疑虑,字节讨论后给了一轮涨薪(可以看出字节给优秀phd的待遇还是相当好的)。我当日就签下了offer。

•2024年10月,我在上海提前入职。


说一下面试期间经历的事情。


我的面试战线说长不长,说短不短。因为我在上市场的时候,第一个接到的面试邀请就来自字节跳动,甚至来自我现在的直属上级。


我当时同时拿到的offer不少,其实选择上是比较多的,于是我花了大约一个月的时间去约我认识的工业界和学术界的同行,去刷一亩三分地看大家的选择。


所以我最后为什么会选择字节呢?


1.第一点是因为确实是方向的match程度位于前列。


这两年,随着大模型的发展,我逐渐意识到自己一个人单打独斗,已经很难在很基础的领域有很大的突破了。我渴望自己有高水平的合作同事,渴望一个算力充分的实验室,渴望一个专心致志做音乐研究的地方。


虽然上面提到了那么多公司,但是我个人认为能在音乐大模型和MIR上有长期竞争力的公司,目前看来只有Google DeepMind和ByteDance,原因我在上面做了解释。而随着2023年DeepMind逐渐转向封闭式科研,不将自己的第一手产出公之于众,ByteDance在学术方面反而是一个独树一帜的存在。


2.第二点是字节,尤其是Seed团队,能够开出很有竞争力的条件。


•薪酬对得起回报。


在这些选择里,字节给出的包比别的选择都更多。


因为保密协议,我能说的很有限,但是@丁宵汉 博士(同时也在字节)可以帮我作证,字节给的package是一流的,十分符合我对人才计划薪水的期望。


这里尤其推荐有水平的phd来试试字节的TopSeed人才项目。不仅加入核心团队,而且薪水给得非常理想。


•公司重视Seed团队的中长期产出。


组里目前在关注大模型条件下的音乐和音频的各种各样的有趣科研问题。Seed团队目前是ByteDance的研发主力团队,我看到的公司资源和投入都在往组里倾斜。这包括了我闻所未闻的显卡数量(字节内部计算平台Merlin有多好用一些同行应该也有所耳闻),远超我自己之前实验室的算力资源;从战略上,豆包大模型*目前是公司的发展侧重点。


组里目前的中长期目标和考核,目前来看都以技术研究为导向。目前来看,团队内部的科研气氛还是十分浓厚的。这种对长期目标的关注体现在在经费和投入的稳定性上,足够我支撑未来3-5年的持续科研研究,而不需要担心自己被频繁的业务调动而去分配做自己不愿意做的工作。


正如我之前所说,组里在技术的沉淀上是充分的。在入职之后,我看到了海量的内部技术文档,涉及到公开和未公开的各种实验,说实话让人十分感慨。在音乐生成和MIR这个小众方向,有了这些实验数据,说是少走几年弯路也不为过。


•存在从技术到工程的转化。


字节有很多技术可以转化的地方。我们这个方向来说,能完成从科研学术产出,到技术转化、产品落地,完成整个闭环的大厂选择并不多,我个人观点是ByteDance>腾讯音乐TME>网易云和其他公司。


我觉得这也是工业界独有的魅力之一,那就是能和组里的工程同事通力合作,看到技术被实际转化的那一天。我觉得这也算是不违反我进入音乐科研的初心的。


3. 有什么纠结的点呢?


纠结的点也有。首先是大家都默认的,字节的工作强度确实不低。然而,由于我不幸做的是LLM*和GenAl,这是一个发展极快的方向,据我所知Meta和Adobe这些传统意义上福利给足的美国大厂,在这个方向也要求员工优胜劣汰。我在一亩三分地上看到了很多相关讨论,不少人指出Meta这个方向也在无休止地996工作。这样对比下来,字节的工作强度并没有那么突出,尽管这是一个颇有黑色幽默的结论。


可能是因为我自认为自己还在职业和学术的上升期,愿意在未来三到五年里继续秉承着一股冲劲认真科研,将自己保持在学术一线。从这层意义上来说,工作和人是双向选择的关系。也许之后有一天,我经历了足够多,我会选择离开工业界,去找一份更加轻松的科研工作。


最后


希望大家找工作顺利。有什么想了解的,包括申请博士项目,实习内推,Seed团队的校招和社招内推,都可以私信联系。



文章来自 “ 知乎 ”,作者 张逸霄​​ AI音乐方向博士



关键词: AI , AI就业 , AI音乐 , AI博士
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api