按部就班 vs. 好奇心驱动,哪个更容易出研究成果?
CVPR 2024 的最佳学生论文,竟然是用一个月的时间写出来的。
北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。其中,获得最佳论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。
据 Mip-Splatting 论文一作 Zehao Yu 的导师、图宾根大学教授 Andreas Geiger 透露,这篇论文从想法公布到成稿,只用了一个月的时间。
而且,他还提到,Zehao Yu 之前参与过多个项目,并发表过自己的论文。但在 Mip-Splatting 项目之前,他从未接触过高斯泼溅技术,对于高斯泼溅的入门也是在业余时间以个人兴趣的形式展开的。这让他不禁感叹,「研究是高度非线性的,往往很难规划,这正是它令人生畏的地方,同时也令人兴奋。我们必须接受这一点。」
Mip-Splatting 论文的完整标题是「Mip-Splatting: Alias-free 3D Gaussian Splatting」。在论文中,Zehao Yu 等人介绍了一种用于 3D 图像渲染的抗锯齿 3D 高斯泼溅方法 ——Mip-Splatting。
3D 图像渲染是指生成三维图像的过程。想象一下电脑游戏中的那些逼真的场景或动画电影中的角色,它们都是通过渲染技术从一堆数据变成我们看到的图像。
在计算机图形学中,锯齿(alias)是指图像边缘出现的锯齿状不平滑现象(见下图)。抗锯齿技术就是用来消除这些锯齿,使图像边缘看起来更加平滑和自然,近几年颇受关注的高斯泼溅就是这样一种技术。它利用高斯分布来平滑图像边缘,从而减少锯齿效应,使得图像更为平滑和自然。
在回顾 Zehao Yu 和他的研究历程时,Andreas Geiger 提到:
Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他没有用过高斯泼溅方法。事实上,他当时正在研究另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技术。他喜欢在业余时间尝试新事物并研究新的模型。
3DGS(3D Gaussian Splatting)是当时的新技术。简而言之,它可以从几个输入图像中生成逼真的新视角,比 NeRF 和之前的其他方法更快。但 Zehao 对在超出训练姿态分布时渲染的表现感到困惑。这些渲染效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这个方法是否够好,是否值得发表。
在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的主要原因是低通滤波器。在使用泼溅方法进行渲染时,低通滤波器是非常常见的。但当它应用于优化框架(从多视图图像重建)时,它会引入一种偏置,使得真实的 3D 高斯变小(因为滤波器在渲染过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但我们不能简单地抛弃低通滤波器,因为这样就无法实现抗锯齿。
我的解决方案非常简单:1)我们应该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」
时间非常紧张:从想法到 CVPR 截止日期只有 1 个月。通常这种努力不会顺利进行,因为剩下的时间太少,无法进行论文润色或实验。但 Zehao 坚信他甚至可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最佳学生论文奖。我们非常感谢社区、评审、领域主席和奖项委员会对这个小小想法的认可。
Mip-Splatting 与其他方法的效果对比。
论文链接:https://arxiv.org/pdf/2311.16493
一个简单的想法,用了短短一个月就写成了论文,还拿到了 CVPR 最佳学生论文奖,不知其他研究者听到有何感想。
Andreas Geiger 也谦虚得说,这里面有运气的成分(有人可能认为这篇论文是增量式创新),评审的结果也未必 100% 公平。但他之所以分享这段经历,只是想要表达:
研究往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的想法。用未曾设计过的方式测试现有模型。不断前进。这就是每个研究人员的核心:好奇心。试图探究事物的本质。深入了解它们,从而(有时在不经意间非常意外地)做出新发现。
写到这里,他还推荐了苹果高级科学家 Vladlen Koltun 在 CVPR 2018 年的一个演讲,主题是「Doing (Good) Research」。(演讲链接:https://www.youtube.com/watch?v=4LEZED1YXm0&t=1420s)
不过,他也指出,在现行的科研系统中,科学家要通过提交研究计划、 撰写资助申请书来获取研究项目资金,这和好奇心驱动的研究理念很不相称,尤其是在 AI 这样一个快速发展的领域。
「你很少能制定出一个精确的 3 年甚至 5 年愿景,并完全按照这个愿景行事。更有可能的情况是,在研究过程中会出现一些有趣的相关研究问题,这些问题值得研究,你不应该因为它们与你最初的研究计划不完全一致而不去研究它们。」Vladlen Koltun 写到。但对此,他也没有很好的解决方案。
最后介绍一下论文一作 Zehao Yu。他本科毕业于厦门大学,之后在上海科技大学拿到了硕士学位,2021 年前往德国图宾根大学读博。他的研究重点是计算机视觉和机器学习,特别是 3D 视觉(深度估计、平面检测、多视图立体视觉、3D 重建、3D 人体建模)。
个人主页:https://niujinshuchong.github.io/
文章来源于“机器之心”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda