ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
导师爆料:这篇CVPR最佳学生论文,从想法到成稿只用一个月,源自业余灵感
9197点击    2024-06-22 22:53
按部就班 vs. 好奇心驱动,哪个更容易出研究成果?  


CVPR 2024 的最佳学生论文,竟然是用一个月的时间写出来的。


北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。其中,获得最佳论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。


据 Mip-Splatting 论文一作 Zehao Yu 的导师、图宾根大学教授 Andreas Geiger 透露,这篇论文从想法公布到成稿,只用了一个月的时间。



而且,他还提到,Zehao Yu 之前参与过多个项目,并发表过自己的论文。但在 Mip-Splatting 项目之前,他从未接触过高斯泼溅技术,对于高斯泼溅的入门也是在业余时间以个人兴趣的形式展开的。这让他不禁感叹,「研究是高度非线性的,往往很难规划,这正是它令人生畏的地方,同时也令人兴奋。我们必须接受这一点。

 

Mip-Splatting 论文的完整标题是「Mip-Splatting: Alias-free 3D Gaussian Splatting」。在论文中,Zehao Yu 等人介绍了一种用于 3D 图像渲染的抗锯齿 3D 高斯泼溅方法 ——Mip-Splatting。


3D 图像渲染是指生成三维图像的过程。想象一下电脑游戏中的那些逼真的场景或动画电影中的角色,它们都是通过渲染技术从一堆数据变成我们看到的图像。


在计算机图形学中,锯齿(alias)是指图像边缘出现的锯齿状不平滑现象(见下图)。抗锯齿技术就是用来消除这些锯齿,使图像边缘看起来更加平滑和自然,近几年颇受关注的高斯泼溅就是这样一种技术。它利用高斯分布来平滑图像边缘,从而减少锯齿效应,使得图像更为平滑和自然。



在回顾 Zehao Yu 和他的研究历程时,Andreas Geiger 提到:


Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。

在 Mip-Splatting 之前,他没有用过高斯泼溅方法。事实上,他当时正在研究另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技术。他喜欢在业余时间尝试新事物并研究新的模型。

3DGS(3D Gaussian Splatting)是当时的新技术。简而言之,它可以从几个输入图像中生成逼真的新视角,比 NeRF 和之前的其他方法更快。但 Zehao 对在超出训练姿态分布时渲染的表现感到困惑。这些渲染效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这个方法是否够好,是否值得发表。

在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的主要原因是低通滤波器。在使用泼溅方法进行渲染时,低通滤波器是非常常见的。但当它应用于优化框架(从多视图图像重建)时,它会引入一种偏置,使得真实的 3D 高斯变小(因为滤波器在渲染过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但我们不能简单地抛弃低通滤波器,因为这样就无法实现抗锯齿。

我的解决方案非常简单:1)我们应该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」

时间非常紧张:从想法到 CVPR 截止日期只有 1 个月。通常这种努力不会顺利进行,因为剩下的时间太少,无法进行论文润色或实验。但 Zehao 坚信他甚至可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最佳学生论文奖。我们非常感谢社区、评审、领域主席和奖项委员会对这个小小想法的认可。



Mip-Splatting 与其他方法的效果对比。




论文链接:https://arxiv.org/pdf/2311.16493


一个简单的想法,用了短短一个月就写成了论文,还拿到了 CVPR 最佳学生论文奖,不知其他研究者听到有何感想。


Andreas Geiger 也谦虚得说,这里面有运气的成分(有人可能认为这篇论文是增量式创新),评审的结果也未必 100% 公平。但他之所以分享这段经历,只是想要表达:



研究往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的想法。用未曾设计过的方式测试现有模型。不断前进。这就是每个研究人员的核心:好奇心。试图探究事物的本质。深入了解它们,从而(有时在不经意间非常意外地)做出新发现。


写到这里,他还推荐了苹果高级科学家 Vladlen Koltun 在 CVPR 2018 年的一个演讲,主题是「Doing (Good) Research」。(演讲链接:https://www.youtube.com/watch?v=4LEZED1YXm0&t=1420s)


不过,他也指出,在现行的科研系统中,科学家要通过提交研究计划、 撰写资助申请书来获取研究项目资金,这和好奇心驱动的研究理念很不相称,尤其是在 AI 这样一个快速发展的领域。


「你很少能制定出一个精确的 3 年甚至 5 年愿景,并完全按照这个愿景行事。更有可能的情况是,在研究过程中会出现一些有趣的相关研究问题,这些问题值得研究,你不应该因为它们与你最初的研究计划不完全一致而不去研究它们。」Vladlen Koltun 写到。但对此,他也没有很好的解决方案。


最后介绍一下论文一作 Zehao Yu。他本科毕业于厦门大学,之后在上海科技大学拿到了硕士学位,2021 年前往德国图宾根大学读博。他的研究重点是计算机视觉和机器学习,特别是 3D 视觉(深度估计、平面检测、多视图立体视觉、3D 重建、3D 人体建模)。



个人主页:https://niujinshuchong.github.io/


文章来源于“机器之心”


关键词: CVPR , 大模型 , AI , BioCLIP , 模型训练
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda