ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
NeurIPS 2024评审结果公布!AI大佬晒出成绩单,又是被吐槽最严重的一届​
3817点击    2024-09-29 15:11


NeurIPS 2024评审结果已经公布了!


收到邮件的小伙伴们,就像在开盲盒一样,纷纷在社交媒体上晒出了自己的成绩单。


俄亥俄州立大学助理教授晒图,明明评审员给的评价是「论文接收」,却没想到最终决定是「拒收」。



应该给这位审稿人颁发一个NeurIPS 2024最佳AC奖


顺便提一句,今年是NeurIPS第38届年会,将于12月9日-15日在加拿大温哥华举办。



AI大佬晒出成绩单


一些网友们早已晒出了自己的录用结果,好像一件大事。



来自洛桑联邦理工学院(EPFL)的博士Maksym Andriushchenko称,自己有3篇论文被NeurIPS 2024接收。



它们分别是:


论文一:Why Do We Need Weight Decay in Modern Deep Learning?


论文地址:https://arxiv.org/pdf/2310.04415


权重衰减(weight decay),比如在AdamW中传统上被视为一种正则化的方法,但效果非常微妙,即使在过度参数化的情况下也是如此。


而对大模型而言,权重衰减则扮演者完全不同的角色。与最初一版arXiv论文相比,研究人员对其进行了很多更新。


Andriushchenko表示,自己非常喜欢这项新实验,并且匹配了AdamW有效学习率,得到了完全相同的损失曲线,而没有使用权重衰减。



论文二:JailbreakBench(Datasets and Benchmarks Track)


论文地址:https://arxiv.org/pdf/2404.01318


JailbreakBench是全新评估大模型越狱能力的基准。上个月,该数据集在HuggingFace上,被下载了2500次。


而且,多家媒体还使用了这个越狱神器,Gemini 1.5技术报告中也将其用于模型稳健性的评估。



论文三:Improving Alignment and Robustness with Circuit Breakers


论文地址:https://arxiv.org/pdf/2406.04313


这篇论文发布之初,已经掀起了不少的讨论。


其中最重要的一点是,它有助于训练Cygnet模型,其在越狱竞技场上表现出惊人的性能,而这正是对防御是否有用的测试。



来自UT Austin的副教授Qixing Huang也有三篇论文被NeurIPS录用。



它们分别是:


局部几何感知神经曲面表示法CoFie。



以及另外两篇,一个是参数化分段线性网络PPLN,另一个是关于时空联合建模的运动生成。



谷歌DeepMind团队Self-Discover算法被NeurIPS 2024录用。


中国有句古话:千人千面。正如每个人都是独一无二的,每个问题也是独一无二的。如何让LLM通过推理解决复杂的看不见的问题?


Self-Discover最新论文证明了,模型可以从一般问题解决技术的集合中,组成特定用于任务的推理策略。


最新算法在GPT-4和PaLm 2-L上的性能比CoT高32%,而推理计算量比Self-Consistency少10-40倍。


论文地址:https://arxiv.org/pdf/2402.03620


又是被吐槽的一届


不论是哪个顶会,吐槽是必不可少的。


这不,网友们对NeurIPS 2024审稿结果,吵成一锅了。


纽约大学工学院的助理教授称,一篇在NeurIPS提交中得分相当高的论文被拒绝。原因竟是:「模拟器是用C++编写的,而人们不懂C++」。



他表示,论文被拒的现象太正常了,但是对这个被拒理由,实在是令人震惊。



还有一位大佬表示,团队的两篇关于数据集追踪的NeurIPS论文被拒了,尽管评审结果有积极的反馈。


这显然是,组委会试图人为地标尺较低的录取率。


「根据录取率而不是成绩来排挤研究,这一点其实我不太确定」。



无独有偶,UMass Amherst的教员也表达出了这种担忧:


我看到很多人抱怨 NeurIPS的AC,推翻了最初收到积极评审论文的决定。


作为一名作者和评审员,我能理解这种做法有多令人沮丧。作为一名区域主席,我也经历过管理那些勉强达到录用分数的论文的压力,特别是当项目委员会要求更严格的录用率时。



有趣的是,NeurIPS已经变得像「arXiv精选」——突出展示前一年的最佳论文。



一位UCSC教授Xin Eric Wang表示,一篇平均得分为6.75的NeurIPS投稿被拒绝了。


他表示,这是自己收到第二荒谬的元评审,最荒谬的那次,是因为结果中没有加「%」就否决了论文。


无论论文质量如何,似乎总会有无数理由可以否决一篇论文。


元评审中提到的关键问题,在原始评审中只是小问题,而且他们团队已经在回复中明确解决。Xin Eric Wang怀疑AC是否真正阅读了他们的回复:


(1) AC提出了一个重大问题,这是基于一个得分为8分的评审者的小建议,引用了「大部分数据」,但实际数字小于10%(如回复中所述)。


(2) AC指出缺少统计数据,这些数据评审者从未提及,而且在论文正文中已经清楚地呈现。



LLM参与评审


而且AI火了之后,大模型也被用来论文评审。


这次,NeurIPS 2024也不例外。


Reddit网友评论道,自己用一个月的时间审核6篇论文,当看到自己得到的是LLM的评价,真的很受伤。



还有人指出,在自己审阅的论文中,至少发现了3篇由大模型生成的评审意见,很可能还有更多,其中3篇明显是直接复制粘贴了ChatGPT输出,完全没有阅读论文。


这些评审都给了6分,Confidence为4,与其他所有人的评价完全不一致。



更有网友评价道,「论文评论的质量很低」。


一个评审者混淆了我们方法的基线,另一个评审者混淆了基线的派生(正如我们的工作所批评的那样)和我们方法的派生。我怀疑一些评论是由LLM产生的。



参考资料:

https://x.com/AlbertQJiang/status/1839048302794518806

https://x.com/PiotrRMilos/status/1839221714674229579


文章来自于微信公众号“新智元”


关键词: AI , AI学术 , 大模型 , 人工智能