AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

6607点击 2025-04-17 15:40

你的审稿意见，可能是AI帮忙写的！

去年10月，ICLR 2025正式开启审稿周期，甚至钦定大模型参与评审。

那么，AI参与的审稿如何了？

今天，ICLR正式公布了AI智能体参与这届审稿的结果——12222条建议被审稿人采纳，极大提高了评审的质量。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

他们还公开了详细的30页报告，介绍了整个实验中AI在学术评审中的巨大潜力。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

论文地址：https://arxiv.org/abs/2504.09737

研究中，得出了几个关键结果：

12,222 条具体建议被采纳，26.6%审稿人根据AI的建议更新了评审

LLM反馈在89%的情况下提高了审稿质量。

接受LLM反馈并接收的审稿人，审稿意见平均增加80个字，便可提供更丰富反馈显著提升Rebuttal期间的讨论活跃度，

更加深入有效，作者Rebuttal和审稿人回应篇幅均有增加

在最终论文的录用结果方面，反馈组和对照组之间没有显著差异。AI智能体优化了作者与审稿人之间的讨论，这一结果与其设计目标一致。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

AI参与审稿，首次被顶会认可

ICLR是当前许多AI顶会中，唯一一个允许AI参与审稿的会议。此前，CVPR 2025还曾发布政策，明令禁止用LLM参与审稿。

那么，ICLR组委会为何会采纳AI建议呢？

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

要知道，同行评审是研究和创新的关键要素。

然而，随着论文投稿量（尤其是在AI顶会上）的迅速增长，同行评审面临着日益严峻的压力。

低质量的反馈不仅让作者们不满与日俱增，还影响了学术交流效率。

在2023年ACL上，作者们指出12.9%的评审质量不佳，主要原因便是这些模糊、流于表面的批评。

此外，审稿人被分配到专业领域之外的论文，以及高拒稿率导致同一篇论文被反复评审等问题，都让同行评审系统承受着更大压力。

如何去提升评审质量，也就成为了学术界关注的热点。

一些审稿人不免会借助LLM帮自己分担压力。据估计，ICLR 2024上，约10.6%的审稿人利用LLM辅助完成评审。

据统计，ICLR每年提交的论文数量逐年增加，2025年共收到11,603投稿，同比增长61%。ICLR 2024同比增长47%。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

去年，为了提升审稿质量，ICLR 2025为每位审稿人仅分配了最多3篇论文。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

不仅如此，他们引入了「评审反馈智能体」（Review Feedback Agent），让AI去识别审查中的问题，并向审稿人反馈改进。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

AI智能体就审稿中可能存在的三类问题，提供建议：

鼓励审稿人改写含糊的评论，让其对作者更具可操作性；

突出文章中可能已经回答了审稿人一些问题的部分；

在评审中，发现并处理不专业、不恰当的言论。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

在这项实验中，反馈智能体利用多个LLM，为审稿人提供针对其评审内容的优化建议。

这些建议经过精心设计，聚焦于提升评审信息量、清晰度、可操作性。

为了确保反馈的可靠性，团队还引入了基于LLM的可靠性测试（Reliability Tests），对AI反馈的特定属性进行评估，确保其质量。

42.3%评审，AI都有参与

这项试点研究，由ICLR联手OpenReview在今年顶会审稿中全面铺开。

他们以Claude Sonnet 3.5为核心模型，构建了一个由5个大语言模型协作的系统，用以生成高质量反馈。

如上所述，ICLR今年共收到11,603份投稿，每份投稿平均分配给4位审稿人。

审稿人需按1-10分的等级评分，并根据以下维度对论文进行评价：

合理性（soundness）、表述（presentation）、贡献（contribution）、评分（rating）和置信度（confidence）。

在2024年10月15日-11月12日的四周内，AI智能体为18,946份随机选取的ICLR评审（占ICLR 2025总评审量42.3%）提供了反馈。

ICLR 2025共收到11,553篇独立论文的44,831份有效评审。最终，约有50%的评审随机选中以接收反馈。

有不到8%的被选中评审最终未收到反馈，原因有二：其中2,692份评审本身质量已经很高，无需反馈；另有829份评审，其生成的反馈未能通过可靠性测试。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

平均每份评审通过整个处理流程大约耗时1分钟，成本约为50美分。平均而言，每份收到反馈的评审会包含3-4条反馈意见，最少1条，最多17条

生成的反馈主要聚焦于减少模糊和缺乏依据的评论，同时亦处理内容误解和不专业的表述。

评审期间，审稿人可以选择忽略LLM的反馈（标记为「未更新」）或据此修改评审（标记为「已更新」）。该系统完全不会进行任何直接更改。

实验结果

17%审稿人更新，评审平均增加80词

如下图所示，收到反馈的评审，比未收到反馈的评审更新可能性高17%。

早提交评审的审稿人，要比晚提交的更可能更新，这表明更有条理、更投入的审稿人更倾向于根据反馈提供修改意见。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

评审长度分析显示，所有组的最终评审长度均增加。

反馈组平均比对照组多增加约14个词，但因部分反馈组未更新或未实际收到反馈，效应量偏低。

收到反馈后更新评审的，长度显著增加（平均80词），远超未更新组（平均增加2词）。

这表明，更新者更倾向于实质性编辑，加入更多细节。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

12222条AI建议被采纳

通过Claude Sonnet 3.5分析5,031份评审（共18,322条反馈）中，发现89%评审者至少采纳了一条反馈，占收到反馈评审者的23.6%。

总体而言，估计共有12,222条反馈项被采纳并融入了修订后的评审意见中。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

分析还显示，反馈数量少的审稿人更可能采纳全部反馈，平均采纳率为69.3%，即收到3条反馈的审稿人平均采纳2条。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

为了评估采纳反馈评审是否清晰、具体、可操作，团队邀请两名AI研究人员对100个样本对（初始与修改后评审）进行盲偏好评估。

结果显示，89%修改后评审更受偏好，表明了采纳反馈显著提升了评审质量。

作者审稿人参与度更高了

接下来，研究人员还分析了「被选中接收反馈」对反驳过程以及论文录用率的影响。

反驳期为2024年11月12日至12月4日，作者可回应评审评论并修改论文。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

结果显示，反馈组（审稿人接收反馈）的论文，其作者反驳篇幅比对照组长6%（约48词），表明作者参与度更高。

另一方面，反馈组审稿人回应反驳的回复比对照组长5.5%（约6词），且修改评分的比例更高（31.7% vs 30.6%），审稿人参与度提升。

反馈评论聚类分析

最后，研究者对AI智能体提供的69,836条反馈进行了聚类分析，以探究反馈类型。

结果显示，大多数反馈针对审稿意见的模糊评论，旨在使其更具体、可操作、论证充分。

反馈较少涉及「内容误解」，因模型需绝对确信误解并引用论文原文，避免了「幻觉」输出。

此外，采纳率分析表明，17.7%的反馈被采纳。

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

参考资料：

https://blog.iclr.cc/2025/04/15/leveraging-llm-feedback-to-enhance-review-quality/

文章来自于微信公众号 “新智元”，作者：桃子好困

AI审稿首次席卷ICLR 2025，12222条建议被接受！30页技术报告公开

关键词: AI , AI审稿 , ICLR , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md