AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开
6357点击    2025-04-17 15:40

你的审稿意见,可能是AI帮忙写的!


去年10月,ICLR 2025正式开启审稿周期,甚至钦定大模型参与评审。


那么,AI参与的审稿如何了?


今天,ICLR正式公布了AI智能体参与这届审稿的结果——12222条建议被审稿人采纳,极大提高了评审的质量。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


他们还公开了详细的30页报告,介绍了整个实验中AI在学术评审中的巨大潜力。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


论文地址:https://arxiv.org/abs/2504.09737


研究中,得出了几个关键结果:


  • 12,222 条具体建议被采纳,26.6%审稿人根据AI的建议更新了评审


  • LLM反馈在89%的情况下提高了审稿质量。


  • 接受LLM反馈并接收的审稿人,审稿意见平均增加80个字,便可提供更丰富反馈显著提升Rebuttal期间的讨论活跃度,


更加深入有效,作者Rebuttal和审稿人回应篇幅均有增加


  • 在最终论文的录用结果方面,反馈组和对照组之间没有显著差异。AI智能体优化了作者与审稿人之间的讨论,这一结果与其设计目标一致。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


AI参与审稿,首次被顶会认可


ICLR是当前许多AI顶会中,唯一一个允许AI参与审稿的会议。此前,CVPR 2025还曾发布政策,明令禁止用LLM参与审稿。


那么,ICLR组委会为何会采纳AI建议呢?


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


要知道,同行评审是研究和创新的关键要素。


然而,随着论文投稿量(尤其是在AI顶会上)的迅速增长,同行评审面临着日益严峻的压力。


低质量的反馈不仅让作者们不满与日俱增,还影响了学术交流效率。


在2023年ACL上,作者们指出12.9%的评审质量不佳,主要原因便是这些模糊、流于表面的批评。


此外,审稿人被分配到专业领域之外的论文,以及高拒稿率导致同一篇论文被反复评审等问题,都让同行评审系统承受着更大压力。


如何去提升评审质量,也就成为了学术界关注的热点。


一些审稿人不免会借助LLM帮自己分担压力。据估计,ICLR 2024上,约10.6%的审稿人利用LLM辅助完成评审。


据统计,ICLR每年提交的论文数量逐年增加,2025年共收到11,603投稿,同比增长61%。ICLR 2024同比增长47%。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


去年,为了提升审稿质量,ICLR 2025为每位审稿人仅分配了最多3篇论文。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


不仅如此,他们引入了「评审反馈智能体」(Review Feedback Agent),让AI去识别审查中的问题,并向审稿人反馈改进。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


AI智能体就审稿中可能存在的三类问题,提供建议:


  • 鼓励审稿人改写含糊的评论,让其对作者更具可操作性;


  • 突出文章中可能已经回答了审稿人一些问题的部分;


  • 在评审中,发现并处理不专业、不恰当的言论。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


在这项实验中,反馈智能体利用多个LLM,为审稿人提供针对其评审内容的优化建议。


这些建议经过精心设计,聚焦于提升评审信息量、清晰度、可操作性。


为了确保反馈的可靠性,团队还引入了基于LLM的可靠性测试(Reliability Tests),对AI反馈的特定属性进行评估,确保其质量。


42.3%评审,AI都有参与


这项试点研究,由ICLR联手OpenReview在今年顶会审稿中全面铺开。


他们以Claude Sonnet 3.5为核心模型,构建了一个由5个大语言模型协作的系统,用以生成高质量反馈。


如上所述,ICLR今年共收到11,603份投稿,每份投稿平均分配给4位审稿人。


审稿人需按1-10分的等级评分,并根据以下维度对论文进行评价:


合理性(soundness)、表述(presentation)、贡献(contribution)、评分(rating)和置信度(confidence)。


在2024年10月15日-11月12日的四周内,AI智能体为18,946份随机选取的ICLR评审(占ICLR 2025总评审量42.3%)提供了反馈。


ICLR 2025共收到11,553篇独立论文的44,831份有效评审。最终,约有50%的评审随机选中以接收反馈。


有不到8%的被选中评审最终未收到反馈,原因有二:其中2,692份评审本身质量已经很高,无需反馈;另有829份评审,其生成的反馈未能通过可靠性测试。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


平均每份评审通过整个处理流程大约耗时1分钟,成本约为50美分。平均而言,每份收到反馈的评审会包含3-4条反馈意见,最少1条,最多17条


生成的反馈主要聚焦于减少模糊和缺乏依据的评论,同时亦处理内容误解和不专业的表述。


评审期间,审稿人可以选择忽略LLM的反馈(标记为「未更新」)或据此修改评审(标记为「已更新」)。该系统完全不会进行任何直接更改。



实验结果


17%审稿人更新,评审平均增加80词


如下图所示,收到反馈的评审,比未收到反馈的评审更新可能性高17%。


早提交评审的审稿人,要比晚提交的更可能更新,这表明更有条理、更投入的审稿人更倾向于根据反馈提供修改意见。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


评审长度分析显示,所有组的最终评审长度均增加。


反馈组平均比对照组多增加约14个词,但因部分反馈组未更新或未实际收到反馈,效应量偏低。


收到反馈后更新评审的,长度显著增加(平均80词),远超未更新组(平均增加2词)。


这表明,更新者更倾向于实质性编辑,加入更多细节。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


12222条AI建议被采纳


通过Claude Sonnet 3.5分析5,031份评审(共18,322条反馈)中,发现89%评审者至少采纳了一条反馈,占收到反馈评审者的23.6%。


总体而言,估计共有12,222条反馈项被采纳并融入了修订后的评审意见中。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


分析还显示,反馈数量少的审稿人更可能采纳全部反馈,平均采纳率为69.3%,即收到3条反馈的审稿人平均采纳2条。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


为了评估采纳反馈评审是否清晰、具体、可操作,团队邀请两名AI研究人员对100个样本对(初始与修改后评审)进行盲偏好评估。


结果显示,89%修改后评审更受偏好,表明了采纳反馈显著提升了评审质量。


作者审稿人参与度更高了


接下来,研究人员还分析了「被选中接收反馈」对反驳过程以及论文录用率的影响。


反驳期为2024年11月12日至12月4日,作者可回应评审评论并修改论文。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


结果显示,反馈组(审稿人接收反馈)的论文,其作者反驳篇幅比对照组长6%(约48词),表明作者参与度更高。


另一方面,反馈组审稿人回应反驳的回复比对照组长5.5%(约6词),且修改评分的比例更高(31.7% vs 30.6%),审稿人参与度提升。


反馈评论聚类分析


最后,研究者对AI智能体提供的69,836条反馈进行了聚类分析,以探究反馈类型。


结果显示,大多数反馈针对审稿意见的模糊评论,旨在使其更具体、可操作、论证充分。


反馈较少涉及「内容误解」,因模型需绝对确信误解并引用论文原文,避免了「幻觉」输出。


此外,采纳率分析表明,17.7%的反馈被采纳。


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开


参考资料:


https://blog.iclr.cc/2025/04/15/leveraging-llm-feedback-to-enhance-review-quality/


文章来自于微信公众号 “新智元”,作者 :桃子 好困


AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开

关键词: AI , AI审稿 , ICLR , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md