首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的
7542点击    2025-04-09 18:11

嚯!完全由AI生成的论文,通过顶会ICLR workshop评审?!


分数为6/7/6,已经超过平均人类接收门槛。


论文是酱婶的。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


整个通篇看下来,图表论据俱全,十分有模有样。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


这篇论文,由首位AI科学家AI Scientist的2.0版本完成。


背后公司Sakana AI,是Transformer作者之一的Llion Jones的创业公司。


新版本2.0是一个通用端到端Agent系统,与原版本不同的是,它摆脱了对人工模版的依赖,


能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。


它在ML领域中具有更强的泛化能力,并采用由实验管理Agent引导的渐进式代理树搜索(AgenticTreeSearch)


就连它的GitHub开源代码库都是由大模型来编写。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


AI生成论文通过顶会评审


首先来看这篇完全由AI生成的论文,官方透露了诸多细节。


这篇论文的标题为:《组合正则化:增强神经网络泛化的意外障碍》。


论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,


并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。


当时ICLR workshop同意他们递交3篇AI生成的论文进行同行评审。


评审人员会被告知他们正在评审的论文可能是AI生成的(43篇论文中有3篇),但并不知道分配给他们的论文作者到底是不是AI。


SakanaAI准备的论文完全由AI端到端生成,没有经过人类任何修改——


AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,


并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。


整个过程,人类仅做的一个工作是,提供一个广泛的研究主题,最终他们挑选出了三篇排名前三论文(考虑到多样性和质量)提交给研讨会。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


△团队为每篇生成的论文撰写了全面的评论


最终,在提交的三篇论文中,有两篇论文未达到接受标准。


一篇论文的平均得分为 6.33(分别是6/6/7),在所有提交的论文中排名约 45%,高于人类平均接受门槛。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


不过为了透明起见,这篇论文在同行评审之后被撤回,也不会在OpenReview公共论坛上发布,但是可以GitHub存储库中找到。


除此之外,他们发现AI Scientist偶尔也会犯一些引用错误。


比如将错误地将“基于 LSTM 的神经网络”归因于Goodfellow (2016),而不是正确的作者Hochreiter和Schmidhuber (1997)。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


而为了提高实验结果的科学准确性、可重复性和统计严谨性,他们鼓励AI Scientist重复其每个实验(已选入论文)数次。


首位AI科学家2.0


去年8月,首位AI Scientist横空出世,一出手就独立完成了10篇论文。现在的2.0生产的论文已经可以通过顶会同行评审。


值得一提的是,官方GitHub页面上,特别注明了两者的区别:AI Scientist-v2并不一定能写出比v1更好的论文,尤其是在有强大的起始模板可用的情况下。


v1遵循定义明确的模板,成功率较高,而v2则采用更广泛、更具探索性的方法,成功率较低。


v1最适合具有明确目标和坚实基础的任务,而v2则专为开放式科学探索而设计。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


AI Scientist-v2通过将树搜索与LLM工作流相结合,该工作流程由多个阶段组成,包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


它采用代理树搜索(由实验进度管理器管理,跨越多个阶段)来生成和完善代码实现。


随后的实验利用树搜索中表现最好的代码检查点(节点),对各种研究假设进行迭代测试。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


Transformer作者之一创业公司


背后公司Sakana AI,Transformer作者之一Llion Jones(简称狮子哥)的创业公司。


他本硕毕业于伯明翰大学,在Delcam、油管、谷歌都工作过,谷歌是他待得最久的一家公司。


据FourWeekMBA介绍称,在他之前的工作经历中,“曾两度与谷歌的工作擦肩而过”。


第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的岗位,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的CAD/CAM软件公司Delcam。


值得一说的是,在拿下谷歌offer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。


第二次是工作18个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了YouTube。


在Youtube做三年软件工程师期间,他对人工智能产生兴趣,自学了Coursera的机器学习课程,


并终于在2015年的时候加入谷歌研究院,担任里面的高级软件工程师。


也正是在此期间,他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is Al lYou Need。


除此之外,狮子哥也在谷歌参与了不少研究,包括Prot Trans、Tensor2Tensor等。


之所以选择离开谷歌,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。


除了每天都在浪费精力排查其他人的bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。


创业过后,Sakana AI的工作在有序推进。


去年8月,他们首次推出了AI科学家(AI Scientist)、AI审稿人项目。在这之前,还出过大模型合并进化算法,以及研究Tranformer内部信息流动。


此次作为AI Scientist的延续,依旧由Sakana AI、UBC、牛津合作完成。


合著者包括UBC的Cong Lu和Jeff Clune以及牛津大学的Chris Lu和Jakob Foerster,两位华人以及他们的导师参与。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是Jeff Clune。今年2月加入了DeepMind。


Cong曾在RGU(罗伯特戈登大学)就读,2019年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和AI科学发现。


此前,他曾在Waymo和微软实习过。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


Chris Lu,博士毕业前在Sakana AI实习了6个月。


他本科毕业于UC伯克利,博士毕业于牛津大学,导师是Jakob Foerster。去年10月毕业之后,去到了OpenAI。


Chris目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。


2022年夏天,他曾在DeepMind以研究科学家身份实习过。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


虽然这次AI科学家已经可以生产出顶会级别的论文了,但这并不是他们的最终目的。


这次是顶级的机器学习会议,下次可能就是顶级科学期刊了。


比如Nature、Science啥的。


归根结底,研究团队认为最重要的不是人工智能科学与人类科学的比较,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的


你觉得这个时刻什么时候会到来呢?


参考链接:


[1]https://sakana.ai/ai-scientist-first-publication/#importance-of-transparency-and-ethical-code-of-conduct


[2]https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment?tab=readme-ov-file


[3]https://github.com/SakanaAI/AI-Scientist-v2


[4]https://x.com/SakanaAILabs/status/1909497508977574070


文章来自于微信公众号 “量子位”,作者 :白交


首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md