在现代科学中,几乎所有领域都依赖软件来进行计算实验。但开发这些专用的科学软件是一个非常缓慢、乏味且困难的过程,开发和测试一个新想法(一次“试错”)需要编写复杂的软件,这个过程可能耗费数周、数月甚至数年。这导致科学家的设计选择常常是基于直觉和经验,而没法通过详尽的实验来确定最佳方法,导致大量潜在的更优解被错过,这就像是在一个巨大的藏宝图中,因为挖掘太费力,我们只能凭感觉在有限的几个地点挖几下。
因此,Google这篇论文的根本出发点是:能否利用AI,将这个缓慢、有限、依赖直觉的“试错”过程,自动化并提升到一个前所未有的规模?AI系统不知疲倦,可以系统性地、大规模地探索解决方案空间,从而发现那些隐藏在海量可能性中、“大海捞针”式的高质量解决方案,将整个科学发现的周期提升到前所未有的快速?答案是可以,而且实现了。https://arxiv.org/abs/2509.06503 https://github.com/google-research/score
为了将上述科研过程“AI化”,作者提出了两个核心概念,这构成了他们整个方法论的基石。
与Claude、Cursor等一次性生成代码的助手不同,Google这个系统的核心在于其强大的迭代优化能力。它采用了一种创新的混合架构,让大语言模型(LLM)和树搜索(Tree Search)协同工作:LLM充当“代码生成器”,负责不断提出新的修改方案,而树搜索算法则作为“决策大脑”,评估所有方案的潜力,并引导整个探索过程朝最有希望的方向前进。这种系统性的导航能力,使其能高效地找出“大海捞针”式的优质解。
技术特点:
这个系统是整个工作流程的基础。它将软件开发变成一个自动化的“生成-执行-评分”循环。
简单地让LLM反复修改代码进行“爬山”是低效的。为了更智能地探索庞大的解决方案空间,系统采用了一种受AlphaZero启发的树搜索算法,称为PUCT (Predictor + Upper Confidence bound applied to Trees)。这个算法的目的是在“利用”(继续优化当前已知最好的代码)和“探索”(尝试看起来不那么好但可能有潜力的代码)之间取得平衡。关键是这个系统会把不同任务的分数转换成排名分数,这样就能在各种不同类型的科学问题上保持一致的性能表现。
输入:
算法步骤:
探索项:一个节点的访问次数V(u)越少,这一项的值就越大,从而提高了该节点的PUCT值,使其更有可能被选中。
与AlphaZero的关键区别: 研究者明确指出,该算法与传统的树搜索(如AlphaZero)不同,节点的评分不涉及随机推演(rollouts)。每个节点的分数是其实际执行代码后得到的确定分数。另一个关键区别是,在选择要扩展的节点时,该算法直接从整个树的所有节点集合中进行采样选择,而不是像AlphaZero那样从根节点开始递归下降。
关于UCB树搜索方面的研究我之前也介绍过,感兴趣您可以看下
N多高级推理的prompt算法,为什么REBASE树搜索能实现帕累托最优,精准控制LLM输出
包括同一研究领域内的另一篇相关工作AlphaEvolve我之前也写过,感兴趣您可以看下
!离AGI更近了!!0.31元运行谷歌的AlphaEvolve和UBC的DGM「达尔文-哥德尔机」?
您在做项目时是不是经常需要查阅论文,然后手动实现里面的算法?系统整合“研究思路”和进行“思想重组”的能力,主要是通过巧妙的提示工程 (Prompt Engineering) 来实现的。研究者设计了一套机制,能够将学术论文中的方法描述、教科书中的算法,甚至搜索引擎找到的技术方案,直接转换成可执行的代码。更厉害的是,这个系统还能把多个不同的方法组合起来,创造出全新的解决方案。
整合研究思路:
方法重组合:1+1>2的创新机制
这个系统最令人印象深刻的能力之一就是能够智能地组合不同的方法。比如在处理单细胞基因数据时,它把ComBat算法和BBKNN方法结合起来,创造出了比单独使用任一方法都要好的解决方案。
综上所述,Google这个系统的技术核心是一个由PUCT树搜索算法智能引导的、基于大语言模型的代码迭代优化循环。它通过创新的排名分数归一化解决了通用性问题,并通过先进的提示工程技术,成功地将高层次的科学知识和创造性的思想重组能力融入到自动化的软件开发流程中。
问题:来自不同实验室、不同批次的数据存在技术性差异(批次效应),需要进行校正才能整合分析,同时保留真实的生物学信号,这是一个高维、稀疏数据处理的难题。
系统创造了一个小奇迹,发现了40种新的批次整合方法,每一种都超越了目前公开排行榜上的最佳人类方案。这个任务的难点在于既要消除不同实验批次带来的技术偏差,又要保留真正的生物学差异。最佳方案BBKNN (TS)比现有最好的方法提升了14%的性能,这在生物信息学领域是相当显著的进步。
突破性成果:
问题:对高分辨率卫星图像中的每个像素进行分类(例如,建筑、道路、植被),这对于环境监测和灾害管理至关重要。
在卫星图像的语义分割任务上,系统开发的三个解决方案都达到了mIoU超过0.80的性能,显著超越了近期学术论文的报告结果。这些方案巧妙地结合了UNet++、U-Net和SegFormer等不同架构,配合强大的预训练编码器和测试时增强技术。您知道吗,处理卫星图像的难点在于同一地点在不同时间、天气、季节下看起来可能完全不同。
技术创新点:
问题:在ZAPBench基准上,根据斑马鱼幼鱼大脑过去4个时间步的活动,预测其全部71,721个神经元未来长达32个时间步的活动,以期在系统层面理解大脑功能。 系统需要预测超过70000个神经元未来32个时间步的活动模式。比较厉害的是,系统开发的模型不仅在性能上超越了所有基准方法(除了1步预测),训练效率还比最佳视频模型快了几个数量级,单个T4 GPU上不到两小时 vs 16个A100 GPU上36小时。
性能突破:
问题:在一个包含来自7个不同领域、28个数据集的通用时间序列预测基准(GIFT-Eval)上取得好成绩 在GIFT-Eval基准测试中,系统采用了两阶段策略。第一阶段针对92个不同数据集分别优化,结果超越了包括基础模型、深度学习模型在内的所有现有方案。第二阶段更有意思,系统从零开始创建了一个通用预测库,具备自适应配置系统,能够根据数据特点自动选择最佳策略。
统一解决方案特点:
问题: 许多具有振荡和无限积分域的积分,即使是广泛使用的科学计算库(如scipy.integrate.quad())也无法正确求解,任务是创建一个能解决这些难题的通用方法。scipy.integrate.quad是一个在Python科学计算库SciPy中非常流行和核心的函数,其主要功能是进行数值积分,该函数被认为是数值积分领域的“黄金标准”。
系统针对scipy.integrate.quad()函数的局限性开发了改进算法。面对38个连scipy都解不出来的困难积分,系统的解决方案成功处理了其中的17个,精度达到3%以内。关键创新在于使用几何递增的子区间分割和欧拉变换加速技术,专门处理振荡被积函数的收敛问题。
算法改进:
论文的核心概念“可评分任务” 和“经验软件” 远不止适用于基础科学。在工业界,任何可以被量化评估的研发任务,如新材料设计(评估指标:强度、成本)、药物分子筛选(评估指标:活性、毒性)、芯片设计(评估指标:功耗、性能)或金融模型开发(评估指标:回报率、风险),都可以被视为“可评分任务”。这意味着该系统的方法论可以直接应用于高科技产业,自动化那些依赖大量“试错”和经验积累的工程研发流程。
试错对于科学进步至关重要,无论是对人类还是对他们概述的自动化方法都是如此。该系统能够以极快的速度生成专家级解决方案,将一组思想的探索时间从几周或几个月缩短到几小时或几天。这种研究加速方式对科学进步具有深远的影响,研究者相信,在可以通过机器评分解决方案的科学领域中,进步正处于前所未有快速的边缘。
文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0