
大模型浪潮席卷全球数年,技术形态持续迭代,也开始从办公、编程领域,深度渗透到科研这一核心赛道。从中科大夯实数理根基,到哈佛、MIT 完成联合培养,青年学者陈勇超横跨力学、机器人、自然语言处理、大模型等多个领域,完整亲历 AI 一轮轮技术变革。手握 DeepMind 等海外顶尖机构抛出的橄榄枝,他却以全球化视野研判产业与技术趋势,果断选择归国接受清华大学助理教授offer。
在他的判断里,AI 绝非简单的软件产品,Token 本质是工业品;当下大模型普遍存在创新能力不足的短板,未来演进的核心是突破 “求稳” 定式;而他全力奔赴的 Self-Improving Model,是面向下一代的核心科研概念与长期发展方向,训练新一代有创造力的 AI 原生模型,终极目标是实现研究平权,打破研究的圈层与技术壁垒,激活全社会创新潜能。这位兼具跨界积累、全局视野的青年科研人,正站在 AI 重塑科研的关键节点上,布局行业未来。
陈勇超作为拟入职清华大学助理教授,本科就读于中国科学技术大学,主攻理论与应用力学、应用数学,年级第一;哈佛博士,MIT 联合培养。深耕机器人、自然语言处理、大模型等前沿领域,曾任职 MIT-IBM Watson AI Lab,先后在微软研究院、谷歌研究院开展研究工作。现阶段聚焦Self-Improving Model 这一核心方向,致力于依托 AI 推动研究平权,重构全球科研范式。
ZP:你的研究横跨力学、材料、核聚变、机器人和大模型,看起来几经转向。背后有没有一条始终没有改变的主线?
陈勇超:我从小就很想成为科学家,现在好像有一点梦想成真了。
本科选择中科大,一开始就是想做基础研究,主修理论与力学和应用数学。因为想读博士,所以我大二就开始进实验室,本科到博士第一年一共去过五个,都是做基础科学的,包括力学、金属材料、核聚变和 AI for Science。
确实换过很多方向,但底层都是希望能做对人类未来发展真正有意义或对社会有比较大积极影响的事情。
而且我有一个特点,不想在一个地方做几个月,什么都没做出来就走了。所以当时我给自己定了一个目标,进入每一个方向,都要做出一篇一作的论文再离开。这个目标后来基本实现了。大二的项目我发了共一的 Nature Communication。
但的确这四个方向都没有让我有 all in 的冲动。直到我在哈佛读博第一年快结束时,才意识到,自己真正想去的是一个正在蓬勃发展的学科,和几十年前的半导体或者更早期的现代物理一样。那个时候群星璀璨,个人能做出重要贡献的可能性也更大。
后来转向 AI,也是因为我认为它正是这样一个领域。恰好我做过 AI for Science,也积累了一些 AI 方面的知识。
ZP:你最初选择的是机器人学习,为什么后来又转向了 NLP 和大模型?
陈勇超:博一结束决定换组时,哈佛有个特殊优惠条件是可以选 MIT 的老师,但前提是要在本校找一个 co-advisor。因为我当时认为 AI 领域机器人是很 promising 的未来,所以特别想做机器人学习。MIT 在这个领域非常厉害。我有幸找到了跟我当时状态很契合的范老师,年轻有为、很有野心,对学生很好,师生之间不设任何界限。
那个时候机器人学习基本都在做强化学习,我本来也准备做这个方向。但机缘巧合,实验室接到一个人机协作项目。人和机器人要进行交互,语言显然是最自然的方式,所以我被迫开始学习 NLP。
一开始我对这个课题其实没有太大兴趣。因为当时很多传统 NLP 方法已经比较成熟,我调研以后觉得,如果继续沿用传统算法,上限比较低。但在这个过程中,我接触到了 GPT-3。当时 GPT-3 还很弱,也有很多错误,但它已经表现出了一些完全不同于传统方法的能力。我觉得很有意思。
为了说服导师这是一个值得尝试的方向,我抓紧花两三周时间,先用 GPT-3 实现了一些功能,比如让它辅助生成数据对。但生成结果里有很多错误,所以我们又设计了一些算法降低错误率,最后生成了两万多组数据。我们用这些数据微调了一个大约 1B 参数的模型,实现了人机交互功能,也完成了论文。当时 NLP 领域普遍还在使用谷歌 T5 这一类模型。
论文投出去后一个月,ChatGPT 发布了,再过了不久 GPT-4 也问世了,整个领域迅速发生变化。我原本已经和导师约定,完成这个项目后就回去做机器人和强化学习。但 ChatGPT 出来后,不只是 NLP,机器人也都开始使用大模型。我就和导师商量,既然我已经站在这个方向里面了,要不就继续做下去。
这是我第一次真正意义上,自己找到一个十分笃定的方向。
ZP:选择留在大模型领域,也与这次自主探索带来的正反馈有关吗?
陈勇超:对,而且很有意思的是,一开始我觉得那篇论文方向很冷门,当时甚至和朋友说,这篇论文可能五年也就几十个引用。
后来因为我们做得早,大模型出来后,越来越多人开始做类似的研究,反而不断有人引用。我也因此正式走上了大模型这条路。最初我主要做大模型 for planning。这个方向可以是机器人的任务和运动规划,也可以是 Agent planning,本质都是 decision-making。
我的特点是会把大模型和传统算法结合起来。因为有很多任务,从第一性原理上大模型做不了,但和传统算法比如符号计算结合以后,就可以做。后来领域不断发展,我也到产业界包括微软研究院、谷歌研究院和 DeepMind 陆续做了 Post-training、Agent 方向的工作,但主体还是希望保留自己的特色。
ZP:微软研究院和谷歌的实习经历怎样影响了你后续的研究方向?
陈勇超:微软研究院和谷歌的风格很不一样。
微软研究院整体比较松弛,不太卷。下午三四点,大家就开始打乒乓球。五点左右,办公室里的人基本都走了。但里面的人都非常厉害,也很 nice。之后我去了谷歌,人才密度同样很高,但周围的人都很有野心,整体更卷一些。但我后来发现,虽然两边的风格不一样,最后大家做出来的成果其实差不多。
谷歌给我留下的另一个印象是那里的人很有远见,也会很早探索新的方向。因为内部优秀的人很多,不可能让所有人都做同一个问题,所以大家会不断寻找新的方向。AI Scientist 或 Auto Research,他们很早就在探索。
但我当时没有直接做完整的 Auto Research,而是选了一个和它比较接近的子方向:怎样让模型产生更有吸引力、更新颖的 idea。
因为当时的模型能力做 Auto Research 只能做 workshop 级别的工作。我的想法是,如果要让模型真正做顶会或顶刊级别的研究,首先要让它能够产生足够多、足够 diverse 的 idea。只有先敢想,产生很多不同的可能性,才有机会从里面找到真正好的方向。如果模型一直在几个相似的思路里钻,很难想出特别新的东西。
这也成为我后来关注 Self-Improving Model 的起点。
ZP:你在谷歌具体尝试了哪些提高模型产生 idea 多样性的方法?效果如何?
陈勇超:刚好去年暑假,谷歌在集中提升 Gemini 在各种 benchmark 上的能力。其中有一个比较难的 benchmark 叫 HLE,由 Scale AI 组织了很多不同领域的研究者,提出各个领域里很难的问题。
但 HLE 有一个局限,它本质仍然是 QA 数据集,给模型一个问题,让它回答。这当然可以测试模型能不能解决很难的问题,但对真正做科研来说还不够。科研面对的往往是一个还不知道答案的问题,关键是模型能不能自己研究,并把它解决。所以我们更关注多步创新的能力。
当时我们尝试把提高 idea diversity 的方法用到 HLE 上,效果很显著。具体做法很直接。面对同一个问题,让模型尽可能从不同角度思考,提出不同的 idea 和解决方法。针对不同任务,有数十种甚至上百种不同方法以及对应的效果,但很难判断哪一种是最好的。我们把这些统一汇总给模型做 brainstorm,让它自己反思哪个方法更好,然后提出一个新的方法再做。经过这样的多轮迭代,当时使用的模型在 HLE 上的综合分数从大约 21 提高到了 34 左右。
我后来也做了很多后训练研究,主要聚焦 tool use,让模型学会调用很多不同的工具,提高 reasoning 和 planning 能力。当时最大的感受是,发现训模型有时也没有大家说得那么简单。比如用 GRPO、PPO 来训模型,当 task 的 diversity 特别高,也就是任务种类特别多、差别特别大时,训练信号会变得非常小、非常弱。模型很容易一直卡在一个局部最优里跳不出来。你观察训练曲线,会发现它一直在抖动,但就是升不上去。
一开始我以为是因为模型还不够大,如果换成大几百亿参数的模型也许不会出现这个问题。但和很多做基础模型的人交流,发现他们也会遇到同样的问题。当然后来我们尝试了一些方法来最终解决训练问题,比如使用 multi-stage 的课程学习,把任务分成不同阶段,从高价值的任务到低价值的任务,让模型逐步学习。
ZP:后来为什么没有选择留在国外,而是回国接受清华大学助理教授offer?
陈勇超:我在谷歌待了将近一年,到快毕业时,海外也有一些很厉害的团队找到我,一家是 Periodic Lab,另一家是 Unreasonable Lab,前者偏湿实验的 AI4S,后者偏 Auto Research。其实 Auto Research 方向在美国已经热烈讨论半年了,当然具身也一直很火热。我也在思考未来到底聚焦哪个领域,于是自费去了 GTC,和国内外很多朋友做了交流。最终选定了 Self-Improving Model 这个更加需要开疆拓土的领域。
选择回国,理由很直接。我希望亲历中国在这一次技术革命中拔得头筹的过程。当然,科技竞争并非零和博弈,我也相信不同国家能在这轮技术浪潮中彼此借鉴先进经验、取长补短,共同推动技术发展。但从长期来看,我认为中国在 AI 的发展中有自己的独特优势。
一方面从 AI 产业属性出发,模型本质是卖 Token,这是人类未来最大的生意,但 Token 是工业品而非 SaaS。区别是 SaaS 软件前期研发成本高但后期可以摊薄,但 Token 在使用期间也需要较大投入,比如推理的电力消耗,这是工业品的本质特征。从这个角度,中国的供应链和基建基础会成为 AI 规模化落地的系统性竞争力。
Token 不是这样,模型前期研发需要投入,实际使用过程中,每生成一个 Token,仍然需要消耗算力、电力和硬件资源。从这个角度,中国在供应链、基础设施、工程效率和规模化部署方面的基础,会成为 AI 长期落地的系统性竞争力。
另一方面,Self-improving 或 Self- evolving 不仅需要 AI for AI,还要 AI for 各类领域,在不同领域发现新知识,并用来自我提升。但当 AI 自改进走向广泛的专家领域,会发现数据十分稀缺,训出来的模型效果也很差。
所以这个方向需要数据分析先闭环,让学术界、工业界用起来。这就要求产学研协同共建,而国内近年来这方面的生态日趋完善,同时也有非常丰富的应用场景,和大量优秀的研究者和工程人才。清华则提供了一个跨学科研究与真实科研场景高度集中的环境。

ZP:Self-evolving 也是现在业内高度关注的方向。从 Chatbot 到 Agent,再到研究自动化,为什么行业讨论的焦点会发生变化?
陈勇超:首先,最主要的原因还是模型变得越来越强了。其实这些概念以前也有人讨论,但当时模型能力不够,很多设想并不能真正实现。
随着长思维链、长上下文、工具调用等能力不断提升,基础模型正在接近一个新的能力拐点。现在基于模型搭建一些研究系统,确实已经能做出有意思的结果。包括近期 OpenAI 模型在数学研究上的一些成果,也说明模型正在从回答现成问题,逐渐走向处理更开放、更复杂的研究任务。
但对 Self-Improving Model 来说,有一个非常核心、却经常被忽略的问题,就是怎样激发模型的创造力。
现在的主流大模型已经非常强大,在办公、编程和日常交互等场景中逐渐落地,但它们整体上还是有些“四平八稳”。
ZP:为什么今天的大模型会显得“四平八稳”?要实现创造力的激发需要有什么突破?
陈勇超:这主要由于 LLM 本质上仍是概率模型,通过大规模语料学习语言分布,能够预测下一个 token,生成连贯文本,表现出很强的知识压缩和表达能力。这种能力的底层,更多还是统计相关性和模式复现。随着 o1 等模型发布,行业开始看到模型具备更强的推理和思考能力,能拆解问题、延迟回答、进行更复杂的中间计算,reasoning 能力提高了很多。
当然,也和模型的训练目标有关。目前大部分模型仍然是按照帮助大众的目标训练的。比如,问模型一百个问题,其中九十五个它知道答案,那就尽可能回答正确;剩下五个不知道,最好诚实地告诉用户“我不知道”,而不是胡编乱造。对一个面向普通用户的 AI 助手来说,这个目标是合理的,稳定、可靠,尽量少犯错。
但研究不是这样。研究面对的恰恰是那些没有现成答案的问题。遇到一个不知道的问题,我不只是希望模型告诉我“我不知道”,而是希望它提出一百种不同的方法去尝试。即使其中九十九种都是错的,只要有一种方法是对的,就可能产生真正有价值的发现。
所以我认为大模型下一阶段的核心演进方向不再是单纯堆砌参数、扩充能力,而是补齐创新短板。让模型在未知中试错、在博弈中探索,也就是跳出固有思维定式,学会多角度发散、主动提出并检验全新的思路。这也是我布局未来整体研究方向的出发点。
ZP:这和你过往做的研究有没有一脉相承的地方,有什么新的挑战?
陈勇超:从 planning(规划)的角度看,有个观点可能值得商榷。有些人认为规划就是终极智能。因为无论科研还是 Agent,最后很多问题都是长程规划。人为什么很厉害?其实是因为人在过去的成长经历中获得了很多信息,也积累了很多经验。这些经验会影响下一步决策,让之后的规划越做越好。人本身就是一个 Self-Improving 的系统。
但 Self-Improving 和过去讲的 AI for Science 不同。过去讲 AI for Science 更多是训练一个垂直领域的模型,能完成针对这个领域的预测或设计,Alphafold 就是典型例子。Self-Improving 或者 Auto Research,希望解决的是更高一层的问题——不是只做出一个 AlphaFold,而是让模型能够自己研究出类似 AlphaFold 的成果,类似二阶导。这本质上更接近一个基础模型。
现在 AI for AI 已经有一些应用,比如让模型协助做算法设计、调参或者训练小模型。但整体而言,模型的创新能力仍然不够。最大的挑战,还是怎样提出真正有创新性的问题。
我们团队现在也已经能让模型设计一些 idea、做实验,最后写出一篇很好的论文。但再往上走,比如达到顶校教授的水平,再到牛顿、爱因斯坦的水平,还有很长的距离。这不仅需要像在中训练、后训练上下功夫,还需要在模型架构上做创新。
ZP:一个真正的 Self-Improving Model 需要具备什么特征?
陈勇超:self-evolving 这个词本身很有启发性,我认为真正的进化,重点不是模型在封闭环境里自己变强。模型如果只是在自己的生成结果上反复循环,容易形成幻觉、偏差和自我强化。真正有价值的进化,必须发生在真实问题和真实反馈之中。
我更看重的是一个完整闭环,围绕真实问题提出假设,设计路径,实验验证,数据回流,再提出新的问题。这个闭环里有现实约束、有实验成本、有失败结果、有可量化反馈,模型才能不断校正自己的判断,逐步学会创造。
Self-Improving Model 的终极目标,就是训练有创造力的 AI 原生模型。
它首先要能提出新问题。一个有创造力的 AI 原生模型,要学会从文献空白、实验异常、跨学科类比和现实需求中发现问题,把模糊直觉转化为可研究的命题。
其次,要能生成好假设,并设计可执行路径。科研不是随机发散,而是要在理论约束、实验可行性和资源成本之间找到最有价值的方向。模型不能只是给建议,而要能提出有根据、可检验、可被实验推动的假设,并把假设拆成可以执行、可以评估、可以被反馈修正的路径。
更关键的是,要能接受真实反馈,尤其是失败反馈。研究里大量真正有价值的信息,藏在失败实验、边界条件、异常现象和中间推理里。通用语料很少保存这些内容,但科研现场每天都在产生。谁能把失败变成结构化数据,谁就能让模型真正理解研究是怎样推进的。
核心在于打通算法、模型与实际研究场景的链路。在过程中需要积累一套合格的科研类高质量数据,内容真实准确、信息密度高、覆盖完整科研逻辑链路、标注规则统一、深度适配科研场景,同时内容紧跟前沿研究时效。
ZP:为什么认为 Self-Improving 已经到了值得 All in 的阶段?
陈勇超:因为我现在从 Auto Research 上,又有了当年第一次看到 GPT-3 时的感觉——远看觉得很厉害,近看会发现有很多问题,但它已经在一些地方表现出传统方法没有的能力,让你觉得只要继续优化,这个方向就能真正做成。这样的感觉很难得。多久能真正实现成熟的 AI Researcher,现在还很难说。但我能确定的是,这值得长期投入,至少会是未来十年 AI 演进的重要方向。
ZP:Auto Research 的实现会让科研形态发生怎样的变化?哪些场景会率先迎来 AI 驱动的进化?
陈勇超:未来的科研可能是少数非常优秀的研究者,带着大量 AI 系统一起做研究。越来越多科研流程会从纯人工主导,转向计算、仿真与实体实验协同推进。AI 可以承接方案设计、虚拟推演、重复验证和数据分析等大量工作,实体实验则负责关键结论的真实验证。两者会逐渐形成“探索—验证—数据回流—模型迭代”的高效闭环。
从这个角度,具备天然量化反馈信号的场景,会成为 AI 最先深度落地的领域。这类场景的实验结果可自动量化、实时反馈,无需大量人工解读,迭代效率远超其他方向。
ZP:如果 AI 自改进或自动研究实现,那么人的在其中的价值是什么,会扮演什么角色?
陈勇超:AI 永远不会成为人类的替代品,而是拓展人类认知边界的最强搭档。当 AI 拥有足够的创新能力与发散思维后,会进一步解放科研工作者,重复性、流程化的工作交由 AI 承接,人类研究者可以聚焦顶层方向判断、原创思想构思等高阶工作。
同时,这本质是一种研究平权,会打破传统科研的资源壁垒与身份壁垒,让每一个心怀探索想法的人,都有机会参与研究工作。当研究不再局限于少数专业从业者,整个社会的创新活力都会被彻底激发。
ZP:在 AI 正在变革科研范式的当下,你对刚进入这个领域的年轻人有什么建议?
陈勇超:AI 行业热点迭代速度极快,技术、工具、赛道都在不断变化,但底层能力永远是立身之本。解决问题的能力决定当下的执行力,而发现问题的能力,才真正决定科研的上限。
同时,要保持思维多样性,刚进入一个领域时,可以大胆尝试不同方向,找到自己真正想追求、真正感兴趣的事。但每一次尝试都应该尽量做深,而不是浅尝辄止。要相信每一次扎实的积累都会创造复利。
就像早年做基础科学,帮助我形成了从第一性原理出发判断一个问题的习惯和能力。力学本质上是一种应用数学,从一些最基本的原理出发,一步一步推导出公式。
现在做很多研究,包括 AI 领域,可能已经不只是推导公式,而是要建立一种 intuition,也就是研究直觉。当然,AI 领域仍然有一些工作会从理论推导出发,设计或者改进算法。但随着模型规模越来越大、系统越来越复杂,很多现象已经很难用现有理论完整解释。
从第一性原理出发,判断一个方法在直觉上是否合理、为什么可能有效就变得尤为关键。这越来越像早期的物理学研究。很多现象一开始在理论上解释不清楚,需要先观察到一系列实验现象,再从中提出假设,最后逐渐形成更完整的理论。
文章来自于"Z Potentials",作者 "Z Potentials"。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner