大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练
8038点击    2026-04-11 10:25

字节Seed最新研究,让大模型能“原地改参数”了。


既不用改模型结构,也不用重新训练,还跑得很快。


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


具体是这么个情况。智能体时代嘛,大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。


如何让大模型边干活边学习,不断适应新的信息,而不是在超长上下文中逐渐崩溃,已经成为AI圈研究的一大重点。


测试时训练(TTT)让模型能够在推理时更新部分参数,但实际应用时,问题仍然很复杂:


首先,架构不兼容。现有的TTT需要引入全新的网络层,甚至替换注意力机制,导致必须从头开始做预训练。


其次,计算效率低。现有的TTT采用一个Token一个Token的顺序更新,无法充分利用GPU/TPU的并行计算能力。


还有优化目标不匹配的问题。现有TTT多采用重建目标(reconstruction),只让模型记住当前的词,而不是为了预测下一个词设计。也就是说,与语言模型核心的“预测下一个Token”的任务不匹配。


针对这些问题,来自字节Seed和北京大学的研究团队想到了一个小妙招:


不新增层,也不改架构,直接把Transformer里本来就有的MLP模块,当成大模型的“临时小脑”。


这个名为In-Place TTT(原地测试时训练)的方案,让TTT可以作为即插即用的模块,无缝集成到现有的预训练大模型中。


实验证明,Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后,都原地变强了,并且在长文本任务上提升尤为明显。


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


这篇论文已经中了ICLR 2026 Oral。


让大模型在推理时“原地改参数”


话不多说,还是来看论文的详细内容。


In-Place TTT核心要解决的问题,是在不折腾模型架构的前提下,让大模型在推理/回答问题时,也能悄悄更新自己,适配当前的上下文。


实现即插即用,字节Seed和北大的研究人员主要做了3点创新。


原地架构设计


在In-Place TTT中,研究人员巧妙地复用了Transformer中无处不在的MLP(多层感知机)


他们将MLP的最后一个投影矩阵Wdown作为快速权重(fast weights),在推理时进行原地更新。


这样就无需引入新的专用层来处理快速权重。已经训好的大模型也可以拿来直接用,不必重新训练。


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


语言模型对齐的优化目标


原来的TTT只让模型“记住当前Token”,前文已经提到,这与语言模型的优化目标是不一致的。


为此,In-Place TTT设计了专门针对自回归语言模型的优化目标:


通过引入一维卷积(Conv1D)和投影矩阵,使TTT的目标值包含了未来 Token的信息,从而显式地与“预测下一个Token”的任务对齐。


研究人员还分析证明,这种做法能促使快速权重压缩对未来预测有用的信息,从而有效提升模型的上下文学习能力。


高效的块级更新机制


In-Place TTT是对MLP进行改造,保留了原有的注意力层,这就使得该方法可以实现分块更新,不用再逐Token去处理。


结合上下文并行技术,In-Place能实现更高的吞吐量和计算效率,支持更长的上下文。


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


实验表明,In-Place TTT能大幅提升现有模型(如Qwen3-4B)在128K甚至256K长上下文任务中的表现。


在从头训练的对比中,也优于其他TTT方法。


大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练


研究团队


In-Place TTT的论文一作是冯古豪和罗胜杰。


冯古豪目前就读于北京大学,是字节Seed的实习生。


罗胜杰同样毕业于北大,师从王立威教授和本文通讯作者贺笛教授。


本文的另一位通讯作者是字节Seed的Wenhao Huang。


论文地址:https://arxiv.org/abs/2604.06169v1


文章来自于微信公众号 "量子位",作者 "量子位"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md