从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

8352点击 2025-09-17 09:30

尽管大型语言模型（LLM）拥有广泛的世界知识和强大的推理能力，被广泛视为优秀的少样本学习者，但在处理需要大量示例的上下文学习（ICL）时仍存在明显局限。

已有工作表明，即使提供多达上百甚至上千条示例，LLM 仍难以从中有效学习规律，其表现往往很快进入平台期，甚至对示例的顺序、标签偏差等较为敏感。在利用上下文学习解决新任务时，LLM 往往更依赖于自身的强先验以及示例的表面特征，而难以真正挖掘出示例中潜在的因果机制或统计依赖。

这项名为 MachineLearningLM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的「继续预训练」框架，无需下游微调即可直接通过上下文学习上千条示例，在金融、健康、生物信息、物理等等多个领域的二分类 / 多分类任务中的准确率显著超越基准模型（Qwen-2.5-7B-Instruct）以及最新发布的 GPT-5-mini。

相比于已有的用于表格数据的机器学习方法，MachineLearningLM 几乎完全保留了 LLM 通用能力，这意味着它可以无缝集成到更复杂的对话工作流中。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

核心创新一：百万级合成任务「授人以渔」

研究团队旨在赋予 LLM 一种「举一反三」的元能力 —— 不依赖对真实任务数据的机械记忆，而是通过海量且多样化的合成任务，从根本上训练模型在大量上下文示例中挖掘规律并进行预测的能力。

传统的指令微调方法通常基于有限规模（约为千数量级）的真实任务数据，这在很大程度上限制了模型向新任务的泛化能力。与之相比，MachineLearningLM 构建了一个超过 300 万合成任务的大规模预训练语料库。

任务生成器基于结构因果模型（Structural Causal Model, SCM）来采样生成二分类及多分类任务。SCM 通过有向无环图（DAG）和结构方程（采用神经网络与树模型实现）明确定义变量间的因果关系，能够精确控制特征的边际分布、类型（如数值型或类别型）以及标签生成机制。

该方法确保预训练数据与下游真实评估集没有任何重叠，从而保证评估过程对模型泛化能力的检验具备充分公平性。同时，通过控制示例数量从数个到 1024 个不等，该机制能够专门训练模型处理「多示例」场景的推理能力。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

核心创新二：随机森林模型「循循善诱」

在海量合成任务上直接训练大型语言模型（LLM）容易因任务质量不一致 —— 例如存在信号微弱或类别极度不平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问题，本研究引入随机森林（Random Forest）模型，利用其强大且稳健的建模能力，设计了如下两级过滤机制：

样本级共识过滤（热身训练阶段）：在热身训练中，为每个合成任务训练一个随机森林模型，并引导 LLM 学习模仿其预测行为。具体而言，仅保留随机森林预测结果与真实标签一致的那些样本用于 LLM 的训练。该方法通过提供清晰且高置信度的监督信号，使 LLM 初步建立起准确的上下文建模能力，尤其是数值建模能力，为后续过渡到自主上下文学习奠定基础。

任务级过滤（全程训练阶段）：在整个训练过程中，除为每个任务构建随机森林模型外，还引入保守随机基线（如随机猜测或坍塌到多数类的预测方法），以剔除那些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。

为何选择随机森林？除了强大且稳健的建模能力，随机森林具有高度透明的决策过程，可分解为清晰的规则路径与特征重要性评估，这种可解释性与 LLM 的思维链（Chain-of-Thought, CoT）推理模式天然契合，有助于后续推进思维链预测及解释性预测任务。

同时，随机森林能够提供预测置信度，为进一步减少 LLM 幻觉问题引入置信度机制提供了可能。

核心创新三：高效上下文示例编码「多维扩容」

在大模型时代，如何高效地在上下文学习中处理海量表格数据，是一项重要挑战。传统的「自然语言描述」方式（例如：「收入是 29370，职业是博士，年增长率是 - 12.34% → 标签：1」），占用 token 多、计算开销大，严重限制了实际应用中可支持的示例数量；数值型特征经分词器处理时，一个小数可能被拆成多个 token，既浪费长度又可能导致数值比较错误，如模型容易误认为「1.11」（1|.|11）比「1.9」（1|.|9）大。

为此，作者提出了三项核心优化策略，显著提升了上下文学习的数据容纳能力与推理效率：

告别「小作文」，样本用表格来组织： SpreadsheetLLM 等研究已广泛证明，LLM 能很好地理解结构化表格，因此作者放弃相关工作将结构化数据展开成冗长自然语句的做法，转而采用紧凑的表格编码格式。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

把数字「打包」成整数，告别 token 碎片化：先遵循机器学习工程的常见操作，将所有数值基于训练集数据分布逐列进行 z-score 标准化；然后将 z-norm 下 ±4.17（绝大多数情况）的浮点数区间整体线性映射到 [0, 999] 的整数区间。这样，每个数值在 GPT 和 LLaMA 3 的词表中仅需 1 个 token 表示（Qwen 分词器也仅需 1 到 3 个 token），既节省空间，还避免了小数点和正负号单独切词带来的数值理解错误。该流程只是改进了传统机器学习中的数值标准化，而没有改变 LLM 原生分词器，因此模型的数值推理能力可以全部继承。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

推理也要「团购」：序列级批量预测——传统上下文学习一次只处理一个查询，在多样本学习时效率极低。作者将多个查询（如 50 条）拼成一条序列，统一前向推理，一次性输出所有预测结果。这不仅大幅提升推理速度，还能在训练阶段提高自回归稳定性。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

惊艳效果：多项能力突破

MachineLearningLM 的继续预训练方案无需改变模型架构或分词器，只使用了 Qwen2.5-7B 基座模型和低秩适配（LoRA rank=8）这种轻量级配置，MachineLearningLM 展现出了前所未有的上下文样本利用能力：

「千示例」上下文学习：模型性能随着提供的示例数量增加而持续稳定提升，从 8 条示例到 1024 条示例，准确率单调增长。这样的上下文样本效率是已有 LLM 都难以做到的。

远超 GPT-5-mini 等强大基准模型：在金融、生物信息、物理信号和医疗健康等领域的表格分类任务上，其纯上下文学习的准确率平均超越 GPT-5-mini 等强大基准模型约 13 到 16 个百分点。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

在无需任何任务特定训练的情况下，其准确率已能达到与需要任务级参数更新的随机森林模型相差无几的水平（平均相对差距在 2% 以内），并显著优于 K 近邻（kNN）算法。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

通用能力无损：最关键的是，注入 ML 能力后，模型原有的对话、知识和推理能力几乎完好无损。在 MMLU 基准测试中，其零样本准确率达 73.2%，50 样本设置下达 75.4%，与基准通用 LLM（Qwen-2.5-7B-Instruct）持平，甚至在特定领域（如统计和物理）有一定提升，这意味着它可以无缝集成到更复杂的对话工作流中。

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

实证研究表明，MachineLearningLM 能够同时处理数值特征与自然语言描述，无需像传统方法那样对文本进行分桶或转换为嵌入向量，实现了真正的异构（多模态）输入推理。然而，该模型仍存在一定局限，例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数据集时，性能尚有待提升，这也为后续研究指明了改进方向。

应用领域

基于大幅提升的多样本上下文学习和数值建模能力，MachineLearningLM 有望在金融、医疗健康与科学计算等广泛场景中扩展大型语言模型的实际应用边界。

未来展望

MachineLearningLM 为未来研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向：

超越文本与数字：合成多模态分类任务，使 MachineLearningLM 能够直接在海量合成数据上练习处理异构信号的多模态上下文预测，这依然可以建立在表格预测的框架之上，例如利用 HTML 表格来嵌入图像。
通过系统优化突破上下文长度限制：例如采用张量 / 流水线并行、高效内存注意力与 KV 缓存等系统优化技术。
不确定性预测 (Uncertainty)：预测的同时输出置信度（比如利用随机森林的置信度做热身训练），以减少模型 OpenAI 近期提出的由于缺乏承认不确定性（Honesty about uncertainty）引发的幻觉（Hallucination）。
提升可解释性 (Interpretability)：叙事蒸馏与推理增强学习，既可以利用底层的 SCM（变量、关系与机制）作为预测任务的辅助目标，也可以从集成模型中蒸馏规则，形成紧凑、人类可读的推理链条。
集成检索增强方法（RAG）：为 MachineLearningLM 集成一个检索模块，使其能在预训练和推理时动态注入最相关的示例。
赋能智能体（Agent）：与 Agent 记忆机制（Memory）深度融合，提升其在复杂环境中利用多样本的上下文学习，赋予智能体强大的从大量经验记忆中挖掘和学习的能力。

作者介绍

本文作者：董浩宇（中国科学院大学）、张鹏昆（华南理工大学）、陆明哲（中国科学院大学）、沈言祯（斯坦福大学）、柯国霖（个人贡献者）

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

董浩宇：中国科学院大学在读博士（预计 2025 年底毕业）。研究方向涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、数据集与评测基准等。曾提出 SpreadsheetLLM 并获得 Hugging Face Paper of the Day、联合发起并持续共同组织 NeurIPS 2022–2024 表格表征学习（TRL）系列研讨会，推动表格智能社区发展。

文章来自于微信公众号 “机器之心”，作者 “机器之心”

关键词: AI , 人工智能 , 模型训练 , MachineLearningLM

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner