尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文学习(ICL)时仍存在明显局限。
已有工作表明,即使提供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制或统计依赖。
这项名为 MachineLearningLM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条示例,在金融、健康、生物信息、物理等等多个领域的二分类 / 多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B-Instruct)以及最新发布的 GPT-5-mini。
相比于已有的用于表格数据的机器学习方法,MachineLearningLM 几乎完全保留了 LLM 通用能力,这意味着它可以无缝集成到更复杂的对话工作流中。
研究团队旨在赋予 LLM 一种「举一反三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖掘规律并进行预测的能力。
传统的指令微调方法通常基于有限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模型向新任务的泛化能力。与之相比,MachineLearningLM 构建了一个超过 300 万合成任务的大规模预训练语料库。
任务生成器基于结构因果模型(Structural Causal Model, SCM)来采样生成二分类及多分类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征的边际分布、类型(如数值型或类别型)以及标签生成机制。
该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示例数量从数个到 1024 个不等,该机制能够专门训练模型处理「多示例」场景的推理能力。
在海量合成任务上直接训练大型语言模型(LLM)容易因任务质量不一致 —— 例如存在信号微弱或类别极度不平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问题,本研究引入随机森林(Random Forest)模型,利用其强大且稳健的建模能力,设计了如下两级过滤机制:
为何选择随机森林?除了强大且稳健的建模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路径与特征重要性评估,这种可解释性与 LLM 的思维链(Chain-of-Thought, CoT)推理模式天然契合,有助于后续推进思维链预测及解释性预测任务。
同时,随机森林能够提供预测置信度,为进一步减少 LLM 幻觉问题引入置信度机制提供了可能。
在大模型时代,如何高效地在上下文学习中处理海量表格数据,是一项重要挑战。传统的「自然语言描述」方式(例如:「收入是 29370,职业是博士,年增长率是 - 12.34% → 标签:1」),占用 token 多、计算开销大,严重限制了实际应用中可支持的示例数量;数值型特征经分词器处理时,一个小数可能被拆成多个 token,既浪费长度又可能导致数值比较错误,如模型容易误认为「1.11」(1|.|11)比「1.9」(1|.|9)大。
为此,作者提出了三项核心优化策略,显著提升了上下文学习的数据容纳能力与推理效率:
MachineLearningLM 的继续预训练方案无需改变模型架构或分词器,只使用了 Qwen2.5-7B 基座模型和低秩适配(LoRA rank=8)这种轻量级配置,MachineLearningLM 展现出了前所未有的上下文样本利用能力:
在无需任何任务特定训练的情况下,其准确率已能达到与需要任务级参数更新的随机森林模型相差无几的水平(平均相对差距在 2% 以内),并显著优于 K 近邻(kNN)算法。
通用能力无损:最关键的是,注入 ML 能力后,模型原有的对话、知识和推理能力几乎完好无损。在 MMLU 基准测试中,其零样本准确率达 73.2%,50 样本设置下达 75.4%,与基准通用 LLM(Qwen-2.5-7B-Instruct)持平,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无缝集成到更复杂的对话工作流中。
基于大幅提升的多样本上下文学习和数值建模能力,MachineLearningLM 有望在金融、医疗健康与科学计算等广泛场景中扩展大型语言模型的实际应用边界。
MachineLearningLM 为未来研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向:
本文作者:董浩宇(中国科学院大学)、张鹏昆(华南理工大学)、陆明哲(中国科学院大学)、沈言祯(斯坦福大学)、柯国霖(个人贡献者)
董浩宇:中国科学院大学在读博士(预计 2025 年底毕业)。研究方向涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、数据集与评测基准等。曾提出 SpreadsheetLLM 并获得 Hugging Face Paper of the Day、联合发起并持续共同组织 NeurIPS 2022–2024 表格表征学习(TRL)系列研讨会,推动表格智能社区发展。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner