AI资讯新闻榜单内容搜索-Fine-Tunin

微软警告：大模型ICL并非真正意义上的学习，你的AI Agent随时可能“失忆”

上下文学习”（In-Context Learning，ICL），是大模型不需要微调（fine-tuning），仅通过分析在提示词中给出的几个范例，就能解决当前任务的能力。您可能已经对这个场景再熟悉不过了：您在提示词里扔进去几个例子，然后，哇！大模型似乎瞬间就学会了一项新技能，表现得像个天才。

来自主题: AI技术研报

6649 点击 2025-09-18 14:44

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

8704 点击 2025-09-09 10:49

CVPR 2025 | CV 微调卷出天际，Mona：我小、我强、我省资源

Mona（Multi-cognitive Visual Adapter）是一种新型视觉适配器微调方法，旨在打破传统全参数微调（full fine-tuning）在视觉识别任务中的性能瓶颈。

来自主题: AI技术研报

8291 点击 2025-05-02 14:17

缺钱缺数据时的大模型微调方法汇总

别说什么“没数据就去标注啊，没钱标注就别做大模型啊”这种风凉话，有些人数据不足也能做大模型，是因为有野心，就能想出来稀缺数据场景下的大模型解决方案，或者整理出本文将要介绍的 "Practical Guide to Fine-tuning with Limited Data" 这样的综述。

来自主题: AI资讯

10438 点击 2024-12-09 09:30

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI“双12”直播第二天，依旧简短精悍，主题：新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢？最低几十个例子就可以。

来自主题: AI资讯

10589 点击 2024-12-07 09:26

如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型？

Fine-tuning理论上很复杂，但是OpenAI把这个功能完善到任何一个人看了就能做出来的程度。我们先从原理入手，你看这张图，左边是Pre-trained LLM （预训练大模型模型），也就是像ChatGPT这样的模型；右边是Fine-tuned LLM （微调过的语言大模型），中间就是进行微调的过程，它需要我们提供一些「ChatGPT提供不了但是我们需要的东西」。

来自主题: AI技术研报

10007 点击 2024-12-01 10:56

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

开源大语言模型（LLM）百花齐放，为了让它们适应各种下游任务，微调（fine-tuning）是最广泛采用的基本方法。基于自动微分技术（auto-differentiation）的一阶优化器（SGD、Adam 等）虽然在模型微调中占据主流，然而在模型越来越大的今天，却带来越来越大的显存压力。

来自主题: AI技术研报

10960 点击 2024-07-04 13:35

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」

来自主题: AI技术研报

10778 点击 2024-05-26 13:50

RAG还是微调？微软出了一份特定领域大模型应用建设流程指南

检索增强生成（RAG）和微调（Fine-tuning）是提升大语言模型性能的两种常用方法，那么到底哪种方法更好？在建设特定领域的应用时哪种更高效？微软的这篇论文供你选择时进行参考。

来自主题: AI技术研报

5726 点击 2024-02-17 12:09

当LLM学会左右互搏，基础模型或将迎来集体进化

进入现今的大模型 (LLM) 时代，又有研究者发现了左右互搏的精妙用法！近日，加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN（Self-Play Fine-Tuning），可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。

来自主题: AI资讯

10298 点击 2024-01-06 12:17