AI资讯新闻榜单内容搜索-微调

零样本「即插即用」！智源开源RoboBrain-X0，一个基座模型开动不同机器人

为破解机器人产业「一机一调」的开发困境，智源研究院开源了通用「小脑基座」RoboBrain-X0。它创新地学习任务「做什么」而非「怎么动」，让一个预训练模型无需微调，即可驱动多种不同构造的真实机器人，真正实现了零样本跨本体泛化。

来自主题: AI资讯

9511 点击 2025-09-30 11:01

普通人也能「炼丹」了？我拿小红书文案喂给openPangu-Embedded-1B的模型，几步就把它变成了专属文案大师！

我想聊个反向操作：咱们普通人，如何用有限的资源，轻松驯服一个 AI 模型，让它变成我们专属的垂直领域小能手？主角，就是最近华为刚刚开源的一个大小仅为 1B 的模型 openPangu-Embedded-1B，它不仅全面领先同规格模型，甚至与更大规模的 Qwen3-1.7B 也难分伯仲。

来自主题: AI资讯

10801 点击 2025-09-29 10:57

刚刚，北大&360里程碑式突破！32B安全分碾压千亿巨兽

打破思维惯性，「小模型」也能安全又强大！北大-360联合实验室发布TinyR1-32B模型，以仅20k数据的微调，实现了安全性能的里程碑式突破，并兼顾出色的推理与通用能力。

来自主题: AI资讯

8535 点击 2025-09-28 09:54

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

来自主题: AI技术研报

8690 点击 2025-09-23 14:59

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

LeCun 这次不是批评 LLM，而是亲自改造。当前 LLM 的训练（包括预训练、微调和评估）主要依赖于在「输入空间」进行重构与生成，例如预测下一个词。而在 CV 领域，基于「嵌入空间」的训练目标，如联合嵌入预测架构（JEPA），已被证明远优于在输入空间操作的同类方法。

来自主题: AI技术研报

8642 点击 2025-09-23 10:12

7 小时连续重构不掉线！一骑绝尘的Claude 终于遇到对手：Greg Brockman亲自解读AI编程重大突破

9 月 16 日，OpenAI 正式推出一款新模型 GPT-5-Codex ，这是一个经过微调的 GPT-5 变体，专门为其各种 AI 辅助编程工具而设计。该公司表示，新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态，完成一项编码任务所需的时间从几秒到七个小时不等。因此，它在代理编码基准测试中表现更佳。

来自主题: AI技术研报

9550 点击 2025-09-18 15:19

微软警告：大模型ICL并非真正意义上的学习，你的AI Agent随时可能“失忆”

上下文学习”（In-Context Learning，ICL），是大模型不需要微调（fine-tuning），仅通过分析在提示词中给出的几个范例，就能解决当前任务的能力。您可能已经对这个场景再熟悉不过了：您在提示词里扔进去几个例子，然后，哇！大模型似乎瞬间就学会了一项新技能，表现得像个天才。

来自主题: AI技术研报

7623 点击 2025-09-18 14:44

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文，系统性地回答了这个问题，他们不仅通过大量实验证实了这一现象，更进一步提出了一个简洁而深刻的解释，并将其命名为 “RL's Razor”（RL的剃刀）。

来自主题: AI技术研报

8144 点击 2025-09-18 14:26

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

这项名为 MachineLearningLM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的「继续预训练」框架，无需下游微调即可直接通过上下文学习上千条示例，在金融、健康、生物信息、物理等等多个领域的二分类 / 多分类任务中的准确率显著超越基准模型（Qwen-2.5-7B-Instruct）以及最新发布的 GPT-5-mini。

来自主题: AI技术研报

9372 点击 2025-09-17 09:30

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

让AI生成的图像更符合人类精细偏好，在32块H20上训练10分钟就能收敛。腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。

来自主题: AI技术研报

9045 点击 2025-09-15 15:51