AI资讯新闻榜单内容搜索-微调

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

你或许也有过这样的猜想，如何让AI智能体（Agent）变得更聪明、更能干，同时又不用烧掉堆积如山的算力去反复微调模型？

来自主题: AI技术研报

11134 点击 2025-09-01 09:58

秋招超强助攻：零基础1小时上手GPT微调！全流程教程免费开源

针对OpenAI最新开源的GPT-OSS，这一篇面向零基础小白用户的手把手式的详细训练教程或许能帮助你完成你的第一个GPT训练项目。

来自主题: AI资讯

8193 点击 2025-08-29 16:39

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报

7799 点击 2025-08-22 16:35

刚刚，字节开源Seed-OSS-36B模型，512k上下文

开源赛道也是热闹了起来。就在深夜，字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型，包含三个版本： Seed-OSS-36B-Base（含合成数据） Seed-OSS-36B-Base（不含合成数据） Seed-OSS-36B-Instruct（指令微调版）

来自主题: AI资讯

7740 点击 2025-08-21 11:48

谷歌版小钢炮开源！0.27B大模型，4个注意力头，专为终端而生

谷歌开源Gemma 3 270M闪亮登场！只需几分钟即可完成微调，指令遵循和文本结构化能力更是惊艳，性能超越Qwen 2.5同级模型。

来自主题: AI资讯

8848 点击 2025-08-15 20:47

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，通过全自动流程生成高质量推理轨迹，并用冷启动微调和强化学习优化决策，使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯

8200 点击 2025-08-15 20:26

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7422 点击 2025-08-13 16:03