AI资讯新闻榜单内容搜索-微调

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 微调

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，通过全自动流程生成高质量推理轨迹，并用冷启动微调和强化学习优化决策，使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯

5640 点击 2025-08-15 20:26

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

5298 点击 2025-08-13 16:03

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

仅凭少量后训练微调，机器人就能完全自主、连续不断地完成床铺整理任务。而它的每一步思考与动作实时投放在大屏幕上。

来自主题: AI资讯

5149 点击 2025-08-12 11:18

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

6147 点击 2025-08-02 12:49

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

6503 点击 2025-08-01 16:08

驯服复杂表格：九天重磅开源，开启「人与表格对话」智能新时代

驯服复杂表格：九天重磅开源，开启「人与表格对话」智能新时代

驯服复杂表格：九天重磅开源，开启「人与表格对话」智能新时代

7 月 26 日，在 WAIC 2025 世界人工智能大会上，中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系，包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型。

来自主题: AI资讯

5222 点击 2025-08-01 15:58

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

4327 点击 2025-07-31 10:10

只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线 | ACL25 Oral

只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线 | ACL25 Oral

只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线 | ACL25 Oral

只需一次指令微调，即可让普通大模型变身“全能专家天团”？

来自主题: AI技术研报

6334 点击 2025-07-29 10:45

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

5285 点击 2025-07-28 10:36

突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

告别Next-token，现在模型微调阶段就能直接多token预测！

来自主题: AI技术研报

7437 点击 2025-07-25 10:00

上一页当前第1页,共24页下一页