AI资讯新闻榜单内容搜索-微调

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 微调
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

大模型的预训练-微调范式,正在悄然改写强化学习!伯克利团队提出新方法InFOM,不依赖奖励信号,也能在多个任务中实现超强迁移,还能做到「读心术」级别的推理。这到底怎么做到的?

来自主题: AI技术研报
5864 点击    2025-06-30 10:52
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质量合成数据。

来自主题: AI技术研报
8001 点击    2025-06-24 16:13
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

最近,来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」(DnD),它可以基于提示词快速生成模型参数,无需微调就能适应任务。不仅效率最高提升12000倍,而且具备出色的零样本泛化能力。

来自主题: AI技术研报
7217 点击    2025-06-24 14:26
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5766 点击    2025-06-22 16:08
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。

来自主题: AI技术研报
6118 点击    2025-06-22 11:34
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。

来自主题: AI技术研报
5760 点击    2025-06-21 16:56
函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新

函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新

函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新

端午节前OpenAI发布了o3/o4-mini模型的Function Calling指南,这份指南可以说是目前网上最硬核权威的大模型函数调用实战手册,没有之一。

来自主题: AI技术研报
7061 点击    2025-06-03 12:19
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报
7221 点击    2025-06-02 15:24
LLM省钱大测评!48块GH200,首个百亿级参数量实证

LLM省钱大测评!48块GH200,首个百亿级参数量实证

LLM省钱大测评!48块GH200,首个百亿级参数量实证

EfficientLLM项目聚焦LLM效率,提出三轴分类法和六大指标,实验包揽全架构、多模态、微调技术,可为研究人员提供效率与性能平衡的参考。

来自主题: AI技术研报
6928 点击    2025-05-29 17:16
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。

来自主题: AI技术研报
8908 点击    2025-05-28 09:55