AI资讯新闻榜单内容搜索-监督微调

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 监督微调

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究，系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。

来自主题: AI技术研报

6998 点击 2025-05-06 10:53

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

10266 点击 2025-04-08 14:18

中科大ICLR2025：特定领域仅用5%训练数据，知识准确率提升14%

中科大ICLR2025：特定领域仅用5%训练数据，知识准确率提升14%

中科大ICLR2025：特定领域仅用5%训练数据，知识准确率提升14%

让大语言模型更懂特定领域知识，有新招了！

来自主题: AI技术研报

9316 点击 2025-04-07 15:26

ICLR 2025 Spotlight | 参数高效微调新范式！上海交大联合上海AI Lab推出参数冗余微调算法

ICLR 2025 Spotlight | 参数高效微调新范式！上海交大联合上海AI Lab推出参数冗余微调算法

ICLR 2025 Spotlight | 参数高效微调新范式！上海交大联合上海AI Lab推出参数冗余微调算法

低秩适配器（LoRA）能够在有监督微调中以约 5% 的可训练参数实现全参数微调 90% 性能。

来自主题: AI技术研报

8383 点击 2025-04-04 14:03

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

最近，AI 公司 Databricks 推出了一种新的调优方法 TAO，只需要输入数据，无需标注数据即可完成。更令人惊喜的是，TAO 在性能上甚至超过了基于标注数据的监督微调。

来自主题: AI技术研报

8236 点击 2025-03-30 14:33

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

7688 点击 2025-03-05 20:42

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

全网首发！DeepSeek V3/R1满血版低成本监督微调秘籍来了，让高达6710亿参数AI巨兽释放最强性能。

来自主题: AI技术研报

6490 点击 2025-02-19 14:31

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了论文

近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。

来自主题: AI资讯

7079 点击 2025-02-07 19:31

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

就在刚刚，网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现，只用强化学习，没有监督微调，30美元就能见证「啊哈时刻」！全球AI大模型，或许正在进入下一分水岭。

来自主题: AI资讯

8791 点击 2025-01-26 13:30

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型，成功秘诀竟是强化学习，不用监督微调。AI大佬们一致认为，这就是AlphaGo时刻。

来自主题: AI资讯

9016 点击 2025-01-21 12:59

上一页当前第2页,共3页下一页