AI资讯新闻榜单内容搜索-微调

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

全网首发！DeepSeek V3/R1满血版低成本监督微调秘籍来了，让高达6710亿参数AI巨兽释放最强性能。

来自主题: AI技术研报

6330 点击 2025-02-19 14:31

这项尝试只用到了 R1 模型和基本验证器，没有针对 R1 的工具，没有对专有的英伟达代码进行微调。其实根据 DeepSeek 介绍，R1 的编码能力不算顶尖。

来自主题: AI技术研报

7296 点击 2025-02-13 15:18

只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。

来自主题: AI资讯

7716 点击 2025-02-11 15:26

黑科技来了！开源LLM微调神器Unsloth近期更新，将GRPO训练的内存使用减少了80%！只需7GB VRAM，本地就能体验AI「啊哈时刻」。

来自主题: AI资讯

8950 点击 2025-02-09 21:29

近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。

来自主题: AI资讯

6928 点击 2025-02-07 19:31

本研究探讨了LLM是否具备行为自我意识的能力，揭示了模型在微调过程中学到的潜在行为策略，以及其是否能准确描述这些行为。研究结果表明，LLM能够识别并描述自身行为，展现出行为自我意识。

来自主题: AI技术研报

6373 点击 2025-02-02 18:38

知识蒸馏通过训练一个紧凑的学生模型来模仿教师模型的 Logits 或 Feature Map，提高学生模型的准确性。迁移学习则通常通过预训练和微调，将预训练阶段在大规模数据集上学到的知识通过骨干网络共享应用于下游任务。

来自主题: AI技术研报

4419 点击 2025-01-28 11:57

就在刚刚，网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现，只用强化学习，没有监督微调，30美元就能见证「啊哈时刻」！全球AI大模型，或许正在进入下一分水岭。

来自主题: AI资讯

8612 点击 2025-01-26 13:30

未来，掌握持续提示工程技术的开发者，将主导下一代智能系统的进化方向。

来自主题: AI技术研报

8915 点击 2025-01-24 14:33

中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型，成功秘诀竟是强化学习，不用监督微调。AI大佬们一致认为，这就是AlphaGo时刻。

来自主题: AI资讯

8881 点击 2025-01-21 12:59