
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。
只要微调模型生成的前8-32个词,就能让大模型推理能力达到和传统监督训练一样的水平?
开源微调神器Unsloth带着黑科技又来了:短短两周后,再次优化DeepSeek-R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1/10!
在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。
o1/DeepSeek-R1背后秘诀也能扩展到多模态了!
通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
大模型的快速及持续发展,离不开对模型所有权及数据隐私的保护。
DeepSeek-R1背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了!
DeepSeek爆火甚至引发API低价内卷……