AI资讯新闻榜单内容搜索-微调

Cursor滑跪开源技术报告：Kimi基模这样微调能干翻Claude

Cursor套壳Kimi这事还没完…… 最新消息，Cursor放出Composer 2技术报告，力证自己还是有在“自研”。（doge）不是纯套，而是有技术地套、循序渐进地套。用的方法，还是他们一开始就强调的预训练+强化学习。

来自主题: AI资讯

8279 点击 2026-03-27 00:32

用SFT打出RL的效果？微软联合提出高效后训练算法

在大模型后训练阶段，监督微调（SFT）和强化学习（RL）是两根不可或缺的支柱。SFT 利用高质量的离线（Off-policy）数据快速注入知识，但受限于静态数据分布，泛化能力往往容易触及天花板并带来灾难性遗忘；RL 则允许模型在探索中不断自我迭代，产生与当前策略同分布（On-policy）的数据，上限极高，但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报

5765 点击 2026-03-26 10:47

可微奖励就该直接微调！用HJB方程颠覆流匹配对齐｜NeurIPS'25

用强化学习微调扩散模型，还有更好的办法吗？

来自主题: AI技术研报

7903 点击 2026-03-11 09:23

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

7012 点击 2026-03-11 09:22

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

近日， Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文，并得到了一些相当惊人的新发现。在这项研究中，他们挑战了当前大模型安全领域的一个核心假设。长期以来，业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法：

来自主题: AI技术研报

9487 点击 2026-03-02 10:12