AI资讯新闻榜单内容搜索-微调

突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

告别Next-token，现在模型微调阶段就能直接多token预测！

来自主题: AI技术研报

7437 点击 2025-07-25 10:00

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

5639 点击 2025-07-11 16:30

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

8249 点击 2025-07-11 10:09

自适应语言模型框架SEAL，让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异，显著提升了模型的适应性和性能，为大模型的自主学习和优化提供了新的思路。

来自主题: AI技术研报

6603 点击 2025-07-10 11:33

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

6151 点击 2025-07-08 12:08

MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛：ChatGPT少量微调即获第二，开源Llama更胜一筹，凭提示词精准追踪卫星、节省燃料，更是0%失败率，验证AI小数据高效与自主航天可行，为未来的太空漫游铺路。

来自主题: AI技术研报

6574 点击 2025-07-03 11:48

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

来自主题: AI技术研报

6066 点击 2025-07-02 15:35

中科院自动化所提出DipLLM，这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架，仅用Cicero 1.5%的训练数据就实现超越

来自主题: AI资讯

7271 点击 2025-07-01 15:30

大模型的预训练-微调范式，正在悄然改写强化学习！伯克利团队提出新方法InFOM，不依赖奖励信号，也能在多个任务中实现超强迁移，还能做到「读心术」级别的推理。这到底怎么做到的？

来自主题: AI技术研报

6072 点击 2025-06-30 10:52

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题，来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」（Synthetic Data RL）的通用框架。该框架仅需用户提供一个简单的任务定义，即可全自动地生成高质量合成数据。

来自主题: AI技术研报

8145 点击 2025-06-24 16:13