AI资讯新闻榜单内容搜索-蒸馏

抗干扰能力提升近40% ！无需对抗训练，北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

在人工智能模型规模持续扩大的今天，数据集蒸馏（Dataset Distillation,DD）方法能够通过使用更少的数据，达到接近完整数据的训练效果，提升模型训练效率，降低训练成本。

来自主题: AI技术研报

5466 点击 2025-07-29 10:12

无需蒸馏任何大规模语言模型，小模型也能自给自足、联合提升？

来自主题: AI技术研报

6488 点击 2025-06-22 16:13

今天，我们正式发布 DeepSeek-R1，并同步开源模型权重。DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线API，对用户开放思维链输出，通过设置 `model='deepseek-reasoner'` 即可调用。

来自主题: AI资讯

7998 点击 2025-05-28 21:49

只用5%的参数，数学和代码能力竟然超越满血DeepSeek？

来自主题: AI资讯

7965 点击 2025-05-27 12:45

何恺明团队又一力作！这次他们带来的是「生成模型界的降维打击」——MeanFlow：无需预训练、无需蒸馏、不搞课程学习，仅一步函数评估（1-NFE），就能碾压以往的扩散与流模型！

来自主题: AI技术研报

4842 点击 2025-05-21 14:50

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！

来自主题: AI技术研报

5968 点击 2025-05-14 15:26

近年来，「思维链（Chain of Thought，CoT）」成为大模型推理的显学，但要让小模型也拥有长链推理能力却非易事。

来自主题: AI技术研报

7103 点击 2025-05-04 17:08

自从DeepSeek带火了蒸馏模型以后，更多人开始关注AI大模型在边缘端的部署。而在过去，TinyML一直也在MCU领域很火热。现在，边缘AI走得更快了，市场也正在走向爆发。

来自主题: AI资讯

7076 点击 2025-04-30 08:25

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

7402 点击 2025-04-28 16:59

一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高了采样效率，而非真正赋予模型全新推理能力。

来自主题: AI技术研报

6205 点击 2025-04-28 16:51