AI资讯新闻榜单内容搜索-知识蒸馏

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 知识蒸馏

ICML 2026 | 将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

在多模态大模型（MLLM）快速发展的浪潮中，融合多模型 “集体智慧” 已成为提升模型性能的关键路径，并催生了多教师知识蒸馏这一主流范式。然而，不同来源的教师模型在架构与优化上的差异，其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹，即 “概念漂移”（Concept Drift）。

来自主题: AI技术研报

8321 点击 2026-05-14 09:30

今天，我决定把「卡兹克风格创作.skill」开源了。

今天，我决定把「卡兹克风格创作.skill」开源了。

今天，我决定把「卡兹克风格创作.skill」开源了。

故事是这样的。最近各种把同事、把前任、把各种知识蒸馏成Skill的东西特别火。

来自主题: AI资讯

10490 点击 2026-04-07 14:58

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

目前，最先进的对齐方法是使用知识蒸馏（Knowledge Distillation, KD）在所有 token 上最小化 KL 散度。然而，最小化全局 KL 散度并不意味着 token 的接受率最大化。由于小模型容量受限，草稿模型往往难以完整吸收目标模型的知识，导致直接使用蒸馏方法的性能提升受限。在极限场景下，草稿模型和目标模型的巨大尺寸差异甚至可能导致训练不收敛。

来自主题: AI技术研报

9427 点击 2025-11-07 14:57

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

9710 点击 2025-04-28 16:59

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

9631 点击 2025-04-24 14:38

95后博导张林峰专访：6年前提出自蒸馏算法，高效AI助推大模型时代丨独家

95后博导张林峰专访：6年前提出自蒸馏算法，高效AI助推大模型时代丨独家

95后博导张林峰专访：6年前提出自蒸馏算法，高效AI助推大模型时代丨独家

张林峰于2019年提出了自蒸馏算法，是知识蒸馏领域的代表性工作之一。DeepSeek出现后，知识蒸馏领域再次获得了极大的关注。

来自主题: AI资讯

10215 点击 2025-03-28 10:58

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

来自主题: AI技术研报

9445 点击 2025-03-10 09:35

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

7114 点击 2025-02-16 13:12

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。

来自主题: AI技术研报

8338 点击 2025-02-07 15:43

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

知识蒸馏通过训练一个紧凑的学生模型来模仿教师模型的 Logits 或 Feature Map，提高学生模型的准确性。迁移学习则通常通过预训练和微调，将预训练阶段在大规模数据集上学到的知识通过骨干网络共享应用于下游任务。

来自主题: AI技术研报

6048 点击 2025-01-28 11:57

上一页当前第1页,共2页下一页