AI资讯新闻榜单内容搜索-蒸馏

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 蒸馏
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型,专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏(sCM)和潜空间对抗蒸馏(LADD)的混合蒸馏策略,SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像,在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报
7929 点击    2025-03-31 16:16
蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

单目深度估计新成果来了!西湖大学AGI实验室等提出了一种创新性的蒸馏算法,成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下,该方法显著提升了估计精度,并刷新了单目深度估计的最新SOTA性能。

来自主题: AI技术研报
7705 点击    2025-02-28 15:40
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的(例如 the 或 a 这样的功能性词汇),需要模型进行大量训练才能获得高级推理和对概念的理解能力,

来自主题: AI技术研报
4483 点击    2025-02-16 13:12
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。

来自主题: AI技术研报
5552 点击    2025-02-07 15:43
原来,这些顶级大模型都是蒸馏的

原来,这些顶级大模型都是蒸馏的

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。

来自主题: AI技术研报
7701 点击    2025-01-29 13:26
模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

知识蒸馏通过训练一个紧凑的学生模型来模仿教师模型的 Logits 或 Feature Map,提高学生模型的准确性。迁移学习则通常通过预训练和微调,将预训练阶段在大规模数据集上学到的知识通过骨干网络共享应用于下游任务。

来自主题: AI技术研报
3361 点击    2025-01-28 11:57
中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏也有「度」,过度蒸馏,只会导致模型性能下降。最近,来自中科院、北大等多家机构提出全新框架,从两个关键要素去评估和量化蒸馏模型的影响。结果发现,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。

来自主题: AI技术研报
3981 点击    2025-01-21 22:30
超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

大连理工大学的研究人员提出了一种基于Wasserstein距离的知识蒸馏方法,克服了传统KL散度在Logit和Feature知识迁移中的局限性,在图像分类和目标检测任务上表现更好。

来自主题: AI技术研报
4848 点击    2025-01-10 16:00