AI资讯新闻榜单内容搜索-蒸馏

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 蒸馏

告别RAG延迟！LLM首个即插即用“记忆解码器”问世！

告别RAG延迟！LLM首个即插即用“记忆解码器”问世！

告别RAG延迟！LLM首个即插即用“记忆解码器”问世！

一句话概括，还在嫌弃RAG太慢？这帮研究员直接把检索数据库"蒸馏"成了一个小模型，实现了不检索的检索增强，堪称懒人福音。

来自主题: AI技术研报

6004 点击 2025-08-18 11:48

被曝蒸馏DeepSeek还造假！欧版OpenAI塌房了

被曝蒸馏DeepSeek还造假！欧版OpenAI塌房了

被曝蒸馏DeepSeek还造假！欧版OpenAI塌房了

网友在推特上爆料，一位Mistral离职女员工群发邮件，直指公司多项黑幕。其中最劲爆的就是：Mistral最新模型疑似直接蒸馏自DeepSeek，却对外包装成RL成功案例，并刻意歪曲基准测试结果。

来自主题: AI资讯

7620 点击 2025-08-15 00:07

一夜颠覆Sora神话，H200单卡5秒出片！全华人团队开源AI引爆视频圈

一夜颠覆Sora神话，H200单卡5秒出片！全华人团队开源AI引爆视频圈

一夜颠覆Sora神话，H200单卡5秒出片！全华人团队开源AI引爆视频圈

AI视频生成进入了秒生极速时代！UCSD等机构发布的FastWan系模型，在一张H200上，实现了5秒即生视频。稀疏蒸馏，让去噪时间大减，刷新SOTA。

来自主题: AI资讯

5457 点击 2025-08-07 17:55

Flux.1 Krea Dev超大杯实测：开源模型能否撼动Midjourney V7 ？

Flux.1 Krea Dev超大杯实测：开源模型能否撼动Midjourney V7 ？

Flux.1 Krea Dev超大杯实测：开源模型能否撼动Midjourney V7 ？

7月底 Black Forest Labs 和 Krea 合作开发的高级文本到图像生成模型 Flux.1 Krea Dev，最近终于有时间进行测评了。Flux.1 Krea Dev 是基于FLUX.1 dev 模型进行蒸馏的，参数规模12B，专注于提升图像的美学和真实感，避免了常见的 AI 生成痕迹（过度饱和或不自然高光等等），更倾向于追求自然细节、照片级真实感和多样性。

来自主题: AI资讯

6149 点击 2025-08-07 10:54

抗干扰能力提升近40% ！无需对抗训练，北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

抗干扰能力提升近40% ！无需对抗训练，北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

抗干扰能力提升近40% ！无需对抗训练，北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

在人工智能模型规模持续扩大的今天，数据集蒸馏（Dataset Distillation,DD）方法能够通过使用更少的数据，达到接近完整数据的训练效果，提升模型训练效率，降低训练成本。

来自主题: AI技术研报

5575 点击 2025-07-29 10:12

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

无需蒸馏任何大规模语言模型，小模型也能自给自足、联合提升？

来自主题: AI技术研报

6549 点击 2025-06-22 16:13

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版，实测编程性能直逼claude 4

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版，实测编程性能直逼claude 4

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版，实测编程性能直逼claude 4

今天，我们正式发布 DeepSeek-R1，并同步开源模型权重。DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线API，对用户开放思维链输出，通过设置 `model='deepseek-reasoner'` 即可调用。

来自主题: AI资讯

8068 点击 2025-05-28 21:49

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

只用5%的参数，数学和代码能力竟然超越满血DeepSeek？

来自主题: AI资讯

8015 点击 2025-05-27 12:45

何恺明等降维打击！彻底颠覆AI生图，无需预训练一步到位

何恺明等降维打击！彻底颠覆AI生图，无需预训练一步到位

何恺明等降维打击！彻底颠覆AI生图，无需预训练一步到位

何恺明团队又一力作！这次他们带来的是「生成模型界的降维打击」——MeanFlow：无需预训练、无需蒸馏、不搞课程学习，仅一步函数评估（1-NFE），就能碾压以往的扩散与流模型！

来自主题: AI技术研报

4906 点击 2025-05-21 14:50

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！

来自主题: AI技术研报

6013 点击 2025-05-14 15:26

上一页当前第1页,共6页下一页