AI资讯新闻榜单内容搜索-模型微调

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

本文作者刘圳是香港中文大学（深圳）数据科学学院的助理教授，肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生，刘威杨是德国马克思普朗克-智能系统研究所的研究员，Yoshua Bengio 是蒙特利尔大学和加拿大 Mila 研究所的教授，张鼎怀是微软研究院的研究员。此论文已收录于 ICLR 2025。

来自主题: AI技术研报

6638 点击 2025-04-13 15:49

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方向

比LoRA更高效的模型微调方法来了——

来自主题: AI技术研报

8154 点击 2024-09-16 21:35

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

9548 点击 2024-05-26 13:45

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

3220 点击 2024-05-08 12:21

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强？ Deepmoney金融大模型魔改方案分享&在线实测

在微调大型模型的过程中，一个常用的策略是“知识蒸馏”，这意味着借助高性能模型，如GPT-4，来优化性能较低的开源模型。这种方法背后隐含的哲学理念与logos中心论相似，把GPT-4等模型视为更接近唯一的逻辑或真理的存在。

来自主题: AI资讯

7087 点击 2024-02-21 16:49

Weights&Biases，支持AI明星公司训练模型的幕后英雄

有一家公司，OpenAI、Anthropic、Cohere、Aleph Alpha（欧洲顶尖大模型公司）和Hugging Face的模型训练和微调都离不开它，NVIDIA和谷歌云（GCP）都是它的深度合作伙伴，它是支持生成式AI明星公司们训练模型的幕后英雄。

来自主题: AI资讯

10131 点击 2023-11-04 10:26