AI TNT— 让一部分先用AI实现商业化

比LoRA更高效的模型微调方法来了——

来自主题: AI技术研报

7387 点击 2024-09-16 21:35

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

8957 点击 2024-05-26 13:45

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

2468 点击 2024-05-08 12:21

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强？ Deepmoney金融大模型魔改方案分享&在线实测

在微调大型模型的过程中，一个常用的策略是“知识蒸馏”，这意味着借助高性能模型，如GPT-4，来优化性能较低的开源模型。这种方法背后隐含的哲学理念与logos中心论相似，把GPT-4等模型视为更接近唯一的逻辑或真理的存在。

来自主题: AI资讯

6516 点击 2024-02-21 16:49

Weights&Biases，支持AI明星公司训练模型的幕后英雄

有一家公司，OpenAI、Anthropic、Cohere、Aleph Alpha（欧洲顶尖大模型公司）和Hugging Face的模型训练和微调都离不开它，NVIDIA和谷歌云（GCP）都是它的深度合作伙伴，它是支持生成式AI明星公司们训练模型的幕后英雄。

来自主题: AI资讯

9597 点击 2023-11-04 10:26