AI资讯新闻榜单内容搜索-微调

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比，训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯

9441 点击 2024-05-27 16:39

ChatGPT如何「思考」？心理学和神经科学破解AI大模型，Nature发文

美国东北大学的计算机科学家 David Bau 非常熟悉这样一个想法：计算机系统变得如此复杂，以至于很难跟踪它们的运行方式。

来自主题: AI技术研报

10151 点击 2024-05-26 13:53

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」

来自主题: AI技术研报

10408 点击 2024-05-26 13:50

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

10524 点击 2024-05-26 13:45

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

本文由GreenBit.AI团队撰写，团队的核心成员来自德国哈索·普拉特纳计算机系统工程院开源技术小组。我们致力于推动开源社区的发展，倡导可持续的机器学习理念。我们的目标是通过提供更具成本效益的解决方案，使人工智能技术在环境和社会层面产生积极影响。

来自主题: AI技术研报

8809 点击 2024-05-25 18:15

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

大数据巨头Databricks与哥伦比亚大学最新研究发现，在数学和编程任务上，LoRA干不过全量微调。

来自主题: AI技术研报

3147 点击 2024-05-20 21:03

Google如何做医疗大模型(Med-Gemini)

在《如何制造一个垂直领域大模型》一文中我们列举了几种开发垂直领域模型的方法。其中医疗、法律等专业是比较能体现模型垂直行业能力的，因此也深受各大厂商的重视。

来自主题: AI技术研报

9171 点击 2024-05-14 21:55

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

6160 点击 2024-05-12 11:26

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

4257 点击 2024-05-08 12:21

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

大模型又又又被曝出安全问题！

来自主题: AI技术研报

10001 点击 2024-05-07 22:26