AI资讯新闻榜单内容搜索-陈丹琦

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

陈丹琦团队又带着他们的降本大法来了—— 数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。

来自主题: AI资讯

8384 点击 2025-01-08 09:56

陈丹琦等人组织的COLM奖项公布：被ICLR拒稿的Mamba入选杰出论文

会议组织者都是 NLP 头部科学家，在语言建模方面有着相当的成果。

来自主题: AI技术研报

9320 点击 2024-10-08 17:48

陈丹琦团队揭Transformer内部原理：另辟蹊径，从构建初代聊天机器人入手

好家伙！为了揭秘Transformer内部工作原理，陈丹琦团队直接复现——

来自主题: AI技术研报

11027 点击 2024-07-18 16:37

陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

Claude 3.5 Sonnet的图表推理能力，比GPT-4o高出了27.8%。针对多模态大模型在图表任务上的表现，陈丹琦团队提出了新的测试基准。新Benchmark比以往更有区分度，也让一众传统测试中的高分模型暴露出了真实能力。

来自主题: AI技术研报

10297 点击 2024-06-29 00:07

陈丹琦团队新作：教你避免成为任天堂的被告

陈丹琦团队刚刚发布了一项新工作，主题是：

来自主题: AI资讯

11012 点击 2024-06-26 18:30

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比，训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯

10183 点击 2024-05-27 16:39

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

11269 点击 2024-05-26 13:45