AI资讯新闻榜单内容搜索-后训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 后训练
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5625 点击    2025-04-28 14:09
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5192 点击    2025-04-22 08:39
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

近年来,随着大型语言模型(LLMs)的快速发展,多模态理解领域取得了前所未有的进步。像 OpenAI、InternVL 和 Qwen-VL 系列这样的最先进的视觉-语言模型(VLMs),在处理复杂的视觉-文本任务时展现了卓越的能力。

来自主题: AI技术研报
3798 点击    2025-04-14 13:57
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

港中文、清华等高校提出SICOG框架,通过预训练、推理优化和后训练协同,引入自生成数据闭环和结构化感知推理机制,实现模型自我进化,为大模型发展提供新思路。

来自主题: AI技术研报
8060 点击    2025-04-11 09:36
新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

刚刚,DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5!而且这只是通过改进后训练方法实现。DeepSeek-V3-0324和之前的DeepSeek-V3使用同样的base模型。

来自主题: AI资讯
7923 点击    2025-03-25 22:30
ChatGPT创始成员、后训练负责人官宣离职!自立门户并将获OpenAI投资

ChatGPT创始成员、后训练负责人官宣离职!自立门户并将获OpenAI投资

ChatGPT创始成员、后训练负责人官宣离职!自立门户并将获OpenAI投资

OpenAI 又有重量级员工出走!这次是后训练负责人、研究副总裁 William Fedus。今天凌晨,Fedus 在 X 上发表了一则公开离职信,讲述了他离职的原因以及今后的去向。

来自主题: AI资讯
7783 点击    2025-03-18 09:15
DeepSeek狂潮下,九张图表详解智算市场走向

DeepSeek狂潮下,九张图表详解智算市场走向

DeepSeek狂潮下,九张图表详解智算市场走向

DeepSeek热潮将在预训练、后训练(二次训练)和推理三大细分市场都带来巨大改变。

来自主题: AI资讯
6827 点击    2025-02-19 14:50
ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

离开OpenAI后,他们俩把ChatGPT后训练方法做成了PPT,还公开了~

来自主题: AI资讯
2709 点击    2025-02-19 11:06