AI资讯新闻榜单内容搜索-后训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 后训练

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

GRPO 就像一个树节点，从这里开始开枝散叶。

来自主题: AI技术研报

8399 点击 2025-09-01 14:51

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

仅凭少量后训练微调，机器人就能完全自主、连续不断地完成床铺整理任务。而它的每一步思考与动作实时投放在大屏幕上。

来自主题: AI资讯

5989 点击 2025-08-12 11:18

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了！上海创智学院、上海交通大学（GAIR Lab）发布MegaScience。该数据集包含约125万条问答对及其参考答案，广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域，旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报

6314 点击 2025-08-09 15:52

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

8132 点击 2025-08-08 11:22

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

7025 点击 2025-08-02 12:49

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力，但一个根本性问题仍未被真正解决：这些 AI 模型是否真正理解人类的指令与意图？

来自主题: AI技术研报

6791 点击 2025-08-01 12:27

大模型竞赛转向：决胜关键为何是“后训练”？

大模型竞赛转向：决胜关键为何是“后训练”？

大模型竞赛转向：决胜关键为何是“后训练”？

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透，AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练（Post-training），正从过去锦上添花的“调优”环节，演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报

7053 点击 2025-07-20 12:30

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文，首次公开评价中国大模型“月之暗面”Kimi K2。他表示，Kimi K2 在内部测试中表现良好，Perplexity 正在考虑在其基础上进行后训练。

来自主题: AI资讯

8710 点击 2025-07-14 10:35

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

6762 点击 2025-07-12 11:51

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

扎克伯格又从奥特曼手里挖走4名顶尖AI人才，这次四位都是华人研究员。

来自主题: AI资讯

7395 点击 2025-06-29 13:54

上一页当前第2页,共6页下一页