AI资讯新闻榜单内容搜索-后训练

大模型第一股热闹正酣，“局外人”阶跃星辰发了一个小更新

直到刚刚，用最新的图像模型NextStep-1.1，扳回一球。总体来看，这次开源的NextStep-1.1解决了之前NextStep-1中出现的可视化失败（visualization failures ）问题。其通过扩展训练和基于流的强化学习（RL）后训练范式，大幅提升了图像质量。

来自主题: AI资讯

10241 点击 2025-12-28 09:57

智谱首席科学家唐杰：领域大模型是伪命题！AI模型应用的第一性不应是创造新App，在线学习和自我评估是新Scaling范式

最近，清华大学教授、智谱AI首席科学家唐杰发了一条长微博，总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力，再到Agent、多模态和具身智能的发展，其中有不少亮点。

来自主题: AI资讯

10359 点击 2025-12-26 15:42

Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

2025年底，最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。

来自主题: AI资讯

8204 点击 2025-12-22 11:44

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

8643 点击 2025-12-21 12:35

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

VLA模型性能暴涨300%，背后训练数据还首次实现90%由世界模型生成。

来自主题: AI技术研报

9974 点击 2025-12-02 17:02

【首发】医疗大模型企业全诊医学获1亿元B轮融资，创投行业期待中国的Abridge

中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司（以下简称“全诊医学”）正式宣布完成1亿元B轮融资：2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资；2025年2季度由中国医药工业百强“好医生集团”完成B轮投资，探针资本担任本轮融资的独家财务顾问。

来自主题: AI资讯

7816 点击 2025-11-13 16:46

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报

9390 点击 2025-11-13 14:52

从ChatGPT核心成员成立的这家初创，我们看到了一种更完整的AI for Science形态

今年三月，Liam Fedus 在推特上宣布离开 OpenAI。这条推文的影响力超出了所有人的预期——硅谷的风投们几乎是立刻行动起来，争相联系这位 ChatGPT 最初小团队的核心成员、曾领导 OpenAI 关键的后训练部门的研究者，他的离职甚至一度引发了一场“反向竞标”。

来自主题: AI资讯

10947 点击 2025-10-29 16:57

喝点VC｜YC对谈Anthropic预训练负责人：预训练团队也要考虑推理问题，如何平衡预训练和后训练仍在早期探索阶段

预训练的核心是推动损失函数下降，这是我们一直追求的唯一目标。

来自主题: AI资讯

9612 点击 2025-10-28 09:49

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

近日，来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报

10293 点击 2025-10-28 09:40