AI资讯新闻榜单内容搜索-后训练

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

VLA模型性能暴涨300%，背后训练数据还首次实现90%由世界模型生成。

来自主题: AI技术研报

8293 点击 2025-12-02 17:02

【首发】医疗大模型企业全诊医学获1亿元B轮融资，创投行业期待中国的Abridge

中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司（以下简称“全诊医学”）正式宣布完成1亿元B轮融资：2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资；2025年2季度由中国医药工业百强“好医生集团”完成B轮投资，探针资本担任本轮融资的独家财务顾问。

来自主题: AI资讯

6336 点击 2025-11-13 16:46

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报

7859 点击 2025-11-13 14:52

从ChatGPT核心成员成立的这家初创，我们看到了一种更完整的AI for Science形态

今年三月，Liam Fedus 在推特上宣布离开 OpenAI。这条推文的影响力超出了所有人的预期——硅谷的风投们几乎是立刻行动起来，争相联系这位 ChatGPT 最初小团队的核心成员、曾领导 OpenAI 关键的后训练部门的研究者，他的离职甚至一度引发了一场“反向竞标”。

来自主题: AI资讯

9732 点击 2025-10-29 16:57

喝点VC｜YC对谈Anthropic预训练负责人：预训练团队也要考虑推理问题，如何平衡预训练和后训练仍在早期探索阶段

预训练的核心是推动损失函数下降，这是我们一直追求的唯一目标。

来自主题: AI资讯

8634 点击 2025-10-28 09:49

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

近日，来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报

8907 点击 2025-10-28 09:40