AI资讯新闻榜单内容搜索-后训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 后训练
【首发】医疗大模型企业全诊医学获1亿元B轮融资,创投行业期待中国的Abridge

【首发】医疗大模型企业全诊医学获1亿元B轮融资,创投行业期待中国的Abridge

【首发】医疗大模型企业全诊医学获1亿元B轮融资,创投行业期待中国的Abridge

中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司(以下简称“全诊医学”)正式宣布完成1亿元B轮融资:2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资;2025年2季度由中国医药工业百强“好医生集团”完成B轮投资,探针资本担任本轮融资的独家财务顾问。

来自主题: AI资讯
6336 点击    2025-11-13 16:46
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报
7859 点击    2025-11-13 14:52
从ChatGPT核心成员成立的这家初创,我们看到了一种更完整的AI for Science形态

从ChatGPT核心成员成立的这家初创,我们看到了一种更完整的AI for Science形态

从ChatGPT核心成员成立的这家初创,我们看到了一种更完整的AI for Science形态

今年三月,Liam Fedus 在推特上宣布离开 OpenAI。这条推文的影响力超出了所有人的预期——硅谷的风投们几乎是立刻行动起来,争相联系这位 ChatGPT 最初小团队的核心成员、曾领导 OpenAI 关键的后训练部门的研究者,他的离职甚至一度引发了一场“反向竞标”。

来自主题: AI资讯
9732 点击    2025-10-29 16:57
推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

近日,来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报
8907 点击    2025-10-28 09:40
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

来自主题: AI技术研报
6855 点击    2025-10-25 14:32