苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到 苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到 关键词: 模型训练,人工智能,AI,幻觉,RL4HS 论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷懒、只输出无错误预测。 来自主题: AI资讯 7597 点击 2025-10-07 22:11