这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数 关键词: openai,Q*,Q函数,chatGPT,AGI 在对齐大型语言模型(LLM)与人类意图方面,最常用的方法必然是根据人类反馈的强化学习(RLHF) 来自主题: AI资讯 3405 点击 2024-04-24 10:59