
用LaTRO框架,通过自我奖励机制来激发LLM潜在推理能力,基准上提升12.5% |Salesforce重磅
用LaTRO框架,通过自我奖励机制来激发LLM潜在推理能力,基准上提升12.5% |Salesforce重磅大规模语言模型(LLMs)已经在自然语言处理任务中展现了卓越的能力,但它们在复杂推理任务上依旧面临挑战。推理任务通常需要模型具有跨越多个步骤的推理能力,这超出了LLMs在传统训练阶段的表现。
来自主题: AI资讯
6454 点击 2024-11-15 10:34
大规模语言模型(LLMs)已经在自然语言处理任务中展现了卓越的能力,但它们在复杂推理任务上依旧面临挑战。推理任务通常需要模型具有跨越多个步骤的推理能力,这超出了LLMs在传统训练阶段的表现。