刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。
来自主题: AI技术研报
6042 点击 2024-03-15 15:38
StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。
本文对思维链的推理步长进行了控制变量实验,发现推理步长和答案的准确性是线性相关的,这种影响机制甚至超越了问题本身所产生的差异。
谷歌DeepMind全新提示技术「Step-Back Prompting」,让LLM性能拉满!
如何以计算方式,思考人工智能、宇宙和一切? 近日,著名的英国科学家Stephen Wolfram在TED 18分钟的演讲中,分享了自己对这个问题的看法。
大型语言模型能力惊人,但在部署过程中往往由于规模而消耗巨大的成本。华盛顿大学联合谷歌云计算人工智能研究院、谷歌研究院针对该问题进行了进一步解决,提出了逐步微调(Distilling Step-by-Step)的方法帮助模型训练。
谷歌DeepMind团队最新发现,用这个新“咒语”(Take a deep breath)结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。