AI资讯新闻榜单内容搜索-GSM8k

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

6275 点击 2025-04-01 16:16

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

来自主题: AI资讯

6923 点击 2024-09-06 16:36

10行代码让大模型数学提升20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

只要不到10行代码，就能让大模型数学能力（GSM8k）提升20%！

来自主题: AI技术研报

9686 点击 2024-08-24 16:27

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

大型语言模型（LLMs）在解决问题方面的非凡能力日益显现。最近，一个值得关注的现象是，这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例，在高难度小学应用题测试集 GSM8K [1] 中表现优异，准确率高达 90% 以上。同时，许多开源模型也展现出了不俗的实力，准确率超过 80%。

来自主题: AI资讯

7481 点击 2024-07-18 16:57

大模型靠“深呼吸”数学成绩再涨8分！AI自己设计提示词效果胜人类

谷歌DeepMind团队最新发现，用这个新“咒语”（Take a deep breath）结合大家已经熟悉的“一步一步地想”（Let’s think step by step），大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。

来自主题: AI技术研报

4208 点击 2023-09-09 15:52