AI资讯新闻榜单内容搜索-GSM8k

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GSM8k
刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

快速更迭的开源大模型领域,又出现了新王:Reflection 70B。 横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。 这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。

来自主题: AI资讯
6406 点击    2024-09-06 16:36
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

来自主题: AI资讯
7091 点击    2024-07-18 16:57
大模型靠“深呼吸”数学成绩再涨8分!AI自己设计提示词效果胜人类

大模型靠“深呼吸”数学成绩再涨8分!AI自己设计提示词效果胜人类

大模型靠“深呼吸”数学成绩再涨8分!AI自己设计提示词效果胜人类

谷歌DeepMind团队最新发现,用这个新“咒语”(Take a deep breath)结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。

来自主题: AI技术研报
3863 点击    2023-09-09 15:52