AI资讯新闻榜单内容搜索-数学推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 数学推理
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

来自主题: AI资讯
7084 点击    2024-07-18 16:57
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论

来自主题: AI技术研报
9583 点击    2024-06-24 15:49
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

近年来,大型语言模型(LLM)在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程,因此是 LLMs 推理能力进步的关键里程碑, 但仍然面临着重要的挑战。

来自主题: AI技术研报
5913 点击    2024-05-04 20:04
微软提出变色龙框架,让模型自带工具箱开挂,数学推理任务准确率98%|NeurIPS 2023

微软提出变色龙框架,让模型自带工具箱开挂,数学推理任务准确率98%|NeurIPS 2023

微软提出变色龙框架,让模型自带工具箱开挂,数学推理任务准确率98%|NeurIPS 2023

教大模型调用工具,已经是AI圈关注度最高的话题之一了。这不,又有一项研究登上最新NeurIPS 2023——它是一个叫做Chameleon(变色龙)的框架,号称能将大语言模型直接变成魔法师的工具箱,来自微软与加州大学洛杉矶分校(UCLA)。

来自主题: AI资讯
5809 点击    2023-12-13 16:30
112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

大型多模态模型会做数学题吗?在UCLA等机构最新发布的MathVista基准上,即使是当前最强的GPT-4V也会感到「挫败感」。

来自主题: AI资讯
8981 点击    2023-12-05 17:15