AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型测试
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

来自主题: AI产品测评
7719 点击    2025-04-01 14:25
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

来自主题: AI技术研报
6821 点击    2025-03-25 17:53
OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1,在IQ测试中拿到了第一名!大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。

来自主题: AI资讯
4216 点击    2024-09-14 16:02
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。

来自主题: AI资讯
4188 点击    2024-08-02 15:29
大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

来自主题: AI资讯
9568 点击    2024-07-16 20:05
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。

来自主题: AI资讯
8262 点击    2024-07-01 12:21