AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型测试
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

来自主题: AI产品测评
8318 点击    2025-04-01 14:25
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

来自主题: AI技术研报
6983 点击    2025-03-25 17:53
苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

先是三星宣布智谱的Agentic GLM成为其新手机Galaxy S25的AI能力来源,紧接着The Information爆料,在经历了近一年的模型测试与合作伙伴探索后,苹果终于敲定了中国市场的合作伙伴:阿里巴巴。这意味着,中国iPhone用户很可能在今年迎来一个由国产大模型驱动的iPhone。

来自主题: AI资讯
8298 点击    2025-02-12 10:57
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来,外面是一片崭新的雪地,完全没有人迹。」或许,FrontierMath测试成功率突破的那一天,会是AI发展过程中一个全新的里程碑。

来自主题: AI技术研报
3871 点击    2024-11-11 15:10
OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1,在IQ测试中拿到了第一名!大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。

来自主题: AI资讯
4343 点击    2024-09-14 16:02
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。

来自主题: AI资讯
4319 点击    2024-08-02 15:29