AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型测试
苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

苹果选阿里,三星选智谱,“AI手机”究竟成不成,就指望最卷的中国市场了

先是三星宣布智谱的Agentic GLM成为其新手机Galaxy S25的AI能力来源,紧接着The Information爆料,在经历了近一年的模型测试与合作伙伴探索后,苹果终于敲定了中国市场的合作伙伴:阿里巴巴。这意味着,中国iPhone用户很可能在今年迎来一个由国产大模型驱动的iPhone。

来自主题: AI资讯
10163 点击    2025-02-12 10:57
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来,外面是一片崭新的雪地,完全没有人迹。」或许,FrontierMath测试成功率突破的那一天,会是AI发展过程中一个全新的里程碑。

来自主题: AI技术研报
5576 点击    2024-11-11 15:10
OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首

OpenAI o1,在IQ测试中拿到了第一名!大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。

来自主题: AI资讯
5952 点击    2024-09-14 16:02
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。

来自主题: AI资讯
5585 点击    2024-08-02 15:29
大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

来自主题: AI资讯
10803 点击    2024-07-16 20:05
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。

来自主题: AI资讯
9540 点击    2024-07-01 12:21