AI资讯新闻榜单内容搜索-o3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: o3
奥特曼官宣:免费GPT-5性能惊人,o3和o4-mini抢先上线!Llama 4也鸽了

奥特曼官宣:免费GPT-5性能惊人,o3和o4-mini抢先上线!Llama 4也鸽了

奥特曼官宣:免费GPT-5性能惊人,o3和o4-mini抢先上线!Llama 4也鸽了

刚刚,奥特曼接连抛出重磅消息:GPT-5不仅将免费开放,还将整合多项尖端技术。o3和o4-mini即将在几周内亮相,还有一个神秘的开源推理模型要来。然而,另一边Meta的Llama 4却因性能瓶颈屡次延期,AI竞赛的格局愈发扑朔迷离。

来自主题: AI资讯
7865 点击    2025-04-05 15:13
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏之风!例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。

来自主题: AI技术研报
7605 点击    2025-03-29 10:19
陶哲轩亲测点赞,o3-mini秒证图论难题!专家级证明完整呈现

陶哲轩亲测点赞,o3-mini秒证图论难题!专家级证明完整呈现

陶哲轩亲测点赞,o3-mini秒证图论难题!专家级证明完整呈现

o3-mini成功挑战图论中专家级证明,还得到了陶哲轩盛赞。经过实测后,他总结称LLM并非是数学研究万能解法,其价值取决于问题得性质和调教AI的方式。

来自主题: AI技术研报
5837 点击    2025-03-11 17:55
GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

当模型复杂度增加到一定程度后,模型开始对训练数据中的噪声和异常值进行拟合,而不是仅仅学习数据中的真实模式。这导致模型在训练数据上表现得非常好,但在新的数据上表现不佳,因为新的数据中噪声和异常值的分布与训练数据不同。

来自主题: AI技术研报
7780 点击    2025-03-06 23:31
官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

来自主题: AI技术研报
8933 点击    2025-02-25 14:59
超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

来自主题: AI技术研报
5849 点击    2025-02-17 17:47
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?

来自主题: AI资讯
7870 点击    2025-02-10 11:21