AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: R1
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。

来自主题: AI资讯
7930 点击    2025-07-18 17:37
DeepSeek使用率断崖式下跌?

DeepSeek使用率断崖式下跌?

DeepSeek使用率断崖式下跌?

半年前,DeepSeek R1 的推出轰动了全球,无论东西方都是火的一塌糊涂,更是被外网称为 AI 领域的 Sputnik 时刻。

来自主题: AI资讯
9482 点击    2025-07-18 14:12
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

来自主题: AI技术研报
8350 点击    2025-07-17 11:24
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。

来自主题: AI技术研报
9483 点击    2025-07-10 11:21
昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。

来自主题: AI资讯
10718 点击    2025-07-09 21:42
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报
7473 点击    2025-07-09 10:35
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。

来自主题: AI技术研报
7611 点击    2025-07-08 11:05
OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

三个前沿AI能融合成AGI吗?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型,在推理过程中动态协作,通过试错优化生成过程,有效融合群体AI智慧。

来自主题: AI技术研报
8701 点击    2025-07-06 13:06
Jack Clark: 美国 AI 政策的隐形推手,时代的良心还是囚徒?

Jack Clark: 美国 AI 政策的隐形推手,时代的良心还是囚徒?

Jack Clark: 美国 AI 政策的隐形推手,时代的良心还是囚徒?

Jack Clark 是最关注和熟悉中国在芯片、计算和模型上进展的 AI Lab 领导人之一。他毫不吝啬对中国 AI 进展的认可,将 DeepSeek R1 视作“推理模型大范围扩散”的起点,近期又把 HyperHetero 使用的异构集群叫做通过“超级智能进行持续自我训练”的垫脚石。

来自主题: AI资讯
7664 点击    2025-07-05 19:50
新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

新天终启,万象智生——万年奇点时刻,谁将引爆中国ASI?

2025年,AI界风云激荡,DeepSeek-R1横空出世、英伟达市值称霸全球、谷歌AlphaEvolve打破数学神话,中国Qwen3登顶开源王座……智能爆炸的奇点已悄然降临!新智元十周年之际,2025 AI Era & ASI创新大奖报名正式启动,致敬重塑世界的AI先锋!

来自主题: AI资讯
7536 点击    2025-07-05 13:20