AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: R1
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法,即采用可验证奖励强化学习(RLVR)逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报
5285 点击    2025-07-28 10:36
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。

来自主题: AI技术研报
9778 点击    2025-07-21 12:25
「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!

来自主题: AI资讯
7762 点击    2025-07-20 23:43
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。

来自主题: AI资讯
6137 点击    2025-07-18 17:37
DeepSeek使用率断崖式下跌?

DeepSeek使用率断崖式下跌?

DeepSeek使用率断崖式下跌?

半年前,DeepSeek R1 的推出轰动了全球,无论东西方都是火的一塌糊涂,更是被外网称为 AI 领域的 Sputnik 时刻。

来自主题: AI资讯
8114 点击    2025-07-18 14:12
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

来自主题: AI技术研报
6769 点击    2025-07-17 11:24
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

“人类最后的考试”首次突破30分,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。

来自主题: AI技术研报
8218 点击    2025-07-10 11:21
昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

昆仑万维开源最强多模态推理模型!性能逼近人类专家,还超了OpenAI、Anthropic

今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。

来自主题: AI资讯
8951 点击    2025-07-09 21:42
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报
6026 点击    2025-07-09 10:35
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。

来自主题: AI技术研报
6081 点击    2025-07-08 11:05