AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: R1
蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

不卷参数的专业模型,会不会被通用大模型取代? 在医疗领域,这个疑问正在被打破。

来自主题: AI资讯
7398 点击    2025-08-29 15:56
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
8951 点击    2025-08-28 12:20
刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

来自主题: AI资讯
7292 点击    2025-08-23 13:17
DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

DeepSeek-V3.1官宣了,作为首款「混合推理」模型,将开启智能体新时代。新模型共有671B参数,编码实力碾压DeepSeek-R1、Claude 4 Opus,登顶编程开源第一。

来自主题: AI资讯
8685 点击    2025-08-22 11:52
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯
7732 点击    2025-08-18 19:05
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。

来自主题: AI技术研报
7474 点击    2025-08-16 16:45
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。

来自主题: AI技术研报
6864 点击    2025-08-15 11:26
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报
8352 点击    2025-08-13 16:29
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。

来自主题: AI技术研报
7566 点击    2025-08-10 15:00