AI资讯新闻榜单内容搜索-R1

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBench更考验综合能力，不再是只执行单一任务。

来自主题: AI资讯

10677 点击 2025-04-03 10:37

国产服务器迎来深圳芯！纯血RISC-V跑满血DeepSeek-R1，一芯双核干爆x86

国产全自研高性能RISC-V服务器芯片“灵羽”，刚刚在深圳亮相。

来自主题: AI资讯

7594 点击 2025-04-02 15:04

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

众所周知，DeepSeek R1 这种模型在推理任务上很能打，尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗？

来自主题: AI技术研报

8313 点击 2025-04-02 14:40

DeepSeek-V3击败R1开源登顶！杭州黑马撼动硅谷AI霸主，抹去1万亿市值神话

DeepSeek又卷起来了！上周刚出的DeepSeek-V3-0324在大模型竞技场排名中，打败了自己的DeepSeek-R1，成为开源AI至尊。

来自主题: AI资讯

9440 点击 2025-04-01 16:31

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

7959 点击 2025-04-01 16:16

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

11852 点击 2025-03-31 15:07

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏之风！例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放，ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。

来自主题: AI技术研报

10594 点击 2025-03-29 10:19

与真格戴雨森聊 Agent：各行业都会遭遇 “李世石时刻”，Attention is not all you need

晚点：过去将近 6 个月，AI 领域最重要的两件事，一是 OpenAI 去年 9 月 o1 发布，另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义？

来自主题: AI资讯

10375 点击 2025-03-29 00:33

OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击

「思维链劫持」（H-CoT）的攻击方法，成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明，这些模型的安全审查过程透明化反而暴露了弱点，攻击者可以利用其内部推理过程绕过安全防线，使模型拒绝率从98%骤降2%。

来自主题: AI技术研报

8295 点击 2025-03-28 16:09

上财开源首个金融领域R1类推理大模型，7B模型媲美DeepSeek-R1 671B满血版性能

近日，上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组（SUFE-AIFLM-Lab）联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型：Fin-R1，以仅 7B 的轻量化参数规模展现出卓越性能，全面超越参评的同规模模型并以 75 的平均得

来自主题: AI技术研报

9117 点击 2025-03-27 09:41