AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: R1
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。

来自主题: AI技术研报
5695 点击    2025-04-19 15:29
142页重磅,DeepSeek-R1的"甜蜜点",开创了一个崭新的研究领域“思维学”。 | 最新

142页重磅,DeepSeek-R1的"甜蜜点",开创了一个崭新的研究领域“思维学”。 | 最新

142页重磅,DeepSeek-R1的"甜蜜点",开创了一个崭新的研究领域“思维学”。 | 最新

这是一份142页的研究论文,本文深入解析了大型推理模型DeepSeek-R1如何通过"思考"解决问题。研究揭示了模型思维的结构化过程,以及每个问题都存在甜蜜点"最佳推理区间"的惊人发现。这标志着"思维学"这一新兴领域的诞生,为我们理解和优化AI推理能力提供了宝贵框架。

来自主题: AI技术研报
6836 点击    2025-04-17 14:26
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。

来自主题: AI技术研报
7819 点击    2025-04-16 14:42
最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

最强32B中文推理大模型易主:Skywork-OR1 开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

千亿参数内最强推理大模型,刚刚易主了。32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——

来自主题: AI资讯
8791 点击    2025-04-13 23:34
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

来自主题: AI技术研报
9013 点击    2025-04-08 14:18
用思维干预直接干预LRM内部推理,三种方式实现DeepSeek-R1有效控制。 | 最新

用思维干预直接干预LRM内部推理,三种方式实现DeepSeek-R1有效控制。 | 最新

用思维干预直接干预LRM内部推理,三种方式实现DeepSeek-R1有效控制。 | 最新

推理增强型大语言模型LRM(如OpenAI的o1、DeepSeek R1和Google的Flash Thinking)通过在生成最终答案前显式生成中间推理步骤,在复杂问题解决方面展现了卓越性能。然而,对这类模型的控制仍主要依赖于传统的输入级操作,如提示工程(Prompt Engineering)等方法,而你可能已经发现这些方法存在局限性。

来自主题: AI技术研报
1651 点击    2025-04-08 08:50
在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

众所周知,DeepSeek R1 这种模型在推理任务上很能打,尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗?

来自主题: AI技术研报
5625 点击    2025-04-02 14:40
上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得

来自主题: AI技术研报
6598 点击    2025-03-27 09:41