AI资讯新闻榜单内容搜索-CoT

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

8808 点击 2025-06-20 10:53

在生成式 AI 迅猛演进的时代浪潮中，Cognition AI 正成为硅谷最受瞩目的技术公司之一。而其背后，是一位横跨数学竞赛、工程实践与系统构建的 90 后创始人——Scott Wu。

来自主题: AI资讯

7538 点击 2025-06-18 15:43

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

9781 点击 2025-06-17 10:21

图神经网络还能更聪明？思维链提示学习来了！

来自主题: AI技术研报

7485 点击 2025-06-08 15:17

随着大型语言模型（LLM）技术的不断发展，Chain-of-Thought（CoT）等推理增强方法被提出，以期提升模型在数学题解、逻辑问答等复杂任务中的表现，并通过引导模型逐步思考，有效提高了模型准确率。

来自主题: AI技术研报

6989 点击 2025-06-05 16:14

过度依赖CoT思维链推理会降低模型性能，有新解了！来自字节、复旦大学的研究人员提出自适应推理框架CAR，能根据模型困惑度动态选择短回答或详细的长文本推理，最终实现了准确性与效率的最佳平衡。

来自主题: AI技术研报

6763 点击 2025-05-28 16:36

DeepSeek-R1火了，推理模型火了，思维链（Chain-of-Thought，CoT）火了！

来自主题: AI技术研报

8735 点击 2025-05-21 15:28

《Why We Think》。这就是北大校友、前OpenAI华人VP翁荔所发布的最新万字长文—— 围绕“测试时计算”（Test-time Compute）和“思维链”（Chain-of-Thought，CoT），讨论了如何通过这些技术显著提升模型性能。

来自主题: AI资讯

8782 点击 2025-05-19 13:15

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报

10368 点击 2025-05-14 11:01

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

来自主题: AI技术研报

7060 点击 2025-05-12 15:27