AI资讯新闻榜单内容搜索-o1

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

8497 点击 2025-04-28 14:09

4月25日，昆仑万维发布最新财报，2024年营收56.62亿元，同比增长15.2%，净利润亏损15.95亿元，同比下跌226.8%。这也是上市十年，昆仑万维首度亏损的一年。

来自主题: AI资讯

9803 点击 2025-04-28 09:55

OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮，但这些推理模型大多关注数学、代码等专业领域。

来自主题: AI技术研报

8063 点击 2025-04-26 15:31

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明，大规模强化学习已成为一种极为有效的方法，能够激发大型语言模型（LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报

8980 点击 2025-04-23 14:04

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

7728 点击 2025-04-22 08:39

就在昨天，深耕语音、认知智能几十年的科大讯飞，发布了全新升级的讯飞星火推理模型 X1。不仅效果上比肩 DeepSeek-R1，而且我注意到一条官方发布的信息——基于全国产算力训练，在模型参数量比业界同类模型小一个数量级的情况下，整体效果能对标 OpenAI o1 和 DeepSeek R1。

来自主题: AI资讯

10991 点击 2025-04-22 08:29

OpenAI新模型发布后，大家体感都幻觉更多了。甚至有人测试后发出预警：使用它辅助编程会很危险。当大家带着疑问仔细阅读System Card，发现OpenAI官方也承认了这个问题，与o1相比o3幻觉率是两倍，o4-mini更是达到3倍。

来自主题: AI资讯

10140 点击 2025-04-21 13:42

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

9087 点击 2025-04-21 09:41

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时，加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹：别再卷 token 了，无需显式思维链，推理模型也能实现高效且准确的推理。

来自主题: AI技术研报

9259 点击 2025-04-19 14:39

公考行测中的逻辑推理题，是不少考生的噩梦，这次，CMU团队就此为基础，打造了一套逻辑谜题挑战。实测后发现，o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败！最强的AI正确率也只有57.5%，而人类TOP选手却能接近满分。

来自主题: AI技术研报

10150 点击 2025-04-18 15:20