AI资讯新闻榜单内容搜索-o1

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

8259 点击 2025-03-04 14:28

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

斯坦福和普林斯顿研究者发现，DeepSeek-R1生成的自定义CUDA内核，完爆了o1和Claude 3.5 Sonnet，拿下总排名第一。虽然目前只能在不到20%任务上超越PyTorch Eager基线，但GPU编程加速自动化的按钮，已经被按下！

来自主题: AI技术研报

12082 点击 2025-02-27 16:17

阿里旗舰推理模型硬刚DeepSeek！官宣独立APP，发布公告AI亲自写

阿里通义Qwen团队熬夜通宵，推理模型Max旗舰版来了！QwQ-Max-Preview预览版，已在LiveCodeBench编程测试中排名第5，小超o1中档推理和DeepSeek-R1-Preview预览版。

来自主题: AI资讯

10053 点击 2025-02-25 11:52

从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

自 OpenAI 发布 o1-mini 模型以来，推理模型就一直是 AI 社区的热门话题，而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。

来自主题: AI技术研报

10026 点击 2025-02-24 14:40

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！

来自主题: AI技术研报

9162 点击 2025-02-23 16:23

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？

来自主题: AI技术研报

10324 点击 2025-02-22 21:27

如何完美解锁DeepSeek-R1的结构化输出能力（基于LangChain）？

DeepSeek-R1这样的推理模型有着强大的深度思考能力，但也有着一些不同于通用模型的特点与用法，比如不支持函数调用，不支持结构化输出，o1甚至不支持系统提示(System Prompt)等。尽管这和它们的使用场景有关，但有时也会带来不便。今天我们就来说说结构化输出这个常见的问题。

来自主题: AI技术研报

11510 点击 2025-02-21 15:03

地表最强Grok3突袭免费体验，网友实测对比DeepSeek，发现中文彩蛋

又是一个文理兼修的优等生，能薅一点是一点。堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型（o1-pro，200 美元/月）的顶尖水平相差无几，

来自主题: AI资讯

8882 点击 2025-02-20 16:16

OpenAI掀「百万美金」编程大战！Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI刚刚发布SWE-Lancer编码基准测试，直接让AI模型挑战真实外包任务！这些任务总价值高达100万美元。有趣的是，测试结果显示，Anthropic的Claude 3.5 Sonnet在「赚钱」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

来自主题: AI技术研报

9793 点击 2025-02-19 15:19

DeepSeek引发鲶鱼效应，中国算力市场呈现“四变”

这个AI领域千亿级市场，将辐射千家万户。 DeepSeek-R1横空出世，打响了大模型比拼性价比的第一枪。 Meta、OpenAI等国外头部大模型厂商纷纷复刻或变相降价。比DeepSeek-R1晚两周发布的OpenAI o3-mini模型，定价比前代模型o1-mini降低了超6成，比前代完整版的o1模型便宜超9成。

来自主题: AI资讯

10721 点击 2025-02-19 09:38