AI资讯新闻榜单内容搜索-o1

阿里千问QwQ-32B推理模型开源，比肩671B满血DeepSeek-R1！笔记本就能跑

仅用32B，就击败o1-mini追平671B满血版DeepSeek-R1！阿里深夜重磅发布的QwQ-32B，再次让全球开发者陷入狂欢：消费级显卡就能跑，还一下子干到推理模型天花板！

来自主题: AI技术研报

6570 点击 2025-03-07 10:28

离谱！OpenAI被曝博士级AI智能体2万美元/月，网友：DeepSeek快把价格打下去

刚刚，OpenAI被爆三类智能体定价！价格从每月2k美元到20k美元不等，用于自动化编码和博士级别的研究等任务。此前，美国国家实验室使用OpenAI的o1模型来解决了与核聚变相关的问题。

来自主题: AI资讯

9658 点击 2025-03-06 12:17

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

5166 点击 2025-03-05 13:39

讯飞星火X1单挑满血版DeepSeek-R1，全国产算力单机部署！中国AI再下一城

就在昨天，全国产算力训出的讯飞星火X1全面升级！70B小身板在数学领域全面领先，性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降，彻底颠覆行业应用门槛。

来自主题: AI资讯

8742 点击 2025-03-04 16:26

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

7252 点击 2025-03-04 14:28