AI资讯新闻榜单内容搜索-DeepSeek-R

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

8582 点击 2025-07-17 11:24

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

“人类最后的考试”首次突破30分，还是咱国内团队干的！该测试集是出了名的超难，刚推出时无模型得分能超过10分。

来自主题: AI技术研报

9653 点击 2025-07-10 11:21

OAI/谷歌/DeepSeek首次合体「AI梦之队」！战力飙升30%，碾压一切单模型

三个前沿AI能融合成AGI吗？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型，在推理过程中动态协作，通过试错优化生成过程，有效融合群体AI智慧。

来自主题: AI技术研报

8908 点击 2025-07-06 13:06

新天终启，万象智生——万年奇点时刻，谁将引爆中国ASI？

2025年，AI界风云激荡，DeepSeek-R1横空出世、英伟达市值称霸全球、谷歌AlphaEvolve打破数学神话，中国Qwen3登顶开源王座……智能爆炸的奇点已悄然降临！新智元十周年之际，2025 AI Era & ASI创新大奖报名正式启动，致敬重塑世界的AI先锋！

来自主题: AI资讯

7698 点击 2025-07-05 13:20

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

DeepSeek-R2，终于要来了？大模型竞技场秘密上线了一个叫steve的神秘模型，在对话中透露自己来自DeepSeek。不过，网友们并不满足于知道steve的厂商，开始讨论起了steve的具体身份。

来自主题: AI资讯

8558 点击 2025-07-04 13:14

DeepSeek-R2为什么还没发？

全网翘首以盼的DeepSeek-R2，再次被曝推迟！据The Information报道，由于DeepSeek CEO梁文锋始终对R2的表现不满意，因此R2迟迟未能发布。此外，他们还援引两位国内知情人士的消息称，R2研发进程缓慢可能是由于缺少英伟达H20芯片。

来自主题: AI资讯

9826 点击 2025-06-27 16:46

连不上Gemini CLI，试下DeepSeek-R1接入Claude code

这两天Google推出了Gemini-CLI这个编程工具，功能和Claude Code基本一致，结果根本排不上队，登录一下很快闪退，和下图一样，使用感受令人不愉悦。很多人都在等着体验这个新工具，但现实是您可能要等很久才能轮到。

来自主题: AI技术研报

9679 点击 2025-06-27 11:00

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

Thinking模式当道，教师模型也该学会“启发式”教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI，带着他们的新方法来了！

来自主题: AI技术研报

10058 点击 2025-06-25 10:55

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

7835 点击 2025-06-22 16:32

坏了！R1的秘密被Deepmind发现了！「啊哈时刻」首次被披露，现已可量化！

自年初起，DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世，展现出令人惊叹的智能水平，但它们为什么突然变得这么聪明？东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯

7148 点击 2025-06-21 13:01