英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。
大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。
该论文提出 FractalForensics,一种基于分形水印的主动深度伪造检测与定位方法。不同于以往的水印向量,为达成伪造定位的功能,论文提出的水印以矩阵形式出现。
早上工作的时候发现,Trae的模型列表中已经找不到Claude模型了。与此同时,行业群内、包括官方答疑群内也有不少朋友反应,自己的Trae都用不上claude。细心的朋友发现,虽然Claude模型消失了但付费用户的订阅里显示每月增加了300次的快速请求。猜测此举是对claude模型下架的一种补偿。
11 月 2 日,英伟达首次把 H100 GPU 送入了太空。作为目前 AI 领域的主力训练芯片,H100 配备 80GB 内存,其性能是此前任何一台进入太空的计算机的上百倍。在轨道上,它将测试一系列人工智能处理应用,包括分析地球观测图像和运行谷歌的大语言模型(LLM)。
昨天一大早,就发现美团开源了他们首款全模态实时交互大模型:LongCat-Flash-Omni。
是孩子该看的东西。
当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。
Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。
Qwen 团队终于在周日的晚上, 兑现了本周会更新Qwen3-Max thinking 的承诺。 而这个更新, 基本也是上周所有更新中为数不多非常期待的了。 毕竟Qwen3-Max也是Qwen整个家族里最大、最强的模型,
当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链: