AI资讯新闻榜单内容搜索-推理模型

复旦北大联合美团LongCat提出TDAR：用“粗思考，细求证”破解Block Diffusion的速度精度悖论

近期，复旦大学 NLP 实验室（FDU NLP）、北京大学知识计算实验室（KCL）联合美团 LongCat Team 提出了一种 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR，通过引入 “粗思考，细求证” (Think Coarse Critic Fine, TCCF) 范式与有界自适应置信度解码

来自主题: AI技术研报

7173 点击 2026-03-14 08:39

OpenAI测谎13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

OpenAI的最新研究揭示了一个反直觉的真相：越强大的推理模型，越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中，DeepSeek R1控制自身思维链的成功率仅为0.1%，Claude Sonnet 4.5也只有2.7%。

来自主题: AI资讯

8949 点击 2026-03-09 15:08

憋了4个月，阿里最大最强模型Qwen3-Max-Thinking正式版发布！附一手实测

阿里巴巴推出了Qwen3-Max-Thinking，这是阿里千问系列目前能力最强的旗舰级推理模型，在19项权威基准测试中，Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型打得有来有回，搭配测试时扩展（TTS）能力后，能在不少基准测试上达到SOTA。

来自主题: AI资讯

10029 点击 2026-01-27 11:21

DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

过去两年，大模型的推理能力出现了一次明显的跃迁。在数学、逻辑、多步规划等复杂任务上，推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B，开始稳定拉开与传统指令微调模型的差距。直观来看，它们似乎只是思考得更久了：更长的 Chain-of-Thought、更高的 test-time compute，成为最常被引用的解释。

来自主题: AI技术研报

6529 点击 2026-01-26 15:02

三星爆火递归模型TRM唯一作者被迫离职，内部不认可？

还记得三个月前，来自三星的一位研究员的独作论文发布即爆火，颠覆了递归推理模型架构，让一个仅包含 700 万个参数的网络，性能比肩甚至超越 o3-mini 和 Gemini 2.5 Pro 等尖端语言模型，震惊了大量业内研究人士。

来自主题: AI资讯

8267 点击 2026-01-25 12:01

非Transformer架构的新突破，Liquid AI开源LFM2.5-1.2B-Thinking模型

就在刚刚，Liquid AI 又一次在 LFM 模型上放大招。他们正式发布并开源了 LFM2.5-1.2B-Thinking，一款可完全在端侧运行的推理模型。Liquid AI 声称，该模型专门为简洁推理而训练；在生成最终答案前，会先生成内部思考轨迹；在端侧级别的低延迟条件下，实现系统化的问题求解；在工具使用、数学推理和指令遵循方面表现尤为出色。

来自主题: AI资讯

11266 点击 2026-01-22 11:59

美团又上新模型，8个Thinker齐开工，能顶个诸葛亮？

美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601。这是一款强大高效的大规模推理模型，拥有 5600 亿个参数，基于创新的 MoE 架构构建。该模型引入了强大的重思考模式（Heavy Thinking Mode），能够同时启动 8 路思考并最终总结出一个更全面、更可靠的结论。目前重思考模式已在 LongCat AI 平台正式上线，人人均可体验。

来自主题: AI资讯

9643 点击 2026-01-16 14:35