AI资讯新闻榜单内容搜索-Token

继2025推理模型之后，2026「递归模型」RLM要火了。

2025年的最后一天， MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口（Context Window），试图将窗口拉长到100万甚至1000万token时，这篇论文却冷静地指出了一个被忽视的真相：这就好比试图通过背诵整本百科全书来回答一个复杂问题，既昂贵又低效。

来自主题: AI技术研报

5711 点击 2026-01-04 11:43

4个月烧掉30亿Token，这位「菜鸟」程序员做出50多个产品，360万人围观

随着大模型的发展，编程不再是一场苦修，而是一场大型即时策略游戏。在这个游戏里，很多人学会了与 AI 并肩作战，学会了用一种更纯粹、更直抵本质的方式去构建自己想要的世界。

来自主题: AI资讯

8741 点击 2026-01-03 14:04

比 JSON 省一半钱的格式，为什么大厂不敢用？

最近在研究 RAG 系统优化的时候，发现了一个有意思的格式叫 TOON。全称是 Token-Oriented Object Notation，翻译过来就是面向 Token 的对象表示法。

来自主题: AI技术研报

8523 点击 2026-01-03 14:02

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」

近日，来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG，首次跳出「从模型自己内部信号来评估不确定性」的思维定式，转而用预训练语料的客观统计来量化不确定性，

来自主题: AI技术研报

8123 点击 2026-01-01 10:13

7B扩散语言模型单样例1000+ tokens/s！上交大联合华为推出LoPA

，时长 00:20 视频 1：单样例推理速度对比：SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)（注：NVIDIA 平台

来自主题: AI技术研报

7747 点击 2026-01-01 10:09

自回归因果注意力也能并行解码？上交联合UCSD突破LLM推理瓶颈，模型代码全开源

在大语言模型（LLM）落地应用中，推理速度始终是制约效率的核心瓶颈。传统自回归（AR）解码虽能保证生成质量，却需逐 token 串行计算，速度极为缓慢；扩散型 LLM（dLLMs）虽支持并行解码，却面

来自主题: AI技术研报

7636 点击 2025-12-31 09:21

Z Product｜估值10亿美金的计费系统Metronome，如何成为OpenAI、英伟达首选的计价底层

Metronome成立于2019年的旧金山，专注于为AI与软件公司提供实时计费基础设施，解决从传统按Seat收费转向按用量、Token等复杂定价的工程难题。目前其融资总额达1.28亿美元，已服务OpenAI、NVIDIA、Databricks等头部企业，终端用户超1.5亿，成为AI时代“按价值收费”的关键基础设施。

来自主题: AI资讯

7603 点击 2025-12-29 15:35

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

7318 点击 2025-12-26 15:48

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了！首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

来自主题: AI技术研报

7568 点击 2025-12-22 17:07

100万亿Token揭示真相：中国开源AI拿下30%全球份额，推理已成主流

之前我在这篇文章(超全面免费 AI API 分享！零成本开启你的AI之旅！)中介绍过 OpenRouter 这个大模型 API 聚合平台，最近他们通过分析了100 万亿 token用户真实数据，发布了一篇研究报告，反应了真实用户的大模型使用现状。100 万亿 token 是什么概念呢？是人类所有文字资料的好几倍，这个数据量非常有说服力。

来自主题: AI技术研报

6225 点击 2025-12-22 17:05

AI资讯新闻榜单内容搜索-Token

继2025推理模型之后，2026「递归模型」RLM要火了。

4个月烧掉30亿Token，这位「菜鸟」程序员做出50多个产品，360万人围观

比 JSON 省一半钱的格式，为什么大厂不敢用？

动态RAG性能提升14个点！用4万亿token教会大模型 「什么时候该检索」

7B扩散语言模型单样例1000+ tokens/s！上交大联合华为推出LoPA

自回归因果注意力也能并行解码？上交联合UCSD突破LLM推理瓶颈，模型代码全开源

Z Product｜估值10亿美金的计费系统Metronome，如何成为OpenAI、英伟达首选的计价底层

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

100万亿Token揭示真相：中国开源AI拿下30%全球份额，推理已成主流

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」