AI资讯新闻榜单内容搜索-Token

微软Terminus-4B之后，Agent可能会进入「专用小模型Sub Agent」时代

您有没有想过：在代码Agent里，执行终端命令、跑测试、读报错、总结日志这种任务，用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行，是不是有点浪费？一定要这么做吗？

来自主题: AI技术研报

7367 点击 2026-05-14 10:01

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报

9605 点击 2026-05-14 09:59

终于找到养虾的永久免费 Token，8000 个名额速抢！

上次 WinClaw 的超级 VIP 计划推出 10000 个免 token 名额时我就想发，可惜我看到的时候名额已经被抢空。今天突然刷到活动又返场了！5 月 7 日到 5 月 17 日，又有 8000 个 Token 永久免费名额可以申请

来自主题: AI资讯

8401 点击 2026-05-13 19:01

ICML 2026 Spotlight| 拒绝盲目猜token，阿里x浙大将投机解码带入弹性预算时代

随着大模型参数规模持续扩大，推理成本已经成为生产级 LLM 服务的核心瓶颈。投机解码（Speculative Decoding, SD）通过「小模型 draft + 大模型 verify」的方式，将多个候选 token 放到一次目标模型前向中并行验证，从而缓解自回归解码的串行瓶颈。

来自主题: AI技术研报

8041 点击 2026-05-13 15:01

免费 1500 次背后，商汤在下一盘什么棋

商汤最近做了一件大多数大模型公司都不舍得做的事。每 5 小时 1500 次免费调用，Token 消耗比同行低 60%，三款新产品同步上线，还把核心模型 U1 以 Apache 2.0 协议全面开源——在大模型公司普遍在想怎么收费的当下，商汤在反向操作。

来自主题: AI资讯

10268 点击 2026-05-12 16:47

小米计划30天内免费发100万亿Token，小米技术发文：Hermes Agent最近一月累计调用小米MiMo1.45万亿Token

5月12日，小米集团总裁卢伟冰发文：为回馈全球开发者，小米正式启动「MiMo Orbit 100T Token 计划」，面向全球 AI 用户免费发放 Token 权益，计划在 30 天内累计发放 100 万亿 Token。

来自主题: AI资讯

7072 点击 2026-05-12 15:21

ICLR 2026 Oral｜大模型总爱「想太多」？ DECS从源头消除冗余思考，实现推理token减半且性能不降反升

以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型，通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而，这些模型普遍存在一个核心问题，即过度思考（overthinking）：

来自主题: AI技术研报

6440 点击 2026-05-12 14:31

Claude Code 每条请求暗藏一行「有毒」header，52K 上下文推理被拖慢 5 倍！NVIDIA 一个 flag 修好了

NVIDIA Dynamo 团队发现，Claude Code 向自定义端点发送请求时，prompt 最前面会带一行 session-specific billing header。这行 header 每个 session 都变，导致 52K token 的稳定前缀在 KV cache 中无法复用——TTFT 从 168ms 飙到 912ms。Dynamo 加了一个 `

来自主题: AI资讯

10065 点击 2026-05-11 11:01

大模型自信且短视！Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标，让模型在每一步预测时兼顾未来token分布，从而提升整体推理能力。

来自主题: AI技术研报

6496 点击 2026-05-11 09:03

首超龙虾！「爱马仕」Agent全球调用第一，小米MiMo是第一贡献模型

5月9日，Hermes Agent（昵称：爱马仕）登顶OpenRouter全球应用调用量榜首，首次超越OpenClaw（昵称：龙虾）。据OpenRouter应用Token消耗榜最新数据，这一Nous Research旗下开源自进化Agent产品登顶全球应用Token消耗榜，单日Token消耗量达到271B，也就是2710亿Token。

来自主题: AI资讯

8974 点击 2026-05-10 00:55