AI资讯新闻榜单内容搜索-Token

搞懂“记忆”必看｜吃透Engram，坐等Deepseek新模型

第一篇论文来自字节SEED团队，打了一些基础；《Over-Tokenized Transformer》。论文标题看上去在讨论“过度分词”。而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。《Conditional Memory via Scalable Lookup》也就是Engram模块所出处的论文。

来自主题: AI技术研报

10498 点击 2026-03-31 10:30

早于DeepSeek Engram！用「查表」重置Transformer记忆 | ICLR

ICLR论文STEM架构率先提出「查表式记忆」架构，早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表，用token索引的embedding表直接读取记忆，彻底解耦记忆容量与计算开销。

来自主题: AI技术研报

8813 点击 2026-03-31 10:04

ICLR 2026 Oral | 大道至简！斯坦福、英伟达、新国立联合推出InfoTok，用信息论重新定义高效视频分词

在生成式 AI 领域，视觉分词器（Visual Tokenizer）通常采用固定压缩率 —— 无论是单调的监控画面，还是复杂的动作大片，都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余，也产生了 “信息量” 不同的 Token，不利于下游理解生成任务处理。

来自主题: AI技术研报

6068 点击 2026-03-31 10:03

多Agent 狂吞token，Claude 顶不住了：一人月烧15万美元，免费AI正在退场

Anthropic 团队正以极高强度内部试用 Claude Code。

来自主题: AI资讯

8291 点击 2026-03-31 10:02

独家 | Kimi K2.5发布一个月后，月之暗面ARR突破1亿美金

3月30日，界面新闻记者从知情人士处独家获悉，3月初，在Kimi K2.5模型发布一个月之后，月之暗面ARR（年度经常性收入）突破1亿美金。知情人士还表示，K2.5模型上线后，API供应的TPM（Tokens Per Minute，每分钟令牌数）配额迅速趋紧，有客户开出千万美元级别的消费承诺及预付担保，以期获得优先供应。

来自主题: AI资讯

8467 点击 2026-03-31 09:56