AI资讯新闻榜单内容搜索-token

国内首次！8.9毫秒推理速度破纪录，1元打穿百万token

当所有人还在为参数内卷时，智能体真正的决胜点已经转向了速度与成本。浪潮信息用两款AI服务器直接给出了答案：一个将token生成速度干到10毫秒以内，一个把每百万token成本打到1元时代。

来自主题: AI资讯

7786 点击 2025-09-28 23:04

杜克大学团队发现，扩散大语言模型只需关注少量「中奖」token，就能在推理时把速度提升61-97倍，还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息，实现「少算多准」的双赢。

来自主题: AI技术研报

7308 点击 2025-09-28 09:51

LightVLA 是一个旨在提升 VLA 推理效率且同时提升性能的视觉 token 剪枝框架。当前 VLA 模型在具身智能领域仍面临推理代价大而无法大规模部署的问题，然而大多数免训练剪枝框架依赖于中间注意力输出，并且会面临性能与效率的权衡问题。

来自主题: AI技术研报

5938 点击 2025-09-27 11:25

正所谓“得数据者得天下”，这家央企算是把高质量数据集给玩明白了——超过10万亿tokens的通用大模型语料数据，以及覆盖14个关键行业的专业数据集，总存储量高达350TB！

来自主题: AI资讯

7813 点击 2025-09-26 10:59

刚刚，Meta FAIR推出了代码世界模型！CWM（Code World Model），一个参数量为32B、上下文大小达131k token的密集语言模型，专为代码生成和推理打造的研究模型。这是全球首个将世界模型系统性引入代码生成的语言模型。

来自主题: AI资讯

8961 点击 2025-09-25 11:20

xAI重磅推出Grok 4 Fast，创新融合推理与非推理双模式，支持200万token上下文。在NYT Connections基准和AA智能指数中表现卓越，超越多家顶级模型，标志着AI智能获取门槛的进一步降低。

来自主题: AI资讯

8497 点击 2025-09-21 11:15

最近，来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现：在心算任务中，几乎所有实际的数学计算都集中在序列的最后一个token上完成，而不是分散在所有token中。

来自主题: AI技术研报

7302 点击 2025-09-16 10:00

最强不敢说，但最快实锤了！刚刚，xAI发布Grok 4 Fast，生成速度高达每秒75个 token，比标准版快10倍！从下面的动图中，我们可以直观地看出差距——当左边的Grok 4还在说“让我想一下的时候”，Grok 4 Fast已经在说：“下一个问题是什么了。”

来自主题: AI资讯

8382 点击 2025-09-15 23:15

图检索增强生成（GraphRAG）已成为大模型解决复杂领域知识问答的重要解决方案之一。然而，当前学界和开源界的方案都面临着三大关键痛点：开销巨大：通过 LLM 构建图谱及社区，Token 消耗大，耗

来自主题: AI技术研报

8102 点击 2025-09-14 10:45

昨天，英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX，将大模型一次性推理带入「百万Token时代」。NVIDIA创始人兼CEO黄仁勋表示，Vera Rubin平台将再次推动AI计算的前沿，不仅带来下一代Rubin GPU，也将开创一个CPX的全新处理器类别。

来自主题: AI资讯

6854 点击 2025-09-11 12:31