AI资讯新闻榜单内容搜索-token

AI话痨终结者！UCSD清华提出「思维扫描术」Dynasor-CoT，推理巨省token

推理模型在复杂任务上表现惊艳，缺点是低下的token效率。UCSD清华等机构的研究人员发现，问题根源在于模型的「自我怀疑」！研究团队提出了Dynasor-CoT，一种无需训练、侵入性小且简单的方法。

来自主题: AI技术研报

9055 点击 2025-03-06 17:15

DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

来自主题: AI技术研报

6465 点击 2025-03-04 20:02

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？

来自主题: AI技术研报

8974 点击 2025-03-04 10:08

Diffusion Transformer模型模型通过token粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。

来自主题: AI技术研报

6877 点击 2025-02-28 15:06

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

5933 点击 2025-02-28 14:11

OpenAI的重磅炸弹GPT-4.5，刚刚如期上线了！它并不是推理模型，但是规模最大、知识最丰富，最鲜明的特点就是情商高、很类人。Pro版用户和付费开发者已经能用了，但token定价有点离谱。

来自主题: AI资讯

9940 点击 2025-02-28 09:34

最近，英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，和每token成本降低20倍的惊人成果。同时，DeepSeek连续开源多个英伟达GPU优化项目，共同探索模型性能极限。

来自主题: AI技术研报

10483 点击 2025-02-27 16:33

谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术，分享了「猫神经元」等早期AI突破的背后故事，还大胆畅想了AI处理万亿级别Token、实现「1000万倍工程师」的可能性。

来自主题: AI资讯

6433 点击 2025-02-26 09:47

谷歌研究人员提出了一种创新的token拍卖模型，通过「竞拍」的方式，让智能体在文本生成过程中进行出价，确保最终输出能满足各方利益，实现最佳效果。这一机制优化了广告、内容创作等领域的协作。

来自主题: AI技术研报

7925 点击 2025-02-19 15:09

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

8224 点击 2025-02-19 10:02