AI资讯新闻榜单内容搜索-token

一个「always」站在大模型技术C位的传奇男子

怎么老是你？？？（How old are you）尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后，有网友发现，其中提到的3-token因果卷积相关内容，沙哥等又早在三年前就有相关研究。这是最近网友不断对着Transformer八子之一的Noam Shazeer（为方便阅读，我们称他为沙哥）发出的灵魂疑问。

来自主题: AI资讯

10712 点击 2025-05-11 15:02

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

Mixture-of-Experts（MoE）在推理时仅激活每个 token 所需的一小部分专家，凭借其稀疏激活的特点，已成为当前 LLM 中的主流架构。然而，MoE 虽然显著降低了推理时的计算量，但整体参数规模依然大于同等性能的 Dense 模型，因此在显存资源极为受限的端侧部署场景中，仍然面临较大挑战。

来自主题: AI技术研报

7623 点击 2025-05-07 09:30

别再卷数据了，LLM也怕「过劳死」！CMU等揭秘灾难性过度训练

颠覆LLM预训练认知：预训练token数越多，模型越难调！CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。

来自主题: AI技术研报

8773 点击 2025-05-03 15:40

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

来自英伟达和UIUC的华人团队提出一种高效训练方法，将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录！基于Llama3.1-Instruct打造的UltraLong-8B模型，不仅在长上下文基准测试中表现卓越，还在标准任务中保持顶尖竞争力。

来自主题: AI技术研报

8524 点击 2025-05-01 13:54

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

7618 点击 2025-04-29 14:56

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

自回归模型，首次生成2048×2048分辨率图像！来自Meta、西北大学、新加坡国立大学等机构的研究人员，专门为多模态大语言模型（MLLMs）设计的TokenShuffle，显著减少了计算中的视觉Token数量，提升效率并支持高分辨率图像合成。

来自主题: AI技术研报

9437 点击 2025-04-28 09:16

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案，在一个框架内兼顾了图文理解与图像生成任务，并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报

7833 点击 2025-04-25 09:56

刚刚，OpenAI图像生成模型API发布，Token计价，一张图花掉1.4元

上个月，OpenAI 在 ChatGPT 中引入了图像生成功能，广受欢迎：仅在第一周，全球就有超过 1.3 亿用户创建了超过 7 亿张图片。就在刚刚，OpenAI 又宣布了一个好消息：他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1，让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。

来自主题: AI资讯

9340 点击 2025-04-24 09:44

推理模型其实无需「思考」？伯克利发现有时跳过思考过程会更快、更准确

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时，加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹：别再卷 token 了，无需显式思维链，推理模型也能实现高效且准确的推理。

来自主题: AI技术研报

8276 点击 2025-04-19 14:39

刚刚，OpenAI发布GPT-4.1！全系支持百万token上下文，全方位碾压GPT-4o并且价格更低

今天凌晨，OpenAI 的新系列模型 GPT-4.1 如约而至。

来自主题: AI技术研报

8475 点击 2025-04-15 11:48