AI资讯新闻榜单内容搜索-token

一句话，满足两个广告商！谷歌最新「Token拍卖模型」，多LLM联合创作广告词

谷歌研究人员提出了一种创新的token拍卖模型，通过「竞拍」的方式，让智能体在文本生成过程中进行出价，确保最终输出能满足各方利益，实现最佳效果。这一机制优化了广告、内容创作等领域的协作。

来自主题: AI技术研报

7925 点击 2025-02-19 15:09

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

8225 点击 2025-02-19 10:02

RedStone是一个高效构建大规模指定领域数据的处理管道，通过优化数据处理流程，从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集，在多项任务中超越了现有开源数据集，显著提升了模型性能。

来自主题: AI技术研报

6781 点击 2025-02-18 20:15

用扩散模型替代自回归，大模型的逆诅咒有解了!

来自主题: AI技术研报

7854 点击 2025-02-18 14:43

近年来，大语言模型（LLMs）取得了突破性进展，展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前，普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报

8127 点击 2025-02-17 14:37

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

5634 点击 2025-02-16 13:12

一个简单的笑脸😀可能远不止这么简单？最近，AI大神Karpathy发现，一个😀竟然占用了多达53个token！这背后隐藏着Unicode编码的哪些秘密？如何利用这些「隐形字符」在文本中嵌入、传递甚至「隐藏」任意数据。更有趣的是，这种「数据隐藏术」甚至能对AI模型进行「提示注入」！

来自主题: AI技术研报

7055 点击 2025-02-14 10:21

还在为 DeepSeek R1 官网的卡顿抓狂？无问芯穹大模型服务平台现已上线满血版 DeepSeek-R1、V3，无需邀请即可免费用 Token！另有异构算力鼎力相助，支持通过 Infini-AI 异构云平台一键获取 DeepSeek 系列模型与多元异构自主算力服务。

来自主题: AI资讯

8068 点击 2025-02-11 14:56

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

3612 点击 2025-02-06 15:26

国产大模型云服务平台SiliconCloud（硅基流动），首发上线了基于华为云昇腾云服务的DeepSeek-V3、DeepSeek-R1。　DeepSeek-V3：输入只需1块钱/M tokens，输出2块钱/M tokens

来自主题: AI资讯

9102 点击 2025-02-02 13:03