全网高质量数据集告急!OpenAI、Anthropic等AI公司正在开拓新方法,训练下一代AI模型。
全网高质量数据集告急!OpenAI、Anthropic等AI公司正在开拓新方法,训练下一代AI模型。
【新智元导读】大模型落地并不缺场景,却往往因算力不够遇难题。这家国产平台从今日起,免费送百万token。开发者们不仅可以对20多种开源模型精调,还能用上极具性价比的多元算力。
太快了太快了…
【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。
“Claude 3、Gemini 1.5,是要把RAG(检索增强生成)给搞死了吗?”
微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)。
挖掘大模型固有的长文本理解能力,InfLLM在没有引入额外训练的情况下,利用一个外部记忆模块存储超长上下文信息,实现了上下文长度的扩展。
谷歌刚刷新大模型上下文窗口长度记录,发布支持100万token的Gemini 1.5,微软就来砸场子了。