
RECURRENTGPT: 交互式生成(任意的)长文本
RECURRENTGPT: 交互式生成(任意的)长文本Transformer的固定尺寸上下文使得GPT模型无法生成任意长的文本。在本文中,我们介绍了RECURRENTGPT,一个基于语言的模拟RNN中的递归机制。
来自主题: AI技术研报
4484 点击 2024-02-06 12:51
Transformer的固定尺寸上下文使得GPT模型无法生成任意长的文本。在本文中,我们介绍了RECURRENTGPT,一个基于语言的模拟RNN中的递归机制。
来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。
现在ChatGPT等大模型一大痛点:处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。
今天,Moonshot AI 带着首个支持输入 20 万汉字的智能助手产品Kimi Chat 与大家见面了。 据我们所知,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着 Moonshot AI 在“长文本”这一重要技术上取得了世界领先水平。