AI资讯新闻榜单内容搜索-上下文

清华NLP组发布InfLLM：无需额外训练，「1024K超长上下文」100%召回！

挖掘大模型固有的长文本理解能力，InfLLM在没有引入额外训练的情况下，利用一个外部记忆模块存储超长上下文信息，实现了上下文长度的扩展。

来自主题: AI技术研报

4140 点击 2024-03-11 17:31

陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。

来自主题: AI技术研报

9099 点击 2024-02-29 13:27

谷歌刚刷新大模型上下文窗口长度记录，发布支持100万token的Gemini 1.5，微软就来砸场子了。

来自主题: AI技术研报

6199 点击 2024-02-24 11:58

我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。

来自主题: AI技术研报

6078 点击 2024-02-20 11:24

这两天，几乎整个AI圈的目光都被OpenAI发布Sora模型的新闻吸引了去。其实还有件事也值得关注，那就是Google继上周官宣Gemini 1.0 Ultra 后，火速推出下一代人工智能模型Gemini 1.5。

来自主题: AI资讯

8229 点击 2024-02-18 12:04

刚刚，我们经历了LLM划时代的一夜。谷歌又在深夜发炸弹，Gemini Ultra发布还没几天，Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌，开始进入了高产模式。

来自主题: AI技术研报

10326 点击 2024-02-17 12:43

Transformer的固定尺寸上下文使得GPT模型无法生成任意长的文本。在本文中，我们介绍了RECURRENTGPT，一个基于语言的模拟RNN中的递归机制。

来自主题: AI技术研报

4357 点击 2024-02-06 12:51

模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。

来自主题: AI技术研报

10210 点击 2024-02-04 14:03

在软件工程顶会ESEC/FSE上，来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究人员发表了新的成果，使用LLM解决自动化定理证明问题。

来自主题: AI技术研报

3991 点击 2024-02-03 14:55

来看一个奇妙新解：和长度外推等方法使用KV缓存的本质不同，它用模型的参数来存储大量上下文信息。

来自主题: AI技术研报

6340 点击 2024-02-02 16:12