AI资讯新闻榜单内容搜索-128K

大模型长文本阅读能力如何评估？

长文本处理能力对LLM的重要性是显而易见的。在2023年初，即便是当时最先进的GPT-3.5，其上下文长度也仅限于2k，然而今日，128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗？

来自主题: AI资讯

9145 点击 2024-08-14 11:25

小模型，正在成为 AI 巨头的新战场。

来自主题: AI资讯

6160 点击 2024-07-19 16:13

大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token

来自主题: AI技术研报

9619 点击 2024-04-29 20:31

从国际顶流 GPT-4 128K、Claude 200K 到国内「当红炸子鸡」支持 200 万字上下文的 Kimi Chat，大语言模型（LLM）在长上下文技术上不约而同地卷起来了

来自主题: AI技术研报

7544 点击 2024-04-16 18:08

就在刚刚，马斯克Grok大模型宣布重大升级。

来自主题: AI技术研报

8951 点击 2024-03-30 13:48

【新智元导读】马斯克「搞笑」模型刚刚升级到Grok-1.5，推理性能暴涨，支持128k长上下文。最重要的是，Grok-1.5的数学和代码能力大幅提升。

来自主题: AI技术研报

10364 点击 2024-03-29 16:34

马斯克搞大模型，速度也奇快。

来自主题: AI技术研报

8636 点击 2024-03-29 15:15

首先先来看看模型底座，阶跃星辰发布了两款，分别是Step-1V和Step-2。其中Step-1V具有千亿参数，支持多模态能力，和GPT4-Turbo一样，128K上下文，不过这款不算惊艳，只能算主流大模型中的正常水平。

来自主题: AI资讯

7688 点击 2024-03-16 11:35

陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。

来自主题: AI技术研报

11488 点击 2024-02-29 13:27

Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？

来自主题: AI资讯

9000 点击 2024-01-02 14:57