AI资讯新闻榜单内容搜索-大模型推理

大模型无限流式输入推理飙升46%！国产开源加速「全家桶」，打破多轮对话长度限制

大模型推理再次跃升一个新台阶！最近，全新开源的国产SwiftInfer方案，不仅能让LLM处理无限流式输入，而且还将推理性能提升了46%。

来自主题: AI资讯

4385 点击 2024-01-08 13:42

全面综述近750篇「基础模型推理」论文，聚焦于各种推理任务、方法论和基准测试的最新进展，详细阐述大模型在各种推理任务上的现状、技术局限性和未来可能性。

来自主题: AI资讯

2860 点击 2023-12-22 15:34

上海交大IPADS实验室推出的开源推理框架PowerInfer，让大模型推理速度加快了11倍。

来自主题: AI资讯

5221 点击 2023-12-21 10:42

用大模型解决困扰数学家60多年的问题，谷歌DeepMind最新成果再登Nature。

来自主题: AI资讯

2805 点击 2023-12-15 18:47

大语言模型（LLM）被越来越多应用于各种领域。然而，它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则：每个词（token）的生成都需要进行一次前向传播，需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。

来自主题: AI资讯

5799 点击 2023-12-15 11:37

PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码！

来自主题: AI资讯

7277 点击 2023-12-02 18:43

只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延，且首个token和下一个token的推理速度分别提升多达40倍和2.68倍，还能满足更多场景应用需求。

来自主题: AI技术研报

3943 点击 2023-11-30 19:10

这两天，FlashAttention团队推出了新作：一种给Transformer架构大模型推理加速的新方法，最高可提速8倍。该方法尤其造福于长上下文LLM，在64k长度的CodeLlama-34B上通过了验证

来自主题: AI技术研报

3520 点击 2023-10-18 14:43

麻省理工学院计算机科学与人工智能实验室（CSAIL）研究团队发现，多个语言模型协同工作胜过单一模型，多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

来自主题: AI技术研报

4303 点击 2023-09-20 10:09