AI资讯新闻榜单内容搜索-大语言模型

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

从国际顶流 GPT-4 128K、Claude 200K 到国内「当红炸子鸡」支持 200 万字上下文的 Kimi Chat，大语言模型（LLM）在长上下文技术上不约而同地卷起来了

来自主题: AI技术研报

5336 点击 2024-04-16 18:08

近日，朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3：知识的 Scaling Laws》用海量实验（50,000 条任务，总计 4,200,000 GPU 小时）总结了 12 条定律，为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

来自主题: AI资讯

4123 点击 2024-04-10 19:11

图是组织信息的一种有用方式，但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法，显著提高LLMs在图形问题上超过60%的准确性。

来自主题: AI资讯

6293 点击 2024-03-27 17:52

早在 2020 年，陶大程团队就发布了《Knowledge Distillation: A Survey》，详细介绍了知识蒸馏在深度学习中的应用，主要用于模型压缩和加速。随着大语言模型的出现，知识蒸馏的作用范围不断扩大，逐渐扩展到了用于提升小模型的性能以及模型的自我提升。

来自主题: AI技术研报

4307 点击 2024-03-16 15:28

模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。

来自主题: AI技术研报

8065 点击 2024-03-07 13:53

大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。

来自主题: AI技术研报

4008 点击 2024-02-10 13:02

MiniCPM 是一系列端侧语言大模型，主体语言模型 MiniCPM-2B 具有 2.4B 的非词嵌入参数量。

来自主题: AI技术研报

7036 点击 2024-02-05 14:42

加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》的 Perspective 文章，强调了语言模型在构建量子计算机方面所做出的贡献，并讨论了它们在量子优势竞争中的未来角色。

来自主题: AI技术研报

5053 点击 2024-02-03 13:04

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。

来自主题: AI技术研报

8017 点击 2024-02-03 12:44

本报告旨在通过全面、客观地评估当前流行的大模型，为大语言模型技术的具体实践和未来探索提供方向。

来自主题: AI资讯

7487 点击 2024-01-23 10:37