AI资讯新闻榜单内容搜索-LLM

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

ChatGPT能耗惊人，该怎么解？谷歌DeepMind新算法JEST问世，让LLM训练的迭代次数降低13倍，计算量减少10倍，或将重塑AI未来。

来自主题: AI技术研报

10056 点击 2024-07-07 16:42

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大语言模型（Large Language Models，LLMs）的强大理解、生成和推理能力

来自主题: AI技术研报

11622 点击 2024-07-07 16:35

OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。

来自主题: AI资讯

12378 点击 2024-07-06 20:21

在训练大型语言模型（LLM）时，Adam(W) 基本上已经成为了人们默认使用的优化器。

来自主题: AI技术研报

9856 点击 2024-07-06 19:01

谷歌的Gemma 2刚刚发布，清华和北航的两名博士生就已经成功推出了指令微调版本，显著增强了Gemma 2 9B/27B模型的中文通用对话、角色扮演、数学、工具使用等能力。

来自主题: AI资讯

10889 点击 2024-07-06 18:50

近日，来自谷歌DeepMind的研究人员，推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time（ToT），从两个独立的维度分别考察了LLM的时间理解和算术能力。

来自主题: AI技术研报

10325 点击 2024-07-05 16:35

大语言模型有道德推理能力吗？不仅有，甚至可能在道德推理方面超越普通人和专家学者！最新研究发现：GPT-4o针对道德难题给出的建议比人类专家更让人信服。

来自主题: AI技术研报

10264 点击 2024-07-05 16:30

只有10亿参数的xLAM-1B在特定任务中击败了LLM霸主：OpenAI的GPT-3.5 Turbo和Anthropic的Claude-3 Haiku。上个月刚发布的苹果智能模型只有30亿参数，就连奥特曼都表示，我们正处于大模型时代的末期。那么，小语言模型（SLM）会是AI的未来吗？

来自主题: AI技术研报

8529 点击 2024-07-04 16:25

开源大语言模型（LLM）百花齐放，为了让它们适应各种下游任务，微调（fine-tuning）是最广泛采用的基本方法。基于自动微分技术（auto-differentiation）的一阶优化器（SGD、Adam 等）虽然在模型微调中占据主流，然而在模型越来越大的今天，却带来越来越大的显存压力。

来自主题: AI技术研报

11680 点击 2024-07-04 13:35

只要仍使用英语训练 LLM 模型，美国就还有优势。

来自主题: AI资讯

6518 点击 2024-07-03 14:26