AI资讯新闻榜单内容搜索-LLM

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

开源大语言模型（LLM）百花齐放，为了让它们适应各种下游任务，微调（fine-tuning）是最广泛采用的基本方法。基于自动微分技术（auto-differentiation）的一阶优化器（SGD、Adam 等）虽然在模型微调中占据主流，然而在模型越来越大的今天，却带来越来越大的显存压力。

来自主题: AI技术研报

11979 点击 2024-07-04 13:35

全球AI竞赛，美国的优势不止英伟达

只要仍使用英语训练 LLM 模型，美国就还有优势。

来自主题: AI资讯

6687 点击 2024-07-03 14:26

大模型性能掺水严重？北大交出答卷：交互评估+动态出题，死记硬背也没用 | ACL 2024

当前大语言模型（LLM）的评估方法受到数据污染问题的影响，导致评估结果被高估，无法准确反映模型的真实能力。北京大学等提出的KIEval框架，通过知识基础的交互式评估，克服了数据污染的影响，更全面地评估了模型在知识理解和应用方面的能力。

来自主题: AI技术研报

6480 点击 2024-07-02 18:25

ML工程师一次微调7个模型，击败OpenAI GPT-4

「微调你的模型，获得比GPT-4更好的性能」不只是说说而已，而是真的可操作。最近，一位愿意动手的ML工程师就把几个开源LLM调教成了自己想要的样子。

来自主题: AI技术研报

9617 点击 2024-07-02 15:26

8B尺寸达到GPT-4级性能！北大等提出医疗专家模型训练方法

本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。

来自主题: AI技术研报

10104 点击 2024-07-02 11:27

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

人工智能（AI）在过去十年里取得了长足进步，特别是在自然语言处理和计算机视觉领域。然而，如何提升 AI 的认知能力和推理能力，仍然是一个巨大的挑战。

来自主题: AI技术研报

10620 点击 2024-07-01 15:13

LangChain居然不香了？一线程序员现身说法，硬核博文剖析LLM应用开发原则

最近，Hacker News热榜上出现了一篇「声讨」LangChain的技术文章，得到了评论区网友的一致呼应。去年还火遍LLM圈的LangChain，为什么口碑逆转了？

来自主题: AI资讯

12507 点击 2024-07-01 13:20

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。

来自主题: AI资讯

10267 点击 2024-07-01 12:21

开发者狂喜！Meta最新发布的LLM Compiler，实现77%自动调优效率

Meta搞了个很牛的LLM Compiler，帮助程序员更高效地写代码。

来自主题: AI资讯

9621 点击 2024-06-29 17:38

Google AI：构建未来智能世界的创新引擎

谷歌作为全球领先的科技公司，在 AI 领域拥有深厚的积累和卓越的创新能力，在谷歌眼里，生成式 AI 带来了哪些机会？Google AI 是如何在谷歌产品中落地的？Google Cloud 提供了一系列工具和平台，如何帮助开发者构建和部署自己的专属 LLM 和 Agent？负责任的 AI 为企业带来哪些价值？

来自主题: AI资讯

10550 点击 2024-06-28 16:44