AI资讯新闻榜单内容搜索-训练大模型

如何使用OpenAI fine-tuning(微调)训练属于自己的专有模型？

Fine-tuning理论上很复杂，但是OpenAI把这个功能完善到任何一个人看了就能做出来的程度。我们先从原理入手，你看这张图，左边是Pre-trained LLM （预训练大模型模型），也就是像ChatGPT这样的模型；右边是Fine-tuned LLM （微调过的语言大模型），中间就是进行微调的过程，它需要我们提供一些「ChatGPT提供不了但是我们需要的东西」。

来自主题: AI技术研报

9125 点击 2024-12-01 10:56

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

让大模型能快速、准确、高效地吸收新知识！

来自主题: AI技术研报

6494 点击 2024-10-29 17:57

Benchmark合伙人：训练大模型目前成本远大于收入；但理论上成功回报极大，所以你仍需不断加注

随着LLM的进步，它将超越代码补全（“Copilot”）的功能，进入代码创作（“Autopilot”）的领域。随着LLM变得越来越复杂，它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。

来自主题: AI资讯

3536 点击 2024-10-15 14:01

2024年中国AI基础数据服务研究报告

近年来，Transformer等预训练大模型在语言理解及生成等领域表现出色，大模型背后的Scaling Law（规模定律）进一步揭示了模型性能与数据量、算力之间的关系，强化了数据在提升AI表现中的关键作用。

来自主题: AI资讯

5871 点击 2024-09-03 10:04

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

自从大型 Transformer 模型逐渐成为各个领域的统一架构，微调就成为了将预训练大模型应用到下游任务的重要手段

来自主题: AI技术研报

9891 点击 2024-07-12 17:47

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

5938 点击 2024-05-12 15:49

没想到吧，中文互联网上最好的大模型语料库是：弱智吧

如果让你在互联网上给大模型选一本中文教材，你会去哪里取材？是知乎，是豆瓣，还是微博？一个研究团队为了构建高质量的中文指令微调数据集，对这些社交媒体进行了测试，想找到训练大模型最好的中文预料，结果答案保证让你大跌眼镜——

来自主题: AI资讯

6924 点击 2024-04-04 15:47

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。

来自主题: AI技术研报

8497 点击 2024-04-01 15:45

行业大模型建设的若干思考

2022年底，OpenAI（美国人工智能研究公司）发布的大模型ChatGPT（对话生成式预训练大模型）引发了广泛关注。在“大模型+大数据+大算力”的加持下，ChatGPT能够通过自然语言交互完成多种任务，具备了多场景、多用途、跨学科的任务处理能力。

来自主题: AI资讯

5518 点击 2024-03-27 17:58

如何从零开始训练大模型（minicpm分享&讨论）

根据scaling law，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。

来自主题: AI技术研报

2663 点击 2024-03-19 15:55