AI资讯新闻榜单内容搜索-训练大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练大模型
2024年中国AI基础数据服务研究报告

2024年中国AI基础数据服务研究报告

2024年中国AI基础数据服务研究报告

近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。

来自主题: AI资讯
5450 点击    2024-09-03 10:04
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报
5603 点击    2024-05-12 15:49
没想到吧,中文互联网上最好的大模型语料库是:弱智吧

没想到吧,中文互联网上最好的大模型语料库是:弱智吧

没想到吧,中文互联网上最好的大模型语料库是:弱智吧

如果让你在互联网上给大模型选一本中文教材,你会去哪里取材?是知乎,是豆瓣,还是微博?一个研究团队为了构建高质量的中文指令微调数据集,对这些社交媒体进行了测试,想找到训练大模型最好的中文预料,结果答案保证让你大跌眼镜——

来自主题: AI资讯
6549 点击    2024-04-04 15:47
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。

来自主题: AI技术研报
8188 点击    2024-04-01 15:45
行业大模型建设的若干思考

行业大模型建设的若干思考

行业大模型建设的若干思考

2022年底,OpenAI(美国人工智能研究公司)发布的大模型ChatGPT(对话生成式预训练大模型)引发了广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用 途、跨学科的任务处理能力。

来自主题: AI资讯
5128 点击    2024-03-27 17:58
如何从零开始训练大模型(minicpm分享&讨论)

如何从零开始训练大模型(minicpm分享&讨论)

如何从零开始训练大模型(minicpm分享&讨论)

根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。

来自主题: AI技术研报
2394 点击    2024-03-19 15:55
前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞

一家大模型初创公司从创立到训练出大模型,要克服怎样的难题?前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点。

来自主题: AI资讯
6726 点击    2024-03-10 15:56
维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用维基百科数据训练大模型,得到的WikiChat成为首个几乎不产生幻觉的聊天机器人。

来自主题: AI资讯
5229 点击    2024-01-03 14:00
以百万脑电数据训练大模型,灵犀医学打造AI脑疾病诊疗平台

以百万脑电数据训练大模型,灵犀医学打造AI脑疾病诊疗平台

以百万脑电数据训练大模型,灵犀医学打造AI脑疾病诊疗平台

依托清华大学神经工程实验室在神经科学和脑机解码领域的技术和经验积累,灵犀医学于2019年创立,如今已建立以百万病例EEG数据为基础的脑功能数据库。基于超大规模人体大脑数据训练神经动力学大模型,灵犀医学打造了针对癫痫、抑郁症、阿尔兹海默症等脑疾病的AI精准诊断和治疗平台。

来自主题: AI资讯
5042 点击    2023-12-05 10:17