AI资讯新闻榜单内容搜索-集群

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 集群
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天?

来自主题: AI技术研报
6306 点击    2024-09-05 15:20
百万卡AI集群,离不开英伟达网络

百万卡AI集群,离不开英伟达网络

百万卡AI集群,离不开英伟达网络

马斯克xAI建超算集群,以太网助AI云迅猛发展。

来自主题: AI资讯
4216 点击    2024-08-22 17:38
腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

人工智能正经历一场由大模型引发的革命。这些拥有数十亿甚至万亿参数的庞然大物,正在重塑我们对 AI 能力的认知,也构筑起充满挑战与机遇的技术迷宫——从计算集群高速互联网络的搭建,到训练过程中模型稳定性和鲁棒性的提升,再到探索更快更优的压缩与加速方法,每一步都是对创新者的考验。

来自主题: AI资讯
9623 点击    2024-08-21 14:13
喧嚣背后,国产GPU距离“平替”英伟达还有多远?

喧嚣背后,国产GPU距离“平替”英伟达还有多远?

喧嚣背后,国产GPU距离“平替”英伟达还有多远?

2024年上海的7月是一个沉闷的雨季,但对国产AI 行业来说,却迎来了堪比摇滚乐集会的WAIC(世界人工智能大会)。

来自主题: AI资讯
7491 点击    2024-08-12 17:38
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。

来自主题: AI资讯
5341 点击    2024-08-08 18:53
缺卡、缺电、缺组网技术,谁能为马斯克构建出全球最强大的 10 万卡超级集群?

缺卡、缺电、缺组网技术,谁能为马斯克构建出全球最强大的 10 万卡超级集群?

缺卡、缺电、缺组网技术,谁能为马斯克构建出全球最强大的 10 万卡超级集群?

埃隆·马斯克掌控的那几家公司——包括SpaceX、特斯拉、xAI乃至X(原Twitter)——都需要大量的GPU,而且也都是为自己的特定AI或者高性能计算(HPC)项目服务。

来自主题: AI资讯
9516 点击    2024-08-01 12:03
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。

来自主题: AI技术研报
9608 点击    2024-07-29 20:16
从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本

我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的,机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文章,介绍如何将一堆连操作系统也没有的「裸机」变成用于训练 LLM 的计算机集群。

来自主题: AI技术研报
8539 点击    2024-07-24 16:57