
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。
当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。
英伟达直接把服务器级别的算力塞进了机器人体内。 全新的机器人计算平台Jetson Thor正式发售,基于最新的Blackwell GPU架构,AI算力直接飙升到2070 TFLOPS,比上一代Jetson Orin提高至整整7.5倍,同时能效提高至3.5倍。
在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。
当人们热议着AI大模型如何改变世界时,很少有人会注意到,这场技术革命的真正“战场”,竟隐藏在一块块墨绿色的电路板上。
本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。
在构建更强大的 AI 模型的这场竞赛中,传统路径很简单:升级到最新最强大的硬件。但 Cursor 发现释放下一代 GPU 的真正潜力远非即插即用那么简单。
软件+硬件的全链路国产 AI 体系来了? 这几天,不论国内国外,人们都在关注 DeepSeek 发布的 V3.1 新模型。
单机驾驭4万亿参数,国产开源AI四大天王推理快到炸裂!这背后不是算力堆叠的肌肉秀,而是「元脑SD200」超节点AI终极杀器。超大显存、超高速互联域、超强算力,还支持64路本土GPU,全面可商用。
今天 ,OpenAI 开源了俩模型:120B/20B 117B 的 gpt-oss-120b 对标 o4-min,按官方说法至少需要 80G 内存,推荐使用单卡 H100 GPU 而刚买的的游戏本,刚好满足gpt-oss-120b 的部署条件
华为版本CUDA,全面开源开放! 最新消息,华为宣布为其昇腾AI GPU开源其CANN软件工具包。