毅伯智算优化满血版一体机TORA3000性能：提升至最高吞吐量7442TPS

6437点击 2025-03-24 14:37

日前，毅伯智算基于3月13日推出的搭载满血版DeepSeek-R1-671B的8卡推理一体机TORA3000，

在原有性能基础上再次进行优化，实现在典型企业应用场景下的性能实测吞吐量达到7442TPS，最高并发数支持到900，可以同时支持2000+员工流畅使用。

近期以来，基于DeepSeek模型的一体机成为行业焦点，产品层出不穷，各方对其性能指标各执一词，

但往往脱离测试方法(参数设置)、脱离成本、脱离对标机型谈性能，令市场眼花缭乱。

针对上述问题，毅伯智算通过自研的DeepSeek 8卡一体机的性能表现，尽量为企业理性选择一体机提供一个全方位的评估标准。

据了解，TORA3000基于AMD新一代Instinct OAM GPU，单颗GPU的HBM3e显存容量高达192GB，总计达1.5TB，

搭载毅伯智算自研的针对DeepSeek MOE（混合专家模型）的软硬件一体解决方案，采用DeepSeek原生精度FP8（杜绝量化后精度下降导致性能虚标），

实现了硬件、组网、功耗的综合成本最优，并可以开箱即用。

本次优化方案使用的推理框架为毅伯智算自研的TORA-vLLM2.0，结合了vLLM与SGLang两种框架各自的优势，

在底层GPU硬件上大幅优化了卡间通信以及全自动化的并行策略等，最终使其综合性能为英伟达H20 (HBM 141G型号)性能的1.8倍，

达到业界一机8卡部署满血版R1模型的同类产品的绝对领先。

毅伯智算优化满血版一体机TORA3000性能：提升至最高吞吐量7442TPS

提供最具性价比的一体机解决方案

从3月13日全新推出搭载满血版DeepSeek-R1-671B的8卡推理一体机TORA3000，到此次显著优化性能，毅伯智算凭借其软硬件一体化的综合优势，

提供最具性价比的一体机解决方案。

首先是降低客户硬件成本，1机8卡即能实现上述性能，相比16卡机型方案，成本大幅降低；

其次是对FP8精度的支持，原生支持 DeepSeek-R1-671B 所采用的FP8 精度，兼容FP64/32/16 及INT8，在保证推理精度的同时有效降低部署成本；

还有对算子、算法、推理框架协同优化，通过全自研的算子库、编译技术、推理框架等技术手段，实现更快计算效率、长文本和高并发请求支持、更高推理性能；

最后，通过动态专家路由技术，实现MoE模型专家切换效率的提升。

毅伯智算优化满血版一体机TORA3000性能：提升至最高吞吐量7442TPS

作为国内少数实现全栈自研的软硬协同算力解决方案提供商，毅伯智算团队凝聚了超百人的AI工程师，其中核心成员在人工智能与超算领域拥有超10年的研发经验。

过去三年，团队始终致力于全栈式AI训推平台的研发，并于2024年依托新组建的毅伯智算主体，推出了全栈式AI训推平台。

2025年3月，毅伯智算进一步推出搭载DeepSeek模型的自研8卡推理一体机TORA3000。

文章来自于36氪账号“36氪的朋友们”，作者：36氪的朋友们

毅伯智算优化满血版一体机TORA3000性能：提升至最高吞吐量7442TPS