H100服务器深度解析,揭秘H1Z1游戏背后高性能服务器的真容

H100服务器的外观与特性

1、DGX H100系统集成了八颗H100芯片,并搭配了两颗高性能PCIe 0 CPU处理器,总计拥有6400亿个晶体管和640GB HBM3显存,显存带宽高达24TB/s,在性能方面,AI算力达到32PFlops,FP64浮点算力为480TFlops,FP16浮点算力为6PFlops,FP8浮点算力为2PFlops,分别是上一代DGX A100的3倍、3倍、6倍,H100还新增了支持网络内计算的功能,性能达到6TFlops。

2、华硕ESC系列服务器通过了NVIDIA的认证,兼容Intel®和AMD平台,最高可配置四至八个GPU,尤其是ESC8000-E11型号,支持八插槽H100 PCIe® GPU,提供了高速GPU互连和宽频带连接,以满足高性能计算的需求。

3、H100的紧密集成设计,实现了高带宽和统一内存,为GPU和CPU提供了共享虚拟地址空间,NVIDIA Hopper H100 GPU代表了在晶体管技术、架构设计、系统集成、软件架构和编程系统标准方面的数千名工程师的协作成果,它为云数据中心、服务器、边缘系统和工作站提供了优化的人工智能训练和推理、高性能计算和数据分析应用。

【芯片论文】NVIDIA Hopper H100 GPU的扩展性能

H100服务器深度解析,揭秘H1Z1游戏背后高性能服务器的真容  第1张

1、A100中的TF32 Tensor Cores在深度学习和高性能计算数据类型支持以及稀疏功能方面实现了性能翻倍,在PyTorch框架下,A100芯片相较于V100在AI模型性能上有了显著提升,具体表现为BERT训练速度提升6倍,BERT推理速度提升7倍,而H100采用NVIDIA Hopper架构,拥有800亿个晶体管,为数据中心加速计算带来了突破性的性能。

2、H100 GPU在每个工作负载中均展现出卓越的性能、可扩展性和安全性,借助NVIDIA NVLink Switch系统,可以连接多达256个H100来加速百亿亿级工作负载,同时通过专用的Transformer引擎处理万亿参数的语言模型,与上一代产品相比,H100的综合技术创新可将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。

3、英伟达Hopper架构无疑是AI和高性能计算领域的一个新里程碑,随着Hopper H100显卡的震撼登场,英伟达为这两个领域带来了革命性的突破,这款基于Hopper架构的显卡,凭借其800亿个晶体管,超越了前代A100,彰显了其卓越的性能和技术创新。

4、根据论文《Benchmarking and Dissecting the Nvidia Hopper GPU Architecture》,Hopper GPU引入了新的特性,包括在向前传播中采用FP8 M4E3,在反向传播时采用FP8 M5E2,以获得接近FP32的性能,H100支持两种FP8格式,以及Dynamic Programming X (DPX)技术,以加速广泛的动态规划算法。

5、NVIDIA NVLink 4高带宽互联技术将GPU、SoC和Grace CPU连接起来,实现了更好的扩展性能,单芯片带宽从A100的600GB/s提升至900GB/s,H100正式支持PCIe 0,使CPU到GPU的带宽翻倍,NVIDIA推出了全新的外置NVLink Switch,支持最多256个GPU的链接,适用于32个8路GPU节点,提供高达74TB/s的带宽。

华硕ESC-N8-E11 NVIDIA HGX H100 8-GPU AI超算服务器配置

1、NVIDIA的HGX和DGX是两款针对不同计算需求设计的平台,HGX是一个模块化的计算平台,通过NVLink和NVSwitch将GPU连接起来,提供灵活的AI运算能力,特别适合需要可扩展性和高性能计算的研究人员和开发者,如云数据中心和大规模AI研发,其成本根据添加的GPU数量而变化,用户可以根据具体需求进行定制。

2、从P100/V100时代开始,NVIDIA的8-GPU基板设计经历了从PCIe交换机到预集成NVLink Switch的转变,早期的NVLink Switch安装过程复杂且成本高,而HGX-2主板的出现则极大地简化了这一过程,到了A100时代,NVLink Switch的规模进一步扩大,预组装设计让供应商更易于使用。

3、HGX平台的出现是对定制化需求的响应,它允许服务器供应商根据项目需求自由调整GPU配置,无论是面对密集型工作负载还是异构架构,HGX都能提供极高的灵活性,HGX H100为OEM厂商提供了广阔的设计空间,让他们能够定制CPU、ARM架构,甚至是网络接口控制器(NIC),以适应多样化的应用场景。

4、借助创新的GPU技术,训练8万亿参数模型的资源需求大幅降低,性能显著提升,功耗减少了73%,英伟达推出了HGX B200服务器主板,配备8个B200 GPU,每个GPU可配置高达1000W的功率,提供高达18 petaflops的FP4吞吐量。

5、在H200芯片的基础上,英伟达还发布了一系列基于该芯片的集群产品,包括HGX H200平台和Quad GH200超算节点,HGX H200平台将8块H200 GPU搭载到HGX载板上,总显存容量达到1TB,8位浮点运算速度超过32P(10^15) FLOPS,与H100的数据保持一致。

6、HGX平台支持最多256个GPU的链接,适用于32个8路GPU节点,提供高达74TB/s的带宽,NVIDIA HGX升级到H100,与新版HGX主板组成的生态系统,提供了完整的连接和安装环境,确保了NVIDIA在市场上的主导地位,预计今年第三季度,配备H100的系统,包括DGX和DGX SuperPod服务器,将由NVIDIA和OEM合作伙伴推出,价格将在DGX系统正式发布时公布。

揭秘NVIDIA Hopper架构和H100 GPU

1、自2020年发布基于Ampere架构的A100以来,NVIDIA在2022年推出了基于Hopper架构的H100,到了2023年,NVIDIA又推出了L40S,NVIDIA已发布的GPU型号包括A10、H10、L40S,以及即将发布的H200,这些产品都在市场上备受追捧,预计H200在GPU用例上的表现将超越前代产品。

2、H100采用NVIDIA Hopper架构,拥有800亿个晶体管,为数据中心加速计算带来了突破性的性能,通过TSMC 4N工艺的定制优化和多项架构改进,H100提供了卓越的加速体验,相较于A100,H100在性能上实现了数量级的提升,专为大规模AI和高性能计算进行了优化,A800与H800在性能方面各有侧重。

3、H100 GPU是基于全新Hopper架构的下一代GPU,它采用了台积电的4纳米工艺,拥有超过800亿个晶体管,H100的内存系统采用了世界上首个HBM3实现,并具有50MB的二级缓存,这款GPU包括5个HBM3站点,总内存容量达到80GB,内存带宽超过3TB/s,是上一代A100 GPU吞吐量的两倍。

4、作为最新一代的Hopper架构,如H100,提供了更为强大的规格,包括144组CUDA核心、576个Tensor Core以及800亿个晶体管,显存带宽和功率消耗也相应增加,每一代GPU的更新,不仅体现在SM数量和内部单元的改进,还有硬件优化如NVLink、TF32和多实例GPU等新技术的应用,以适应不断增长的计算需求和性能提升。