360用的是什么服务器智算中心揭秘自研GPU集群架构解析

? 企业搭建AI算力平台时,常陷入 ​​“盲目堆硬件”​​ 或 ​​“性能与成本难平衡”​​ 的困局。360作为安全与AI领域的巨头,其服务器选型逻辑直击行业痛点——​​既要国产化可控,又要支撑万亿级大模型训练​​。今天我们就拆解360智算中心的硬核配置,看看他们如何用 ​​“软硬协同”​​ 破局算力焦虑!


? 一、配置揭秘:万卡GPU集群的硬核架构

360智算中心的服务器绝非普通商用机型,而是为千亿参数大模型量身定制的 ​​“超级神经中枢”​​ 。其核心架构包含三大创新设计:

  1. ​异构计算融合​​:单节点搭载 ​​8块NVIDIA A100/H800 GPU​​,通过 ​​4张IB网卡​​ 实现超低延迟互联,比传统以太网传输效率提升3倍。

  2. ​分层存储设计​​:

    • 高频数据:NVMe SSD(读写速度7GB/s)

    • 中频数据:SAS RAID 5阵列(兼顾容量与安全)

    • 低频数据:分布式冷存储(成本降低60%)

  3. ​安全加固底板​​:采用 ​​HPE DL360 Gen10服务器​​ 为基座,利用其 ​​“可信硅根”技术​​ 防止固件篡改,为AI训练提供硬件级防护。

? 为何选择H800而非国产芯片?

当前国产GPU在浮点运算精度(FP64)上仍落后国际旗舰约40%,而大模型训练需持续数周,​​稳定性与算力密度​​是360的核心考量。


⚙️ 二、算力调度:Kubernetes集群的智能革命

光有硬件不够,360通过 ​​“动态算力网”​​ 让5000张GPU卡高效协同:

  • ​Volcano调度引擎​​:实现 ​​BinPack+Gang调度​​,避免GPU碎片化(资源利用率达92%)。

    360用的是什么服务器智算中心揭秘自研GPU集群架构解析  第1张

  • ​业务弹性伸缩​​:日级别重分配算力,高峰时段自动扩容200+节点,闲时自动休眠省电30%。

  • ​拓扑感知策略​​:将关联任务调度至同一IB网段,减少跨节点通信延迟(训练速度提升17%)。


? 三、绿色实践:数据中心的低碳密码

面对万卡集群的能耗挑战,360交出 ​​“废热变资源”​​ 的答卷:

  1. ​自然冷源梯级利用​​:郑州数据中心冬季用 ​​-5℃冷空气直接散热​​,比压缩机降温省电50%。

  2. ​余热回收供暖​​:机房废热转化后为办公区供暖,年减少碳排放800吨。

  3. ​液冷技术试点​​:GPU节点浸泡式散热,功耗降低45%(长沙研发中心已部署)。


? 四、应用场景:从安全大模型到城市AI

360服务器的设计始终围绕 ​​“业务驱动”​​ 原则:

​场景​

​服务器类型​

​核心技术价值​

安全大模型训练

自研GPU集群

千亿参数/天训练,威胁检测响应速度提升90%

智慧城市云服务

亚马逊混合云

公共云弹性扩展+专有云数据隔离

视频AI处理

360 TSS2200视频服务器

支持8TB存储+16路音频实时编解码


? 独家见解:国产化替代的“三段论”

根据360的服务器演进路径,我总结出国产替代的务实策略:

​短期靠“混合架构”​​:关键任务用国际芯片(如H800)+ 辅助系统换国产(如昇腾910B)。

​中期拼“软件优化”​​:通过Volcano调度、数据分层存储弥补硬件差距。

​长期赌“生态突围”​​:联合中科大等机构攻关存算一体芯片(长沙研发中心已启动)。

​行业警示​​:盲目追求100%国产化可能牺牲AI创新速度,360的 ​​“可控性>纯粹国产”​​ 策略更值得借鉴。