360用的是什么服务器智算中心揭秘自研GPU集群架构解析
? 企业搭建AI算力平台时,常陷入 “盲目堆硬件” 或 “性能与成本难平衡” 的困局。360作为安全与AI领域的巨头,其服务器选型逻辑直击行业痛点——既要国产化可控,又要支撑万亿级大模型训练。今天我们就拆解360智算中心的硬核配置,看看他们如何用 “软硬协同” 破局算力焦虑!
? 一、配置揭秘:万卡GPU集群的硬核架构
360智算中心的服务器绝非普通商用机型,而是为千亿参数大模型量身定制的 “超级神经中枢” 。其核心架构包含三大创新设计:
异构计算融合:单节点搭载 8块NVIDIA A100/H800 GPU,通过 4张IB网卡 实现超低延迟互联,比传统以太网传输效率提升3倍。
分层存储设计:
高频数据:NVMe SSD(读写速度7GB/s)
中频数据:SAS RAID 5阵列(兼顾容量与安全)
低频数据:分布式冷存储(成本降低60%)
安全加固底板:采用 HPE DL360 Gen10服务器 为基座,利用其 “可信硅根”技术 防止固件篡改,为AI训练提供硬件级防护。
? 为何选择H800而非国产芯片?
当前国产GPU在浮点运算精度(FP64)上仍落后国际旗舰约40%,而大模型训练需持续数周,稳定性与算力密度是360的核心考量。
⚙️ 二、算力调度:Kubernetes集群的智能革命
光有硬件不够,360通过 “动态算力网” 让5000张GPU卡高效协同:
Volcano调度引擎:实现 BinPack+Gang调度,避免GPU碎片化(资源利用率达92%)。

业务弹性伸缩:日级别重分配算力,高峰时段自动扩容200+节点,闲时自动休眠省电30%。
拓扑感知策略:将关联任务调度至同一IB网段,减少跨节点通信延迟(训练速度提升17%)。
? 三、绿色实践:数据中心的低碳密码
面对万卡集群的能耗挑战,360交出 “废热变资源” 的答卷:
自然冷源梯级利用:郑州数据中心冬季用 -5℃冷空气直接散热,比压缩机降温省电50%。
余热回收供暖:机房废热转化后为办公区供暖,年减少碳排放800吨。
液冷技术试点:GPU节点浸泡式散热,功耗降低45%(长沙研发中心已部署)。
? 四、应用场景:从安全大模型到城市AI
360服务器的设计始终围绕 “业务驱动” 原则:
场景 | 服务器类型 | 核心技术价值 |
|---|---|---|
安全大模型训练 | 自研GPU集群 | 千亿参数/天训练,威胁检测响应速度提升90% |
智慧城市云服务 | 亚马逊混合云 | 公共云弹性扩展+专有云数据隔离 |
视频AI处理 | 360 TSS2200视频服务器 | 支持8TB存储+16路音频实时编解码 |
? 独家见解:国产化替代的“三段论”
根据360的服务器演进路径,我总结出国产替代的务实策略:
短期靠“混合架构”:关键任务用国际芯片(如H800)+ 辅助系统换国产(如昇腾910B)。
中期拼“软件优化”:通过Volcano调度、数据分层存储弥补硬件差距。
长期赌“生态突围”:联合中科大等机构攻关存算一体芯片(长沙研发中心已启动)。
行业警示:盲目追求100%国产化可能牺牲AI创新速度,360的 “可控性>纯粹国产” 策略更值得借鉴。