近日,騰訊云宣布,為了提升云上彈性分布式AI訓練能力,采用了NVIDIA Mellanox網絡事業部的 ConnectX-5 25G高性能網卡,通過RDMA技術賦能容器場景的分布式AI訓練算力,大幅提升騰訊云上AI分布式訓練性能,同時實現了AI訓練集群的大規模擴展。
EKS 是無服務器的 Kubernetes 服務,支持多種資源的高效彈性,包括基于 RDMA 網絡的GPU 容器,是周期性訓練任務運行的最佳容器托管平臺。介紹:https://cloud.tencent.com/product/eksTI-ONE 是為 AI 工程師打造的一站式機器學習服務平臺,為用戶提供從數據預處理、模型構建、模型訓練、模型評估到模型服務的全流程開發支持。支持多種的 CPU/GPU 資源以及RDMA 網絡,符合用戶對差異化算力的場景需求。 介紹:https://cloud.tencent.com/product/tiRDMA技術是一種可以在不同服務器的內存之間直接進行數據訪問的通信方式,通過服務器和服務器之間或服務器和存儲之間的直接內存訪問,可以Bypass操作系統內核,在數據傳輸過程中不需要CPU的參與,在提升性能的同時也消除了集群擴展時由于CPU性能不足而導致的擴展性問題。GPU Direct RDMA則實現了不同服務器之間GPU和GPU之間的內存之間通信,不需要將數據拷貝到CPU再傳給網絡,大大降低了GPU之間通信的延時和提升了通信的帶寬,目前已經成為了提升AI分布式訓練性能的關鍵技術。作為騰訊智能鈦機器學習平臺的關鍵技術之一,就是如何能實現AI的訓練和推理性能達到在云上和在本地操作同樣的性能,整個集群的線性可擴展性和系統資源調度的靈活性成為首要解決的問題。騰訊云研發團隊面對挑戰,從架構設計到產品開發都做了大量的技術調研和細致的設計規劃,分析和討論了市場上各種主流的計算和通信技術,選定了GPU Direct RDMA技術作為解決云上分布式訓練性能的主攻方向。在架構設計上,通過與網卡的Switchdev模式的整合,實現了在一張物理網卡上RDMA流量與VPC流量的并行傳輸,并且各自的帶寬可以隨需設定,實現了對于GPU資源的靈活應用、訓練和推理的資源一體化。在具體開發問題上,由于RDMA/GPU Direct RDMA與傳統的TCP和應用的接口API不一樣,要想充分利用RDMA的優勢,需要對應用做相應的修改。通過EKS團隊的技術攻關,不僅實現了將網卡RDMA設備和PCIE拓撲透傳到Kata Container, 還通過對網卡相關功能的深度優化,進一步提升了應用在Kata Container中的性能。從測試結果來看,騰訊云研發團隊通過將AI訓練框架(包括通用的TensorFlow和騰訊自己的訓練框架)的通信庫從TCP移植到GPU DirectRDMA,解決了騰訊云上AI集群訓練的擴展性問題,同時將應用性能提升了56%,在成本、功耗不變的情況下,大大提升了騰訊云智能鈦彈性AI集群的性價比,為騰訊自研業務上云提供了高性能的基礎架構保障。目前,除了騰訊云彈性容器服務和智能鈦機器學習平臺上用到了GPU DirectRDMA技術,騰訊其它產品線也逐步將RDMA技術和GPU Direct RDMA技術用在其它的應用中來幫助提升性能。“打造高性能分布式機器學習平臺是騰訊云的重要發展方向之一,TI-ONE和EKS作為承擔這個任務的核心產品,進行了大量的技術調研和軟件開發工作,通過將傳統的云數據中心內集群通信基于TCP的架構改到了采用RDMA和GPU Direct RDMA來通信,極大的提升了應用的性能,并將我們的AI分布式訓練系統擴展到了上千臺GPU服務器的規模,這在采用TCP通信的訓練集群上是根本無法達到的。非常感謝產品團隊的優異表現,讓我們實現了在騰訊云上彈性分布訓練和推理任務,優化了整體計算資源、提升了計算力,大大降低了總體運營成本?!?/span>
NVIDIA Mellanox網絡銷售與市場開拓副總裁Vadim Balahovski先生說到:“騰訊是我們非常重要的合作伙伴,RDMA和GPU Direct RDMA技術在分布式訓練中至關重要,非常高興能和騰訊一起合作,將NVIDIAMellanox網絡事業部的網絡和RDMA/GPU Direct RDMA技術成功應用在騰訊云的分布式訓練集群中,助力于騰訊自研業務上云。NVIDIAMellanox網絡事業部一直致力于為服務器、存儲和超融合架構提供高性能的智能端到端InfiniBand和以太網互連解決方案,通過我們的網絡計算技術,數據中心從以CPU為計算核心的傳統格局走向了以數據為核心,實現了CPU計算、網絡計算和GPU加速等的多維一體新型數據中心架構。我們期待與騰訊云的進一步合作,將更多的先進網絡技術應用到騰訊云上?!?/span>