方案需求
某用戶希望構建高性能計算系統,提高系統設計和分析的能力,希望在技術改造中購置運行穩定、技術先進、性能優異,易于擴充和管理的高性能計算環境來滿足氣動力計算、結構分析及系統仿真等應用的需要。要求系統的建立要滿足:
2 先進性:選擇代表業界先進水平和全球主流趨勢的軟硬件平臺產品,使之不僅能夠滿足高性能計算中心目前業務的需要,還能適應未來技術發展的趨勢和需要。
2 靈活性:根據用戶對解決大問題和同時運行多個中小型任務的綜合需求,優化系統資源配置比例,實現最大的應用靈活性。
2 可擴展性:在設計上充分考慮到可擴展性需求,提供具有最高可伸縮性的系統,并保護用戶現有的投資。
2 穩定性:整體系統確保穩定、高效、連續地運營,能夠支持全天24 小時的連續運行需求。
2 開放性:系統方案采用開放標準,開放結構,開放系統組件和開放用戶接口。充分滿足用戶投資保護和業務擴展、系統維護等方面的需求。
2 高管理性:建立統一高效的資源管理系統,對所有計算機系統資源進行統一監控與管理,以集中統一的管理方式,高效率、反應靈敏的技術服務機制,標準化、自動化的管理流程達到提供優質的資源管理服務,更好的為中心的業務發展服務。
? 方案架構
系統方案中由節點系統,網絡系統,存儲系統,相關管理軟件構成,如圖1-1所示。
圖 1-1
本次方案采用Intel 6核的芯片,共配置1204個System x主頻為2.93GHZ的雙路刀片服務器HS22為計算節點,其峰值處理能力為每秒169.33萬億次(169.33TFlops,瘦節點集群)。包括:
? 計算節點:刀片服務器1024臺,內置40Gb InfiniBand QDR HCA 卡(雙口)網卡;
? 刀片中心:BCH刀片中心 86個,內置以太網交換模塊和InfiniBand交換模塊
? 管理節點1:3臺服務器用于用戶認證,作業調度和集群部署,每服務器內置4個千兆以太網口
? 管理節點2:2臺服務器用于WEB服務器和圖形顯示服務器,每服務器8個千兆以太網口
? 管理節點3:2臺服務器用于狀態運行分析,內置2個千兆以太網口
? 存儲文件服務器:6臺服務器內置2個40Gb InfiniBand QDR HCA 卡(雙口)網卡,用于安裝Lustre 文件系統,2臺MDS服務器,4臺OSS服務器.
? 核心InfiniBand交換機:2臺648端口Mellanox QDR InfiniBand交換機,用于連接節點集群服務器和I/O節點服務器。
? 千兆以太網交換機:千兆網絡交換機, 3臺3750堆疊,提供144個千兆端口用于硬件管理網, 1臺 4510交換機配置384個千兆端口用于軟件分發網和數據管理網。
本方案中, 本系統配置3個網絡,包括:
? 計算網絡:InfiniBand網絡交換系統,配置2臺648口InfiniBand交換機,連接計算網絡,主要功能為計算節點和數據傳輸。
? 管理網絡:千兆以太網交換機,連接了管理節點服務器,負責整個高性能計算網絡的管理功能,包括設備管理與監控、用戶登錄、I/O節點顯示,用戶認證,作業調度,圖形顯示,狀態分析等。
? 數據存儲網絡: 通過2臺MDS和4臺OSS文件服務器,與DDN存儲的2個控制器通過IB接口進行連接,真正實現從前端計算到后端存儲的全交換與全高速網絡。
對所有計算節點和I/O節點提供4X QDR InfiniBand 高速互聯。 管理網絡均采用千兆以太網絡連接。數據存儲網絡也是通過4X QDR InfiniBand,對Lustre文件服務器與盤陣進行高速互聯。
HPC高性能計算服務器集群系統是高性能計算和高可用技術有機結合的性能強大、高可用的集群系統。而目前高性能計算面臨的主要挑戰仍然是更強的計算和分析海量數據的能力,當集群進行每秒萬億次計算時,HPC集群系統對存儲系統性能和擴展性上提出了更高的要求,因此,基于快速IB架構訪問的存儲也成為目前國內外的高性能集群系統首要的選擇。
本次方案存儲系統配置DDN SFA 10000系統10K7K-40IB-5,包括8個QDR InfiniBand端口,帶有5個4U盤柜,每個盤柜配有60個磁盤,300個SATA盤,總容量為600T。
本方案的特點是:采用多線程存儲處理架構,具有平衡的存儲性能,讀寫可達到12GB/s;易于擴展,一個標準機架可達1.8PB的存儲容量;采用智能平行寫入技術,達到最優化的存儲帶寬效率;采用高密度、低能源消耗的設計,可節省成本高達50%。同時,支持SAS、SATA、SSD三種硬盤驅動器混插技術。b
采用的設備包括:
? 42 U 的標準機柜,用于安裝整個存儲系統和服務器
n 一對SFA10000 控制器(Controller0 和Controller1),每一個控制器帶有可遠程管理電源的PDU存儲系統的核心控制模塊,帶有16GB 的具有后備電源的鏡像緩存
n 5 個安裝60 塊盤的SS7000 系列的盤柜,每個SS7000 系列的盤柜配有2TB 的硬盤60 塊
n 8 個QDR(40Gb)的InfiniBand 對外接口 ,提供存儲和外部網絡的高速通道。
? 2 個MDS 服務器,MDS 負責向客戶端提供整個文件系統的元數據,管理整個文件系統的命名空間,維護整個文件系統的目錄結構、用戶權限,并負責維護文件系統的數據一致性。
? 4 個OSS 服務器,OSS 負載提供I/O 服務,接受并服務來自網絡的請求。負責實際數據的存儲,處理所有客戶端和物理存儲之間的交互。
本方案的管理軟件為北京石竹科技公司產品--集群管理系統CHManager(Carnation HPC Manager),它能對整個高性能計算與集群系統進行管理,能進一步提高計算效率,方便用戶管理,主要實現的功能包括:
? 系統方面
2 管理用戶權限
2 管理歷史數據
? 監測方面
2 網絡拓撲結構自動發現,網絡瓶頸實時顯示
2 記錄CPU、內存、磁盤等性能數據
2 監測溫度、風扇、電壓等環境參數。
? 管理方面
2 管理網絡配置
2 管理文件資源
2 節點的遠程開機、關機和重新啟動
2 管理作業
? 告警方面
2 支持告警事件、告警閾值自定義
2 實現告警等級劃分
2 擁有多種告警方式
? 報表方面
2 自定義報表內容
? 機制方面
2 負載均衡
2 故障轉移
集群管理軟件支持: