數(shù)據(jù)中心資源池
數(shù)據(jù)中心資源池解決方案是一種將數(shù)據(jù)中心的物理資源(如服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò))進(jìn)行虛擬化和統(tǒng)一管理的技術(shù)方案,它可以實(shí)現(xiàn)資源的動(dòng)態(tài)分配和優(yōu)化,提高資源的利用率和效率,降低資源的成本和風(fēng)險(xiǎn)。
背景
某計(jì)算中心是國家重點(diǎn)研發(fā)計(jì)劃的重要組成部分,中心需要建設(shè)一個(gè)CPU與GPU混合算力集群平臺(tái),以支持中心的研究項(xiàng)目和應(yīng)用需求,提高中心的計(jì)算能力和效率。
需求分析
01.
構(gòu)建卓越集群平臺(tái)
集群平臺(tái)應(yīng)具備高性能、高可靠、高可擴(kuò)展、高安全的特點(diǎn),能夠滿足中心的各類計(jì)算任務(wù)的需求,包括高性能計(jì)算、大數(shù)據(jù)分析、深度學(xué)習(xí)、圖像處理等。 展開
02.
混合架構(gòu)卓越表現(xiàn)
集群平臺(tái)應(yīng)采用CPU與GPU混合的架構(gòu),利用CPU的通用性和GPU的并行性,實(shí)現(xiàn)高效的計(jì)算加速。集群平臺(tái)應(yīng)支持多種類型的GPU,包括英偉達(dá)、寒武紀(jì)等,以適應(yīng)不同的計(jì)算場(chǎng)景和需求 展開
03.
卓越通信架構(gòu)
集群平臺(tái)應(yīng)具備良好的網(wǎng)絡(luò)通信能力,采用高速、低延遲、高帶寬的網(wǎng)絡(luò)設(shè)備,實(shí)現(xiàn)節(jié)點(diǎn)間的高效數(shù)據(jù)傳輸和協(xié)同計(jì)算
04.
全面運(yùn)維解決方案
集群平臺(tái)應(yīng)具備完善的管理和監(jiān)控功能,采用統(tǒng)一的管理軟件,實(shí)現(xiàn)集群的配置、調(diào)度、監(jiān)控、故障處理等功能,提高集群的運(yùn)維效率和可用性 展開
05.
云端多租戶管理
集群平臺(tái)云管理功能,支持多租戶管理,并能夠納管裸金屬服務(wù)器
方案描述

服務(wù)器
- 采用H3C R4900G5作為通用服務(wù)器、高性能服務(wù)器和國外GPU x86服務(wù)器載體,搭配不同性能的CPU來提供相應(yīng)的計(jì)算性能。采用飛騰服務(wù)器作為信創(chuàng)服務(wù)器及國產(chǎn)GPU載體。國外顯卡部署在2臺(tái)通用GPUx86服務(wù)器上,而2塊國產(chǎn)顯卡部署在飛騰服務(wù)器上 展開

網(wǎng)絡(luò)
- 采用2臺(tái)H3C全萬兆交換機(jī)作為業(yè)務(wù)交換機(jī)來上聯(lián)服務(wù)器與核心交換機(jī),傳輸業(yè)務(wù)數(shù)據(jù)。采用2臺(tái)H3C全萬兆交換機(jī)作為存儲(chǔ)交換機(jī)來下聯(lián)服務(wù)器、超融合數(shù)據(jù)復(fù)制,來傳輸虛擬化平臺(tái)基礎(chǔ)數(shù)據(jù)。采用1臺(tái)H3C作為帶外管理交換機(jī)來遠(yuǎn)程管理本項(xiàng)目所有硬件設(shè)備 展開

虛擬化
- 在所有服務(wù)器上部署H3C的超融合平臺(tái),對(duì)計(jì)算及GPU資源進(jìn)行池化資源管理

云管理平臺(tái)
- 在虛擬化平臺(tái)上部署H3C云平臺(tái)軟件,對(duì)所有服務(wù)器進(jìn)行云數(shù)據(jù)中心管理
方案優(yōu)勢(shì)
超融合管理平臺(tái)基于多角色集群引擎打破了物理資源壁壘,以其自適應(yīng)架構(gòu),不僅可以統(tǒng)一管理X86資源池和ARM資源池,還可以同時(shí)管理純虛擬化節(jié)點(diǎn)、純分布式存儲(chǔ)節(jié)點(diǎn)、超融合節(jié)點(diǎn)、AI加速節(jié)點(diǎn)、裸金屬節(jié)點(diǎn)等。
兼容不同芯片、不同款型、不同配置、不同能力的物理節(jié)點(diǎn)。
實(shí)現(xiàn)了硬件資源高度集約的同時(shí),保證了集群操作的一致性,實(shí)現(xiàn)了異構(gòu)式的硬件資源池,大大豐富了應(yīng)用場(chǎng)景。
客戶收益