成都銘萌科技有限公司
電(diàn)話(huà):028-65065822
郵箱:cdhaiqing@163.com
聯系人(rén):袁女士
地址:成都市高(gāo)新區(qū)天府三街(jiē)69号
高(gāo)性能異構分布式計(jì)算(suàn)平台MDPP
1. 背景
為(wèi)了順應以“大(dà)數(shù)據、人(rén)工智能”為(wèi)代表的第四次工業革命潮流,智能化的裝備是必然的趨勢,裝備必須具有(yǒu)高(gāo)效能的特點。所以具備高(gāo)效能的裝備系統必然是異構硬件平台,目前比較成熟的就是CPU+GPU,CPU+DSP+GPU等,為(wèi)了最大(dà)充分利用異構硬件平台的資源,不僅需要對這些(xiē)異構集群資源進行(xíng)整體(tǐ)管理(lǐ)(統一分配和(hé)調度),還(hái)需要對業務系統的計(jì)算(suàn)任務提供統一任務調度和(hé)分配。
為(wèi)了落實《十三五國家(jiā)科技(jì)創新規劃》對異構計(jì)算(suàn)和(hé)智能計(jì)算(suàn)的推廣應用,加快裝備智能化;為(wèi)了支持國産處理(lǐ)芯片和(hé)操作(zuò)系統,實現自主可(kě)控。海擎科技(jì)特地開(kāi)發了一款“海量數(shù)據高(gāo)性能異構計(jì)算(suàn)平台(MDPP)”對異構硬件和(hé)各種業務系統的支持,具有(yǒu)一定的通(tōng)用性和(hé)可(kě)裝備性特點。
2. 設備簡介
MDPP主要目的是把海量數(shù)據處理(lǐ)的任務通(tōng)過MDPP的并行(xíng)引擎切分成小(xiǎo)任務,再把這些(xiē)小(xiǎo)任務自動調度到各種處理(lǐ)器(qì)組成的異構硬件中,實現多(duō)計(jì)算(suàn)機、多(duō)處理(lǐ)器(qì)、多(duō)核集群并行(xíng)協同處理(lǐ);MDPP還(hái)提供二次開(kāi)發接口和(hé)通(tōng)用算(suàn)法庫,特别是自定義算(suàn)法開(kāi)發組件,降低(dī)海量數(shù)據處理(lǐ)系統的開(kāi)發難度,為(wèi)應用開(kāi)發人(rén)員搭建高(gāo)性能與易用性之間(jiān)的橋梁。
MDPP是将以千兆/萬兆網絡、PCIE高(gāo)速總線互聯的CPU、GPU計(jì)算(suàn)設備形成統一的計(jì)算(suàn)資源池,實現多(duō)機(計(jì)算(suàn)機)、多(duō)卡(CPU/GPU/DSP/……卡)、多(duō)核(CPU/GPU/DSP/PowerPC/FPGA/MIC/ARM的多(duō)個(gè)計(jì)算(suàn)核)并行(xíng)處理(lǐ)的統一資源調度、任務調度、任務分配、數(shù)據管理(lǐ)和(hé)負載均衡,實現海量數(shù)據的快速分析處理(lǐ)。
3. 引進的必要性
随着芯片技(jì)術(shù)多(duō)樣化的發展,高(gāo)性能的處理(lǐ)器(qì)種類越來(lái)越多(duō),包括X86 CPU、GPU、DSP、PowerPC、FPGA、MIC、ARM等。這些(xiē)處理(lǐ)器(qì)各有(yǒu)優缺點,适合不同的應用場(chǎng)景或業務算(suàn)法。CPU邏輯單元多(duō)、計(jì)算(suàn)單元少(shǎo),适合處理(lǐ)IO、邏輯複雜的算(suàn)法和(hé)主控; GPU核數(shù)很(hěn)多(duō)、單核性能弱,适合處理(lǐ)并行(xíng)粒度小(xiǎo)、并行(xíng)規模大(dà)、規整的數(shù)值運算(suàn);DSP專門(mén)對數(shù)字信号處理(lǐ)進行(xíng)了優化,适合處理(lǐ)信号處理(lǐ)等數(shù)值計(jì)算(suàn);FPGA功耗低(dī)、穩定性和(hé)可(kě)靠性高(gāo),适合低(dī)功耗情況下的數(shù)值運算(suàn)。GPU由于發展迅速、生(shēng)态完善、性價比高(gāo),在數(shù)據處理(lǐ)和(hé)高(gāo)性能計(jì)算(suàn)中主要采用CPU+GPU+DSP的異構并行(xíng)處理(lǐ)作(zuò)為(wèi)計(jì)算(suàn)資源。
4. 設備的主要功能
MDPP邏輯框圖如圖1 所示,共包括硬件層、并行(xíng)處理(lǐ)框架層、并行(xíng)算(suàn)法層、管理(lǐ)客戶端和(hé)應用程序五大(dà)部分。
圖1 台MDPP邏輯層次結構圖
4.1. 概要
a) 硬件層
硬件層由萬兆網、千兆網連接的多(duō)台GPU/DSP/CPU服務器(qì)集群組成。每台服務器(qì)中的PCIE槽上(shàng),也可(kě)以混合插入GPU/DSP/CPU卡。
b) 資源管理(lǐ)層
資源管理(lǐ)層最核心的功能就是将整個(gè)異構硬件(CPU/DSP/GPU)作(zuò)為(wèi)整體(tǐ)的計(jì)算(suàn)資源池進行(xíng)統一的管理(lǐ),實現監控、分配、調度。
c) 并行(xíng)處理(lǐ)框架層
并行(xíng)處理(lǐ)框架層對業務系統中的任務進行(xíng)靈活的分發和(hé)調度,實現多(duō)個(gè)服務器(qì)、服務器(qì)內(nèi)多(duō)個(gè)CPU、GPU、DSP處理(lǐ)器(qì)、處理(lǐ)器(qì)內(nèi)多(duō)核之間(jiān)三個(gè)層次的并行(xíng)處理(lǐ)資源調度、任務調度、負載均衡、容錯處理(lǐ)等事務,自動實現任務之間(jiān)的數(shù)據流動,形成任務流,處理(lǐ)複雜的業務邏輯。
d) 并行(xíng)算(suàn)法層
并行(xíng)算(suàn)法層提供常用算(suàn)法、算(suàn)法管理(lǐ)、自定義算(suàn)法框架。針對異構硬件,實現具體(tǐ)硬件的優化算(suàn)法代碼,提供統一的API接口供上(shàng)層應用程序調用。可(kě)以提供的并行(xíng)算(suàn)法有(yǒu):
1)數(shù)字信号處理(lǐ)算(suàn)法支持FFT、濾波等數(shù)字信号處理(lǐ)并行(xíng)算(suàn)法。
2)矩陣運算(suàn)支持矩陣的加、減、乘、轉置、求逆、求模等運算(suàn)。
3)數(shù)據挖掘算(suàn)法提供分類(SVM、LR、NBC)、聚類(K-means、Canopy、FCM)、關聯(FP-G)、推薦(UserCF、ItemCF)、降維(PCA)共10個(gè)常用數(shù)據挖掘算(suàn)法的分布式并行(xíng)算(suàn)法。
e) 管理(lǐ)客戶端
管理(lǐ)客戶端通(tōng)過API接口和(hé)可(kě)視(shì)化界面提供平台資源管理(lǐ)、資源狀态(CPU/DSP/GPU)監控、任務管理(lǐ)、任務狀态監控等功能。
f) 應用程序
應用程序在并行(xíng)處理(lǐ)框架動态庫基礎上(shàng)開(kāi)發,實現具體(tǐ)的業務算(suàn)法和(hé)業務邏輯。應用程序分為(wèi)業務主流程和(hé)并行(xíng)算(suàn)法兩部分,業務主流程在CPU上(shàng)執行(xíng),并行(xíng)處理(lǐ)框架自動将并行(xíng)算(suàn)法打包上(shàng)傳到各計(jì)算(suàn)節點,由并行(xíng)處理(lǐ)框架在各計(jì)算(suàn)資源(CPU、GPU、DSP)上(shàng)調用。
4.2. 特點
a)可(kě)裝備:移動性、小(xiǎo)型化、高(gāo)效能滿足體(tǐ)積小(xiǎo)、功耗低(dī),高(gāo)性能的移動平台(硬件是混合異構)。MDPP采用軟件異構架構,比較适合智能化裝備對高(gāo)性能異構處理(lǐ)的要求,還(hái)采用失效探測來(lái)保障計(jì)算(suàn)的可(kě)靠性。
b)彈性:按需分配、即插即用、動态擴展支持計(jì)算(suàn)力資源統一分配和(hé)調度,保證優先級高(gāo)的業務。也可(kě)根據業務的實際需要來(lái)動态擴展。
c)協同:互聯互通(tōng),提供計(jì)算(suàn)力、任務的集群協同可(kě)融入到現有(yǒu)大(dà)數(shù)據平台中,可(kě)以與智能終端交互,達到更智能化和(hé)集群化。
d)靈活:任務、資源調度靈活任務調度也是統一進行(xíng),但(dàn)是也可(kě)以根據實際情況傳入一些(xiē)參數(shù)進行(xíng)靈活的任務調度和(hé)計(jì)算(suàn)資源調度策略,支持任務流的自由流向。
e)便捷:易編程、易移植、簡化部署,縮短(duǎn)研發周期。計(jì)算(suàn)平台支持自定義算(suàn)法框架和(hé)支持MapReduce編程模型,大(dà)大(dà)縮短(duǎn)研發周期。
f)通(tōng)用性:通(tōng)用架構設計(jì),可(kě)重構和(hé)擴展性。屏蔽了硬件底層的差異性,提供通(tōng)用性計(jì)算(suàn)力支持。
5. 咨詢
-
Ø 聯系人(rén):劉先生(shēng)
Ø 聯系電(diàn)話(huà):13708190139
Ø 聯系郵箱: liuli@cdhaiqing.com