日前,媒體報道由華為1300萬億次高性能計算平臺在沈陽落地,在航空工業氣動院(以下簡稱“氣動院”)投入使用。群里有網友對這個話題討論,其實,用華為ARM處理器搭同構超算并不太合適,鐵流在這里對持“厲害體”觀點的網友潑一盆冷水。
華為鯤鵬920處理器浮點性能較弱
雖然部分網友看到“1300萬億次”的數字很沸騰,但從性能來看,這臺超算性能并不強,神威太湖之光的性能為120+P,而1300萬億次是1.3P,相當于神威超算的百分之一左右,在全球TOP500超算中能夠排到300位左右。
就華為鯤鵬920來說,其實并不適合用來當超算芯片。媒體報道,“在SPECint基準測試中,鯤鵬920得分超過930分,比行業基準高出近25%,同時功耗降低30%”,報道中的意思是鯤鵬920性能強悍所以用來建超算。但實際上,SPECint基準測試測的是定點性能,而超算看重的是雙精度浮點性能。而浮點性能恰恰是鯤鵬920的弱項。
而就浮點性能來說,恰恰是鯤鵬920的弱項。根據上海X大PPT,鯤鵬920 TDP 150W,雙精度浮點算力384Gflops(@2.6G)。
申威超算芯片在性能功耗比和絕對性能上優勢明顯
根據成都申威官網數據,申威1621主頻2GHz時的雙精度浮點性能可高達512GFlops,TDP 150W。
如果拿SW26010作為比較差距就更大,SW26010的雙精度浮點性能為3TFlops,功耗為200W。
只有用神威藍光超算(2011年)的申威1600做對比,鯤鵬920才能找到少許安慰——申威1600,16核,制程65nm,1.1G主頻,功耗50至60W,雙精浮點140GFlops。
必須說明的是鯤鵬920是7nm工藝,而SW1621和SW26010是28nm工藝,而SW1600是65nm工藝,鯤鵬920在采用7nm工藝的情況下,雙精度浮點算力的性能功耗比還不如SW的28nm芯片。在絕對峰值性能上,與上一代SW20610差距非常明顯。與用在神威E級原型機上的申威超算芯片差距就更大了。
目前的ARM服務器CPU屬于劍走偏鋒
一位實測了鯤鵬920機器的朋友評價:
鯤鵬920浮點本來就不行,cpu2006就低很多,向量就更差了,才128bit,自然不能跟256/512bit的比,浮點,intel無疑強很多,arm的等sve普及吧,現在不行。但是SPECint_rate鯤鵬920就是最強arm沒問題啊。
目前,國內的ARM服務器CPU都屬于劍走偏鋒的產物,比如在單核性能和英特爾有差距的情況下,堆64核心,獲得較高的SPECint_rate成績,通過64核戰英特爾14/28核的方式,在PPT上吊打英特爾。
即便是ARM廠商經常掛在嘴邊的低功耗,也是有投機取巧的成分。在CISC和RISC已經殊途同歸的情況下,指令集對CPU功耗的影響已經微乎其微,CPU設計水平和制造工藝才是影響功耗的最關鍵因素。因而一些ARM廠商玩“ARM=低功耗”的說辭是值得商榷的。
何況鯤鵬920的浮點性能是比較弱的,而英特爾的浮點性能比較強,以鯤鵬920這種“閹割”了浮點性能的CPU,與英特爾“大而全”的CPU比功耗,同時在性能上只比定點性能,不比浮點性能,而且鯤鵬920是臺積電7nm工藝,英特爾則是14nm工藝,通過這種方式在PPT上獲得對英特爾的功耗優勢,這種對比方式有一些投機取巧了。
就商業上來說,從性能、功耗、生態、價格等因素綜合考慮,英特爾是吊打全球各家的ARM服務器CPU。有用戶單位在少量試用ARM服務器后就抱怨單核性能不行,白花冤枉錢。某種程度上,國內的64核ARM服務器是急功近利、劍走偏鋒的產物。應當先把單核定點和浮點性能都提升上去再去做多核。
新聞里潛藏的亮點是氣動院開發或移植應用
近年來,中國超算性能突飛猛進,但在應用方面也取得了長足進步,屢次斬獲戈登貝爾獎,但依然和國外有一定差距。而ARM超算還屬于新鮮事物,因而整套流體力學的軟件很有可能是氣動院自己開發或移植的,這是不少網友忽略的一個亮點。
可以說,氣動院開發一套流體力學軟件在神威超算上跑也沒問題,用飛騰2000系列CPU組一個同構超算跑這套應用也沒問題。之所以用華為的鯤鵬處理器,估計和最近華為在輿論上封神,獲得了很多國家資源傾斜和扶持有關。當然,估計也和ARM服務器CPU在商業上被英特爾吊打,因而華為竭力想推一些應用案例有關系,即便鯤鵬920并不適合用在同構超算上,反正先推出去再說。
鯤鵬920的強項是SPECint_rate成績較好,以及集成的I/O功能和網卡很強,華為應該把應用的方向聚焦在對單核性能要求不太高,且對定點比較看重的應用。用來搭建同構超算非其所長,由于雙精度浮點性能有限,用來做超算堪稱事倍功半。
「 支持烏有之鄉!」
您的打賞將用于網站日常運行與維護。
幫助我們辦好網站,宣傳紅色文化!
歡迎掃描下方二維碼,訂閱烏有之鄉網刊微信公眾號
