日前,龍芯發(fā)布了用于服務(wù)器市場的的3D5000系列芯片,3D5000與3C5000屬于同一代CPU,是采用Chiplet技術(shù)把兩片3C5000芯片互聯(lián)和封裝在一起,進(jìn)而獲得一片32核CPU,這種方式也被稱為“膠水32核”。
就性能而言,龍芯3D5000的IPC接近AMD Zen2的水平,全芯片性能與同主頻下的32核AMD Zen2架構(gòu)CPU接近,就這個性能而言,對于大部分應(yīng)用已經(jīng)是夠用了。
在2023年,性能更強(qiáng)的龍芯6000系列CPU將要問世,龍芯在IPC上與英特爾、AMD的差距將會進(jìn)一步縮小,真正阻礙龍芯在市場上推廣的要素將不再是CPU性能,而是軟件生態(tài)。
01
龍芯5000系列是自主CPU里程碑
2019年,龍芯3A4000四核處理器亮相。龍芯3A4000是繼3A3000之后的新一代處理器。3A4000既升級了新內(nèi)核GS464V,IPC大幅提升;又通過在原有28nm工藝上深入磨合優(yōu)化,改進(jìn)電路和物理設(shè)計(jì)方法,在制造工藝與3A3000相同的情況下,將性能提升了一倍。就3A4000 的IPC而言,已經(jīng)從3A3000的7/G達(dá)到了9.8/G,AMD的Zen大致也就在10/G水平,龍芯3A4000的GS464V是一款可以與第一代Zen匹敵的內(nèi)核。
3A5000是的內(nèi)核是基于GS464V進(jìn)行小改,IPC為10.6/G,采用12nm工藝,主頻為2.2G至2.5G,后期流片的有2.7G主頻版本,SPEC06定點(diǎn)成績超過26(GCC,@2.5Ghz),這對于自主CPU而言已經(jīng)是非常不錯了,即便和引進(jìn)的CPU相比,其定點(diǎn)和浮點(diǎn)性能僅次于海光,超過其他引進(jìn)的X86和ARM CPU。
龍芯3A5000與龍芯3C5000、3D5000屬于同一代CPU,3C5000采用LoongArch指令集,16核心單芯片unixbench分值9500以上,雙精度計(jì)算能力達(dá)560GFlops,16核處理器峰值性能與典型ARM 64核處理器的峰值性能相當(dāng),并支持最高16路互連,搭配新一代龍芯7A2000橋片,PCIe吞吐帶寬比上一代提升400%以上。就SPEC2006測試來看,單核定點(diǎn)浮點(diǎn)Base分均大于10/G,單芯片分值超過200。可滿足通用計(jì)算、大型數(shù)據(jù)中心、云計(jì)算中心的計(jì)算需求。該處理器通過芯片級安全機(jī)制可為等保2.0、可信計(jì)算、國密算法替代、網(wǎng)絡(luò)安全漏洞防護(hù)等提供CPU級內(nèi)生支持。
3C5000最大特點(diǎn)是單核性能強(qiáng),特別是unixbench這種看重單核和內(nèi)存性能,多核加速比很低的測試,龍芯只用16核就能跑到9500,某ARM CPU即便有64核也跑不到這個成績。從公開的數(shù)據(jù)來看,3C5000的性能在信創(chuàng)市場足夠用了,而且16核的核心是使其部署比較靈活。
龍芯3D5000則是把兩個3C5000封裝到一起的膠水32核芯片,集成了64MB的L3 Cache,支持最多8個DDR4-3200 DRAM,可以通過HyperTransport接口構(gòu)建至多四路處理器,因此單機(jī)可以支持多達(dá)128核。在性能方面,龍芯3D5000單路和雙路服務(wù)器的SPEC CPU2006 Base實(shí)測可以超過400分和800分,預(yù)計(jì)四路服務(wù)器的分值可以達(dá)到1600分。可以說,龍芯3D5000主要針對一些對性能有更高要求的場景,只要軟件生態(tài)跟得上,完全可以替換掉英特爾至強(qiáng)CPU。
02
龍芯6000性能將再次飛躍
相對于一些技術(shù)引進(jìn)CPU在引進(jìn)海外技術(shù)后CPU IPC增長緩慢,性能提高基本依靠購買更好的EDA工具和買臺積電更好的工藝。龍芯一直致力于提升CPU微結(jié)構(gòu)設(shè)計(jì)水平來提升CPU的性能。沒有盲目去堆核心數(shù)量。這種穩(wěn)扎穩(wěn)打的做法使龍芯在過去10年中IPC提升了3-4倍,在桌面CPU上成效立竿見影。
CPU的IPC在過去10年中提升了3-4倍,這使龍芯可以在制造工藝上落后技術(shù)引進(jìn)的某ARM CPU一代的情況下,依然可以依靠CPU微結(jié)構(gòu)設(shè)計(jì)水平做到性能持平或略優(yōu)于技術(shù)引進(jìn)的某ARM CPU。當(dāng)龍芯與引進(jìn)的某ARM CPU采用相同工藝時,龍芯可以憑借其IPC上的優(yōu)勢在性能上領(lǐng)先某ARM CPU。
龍芯3A5000
3A6000和3A5000采用相同制造工藝,龍芯依靠其設(shè)計(jì)能力把CPU性能大幅提升,主要是拉大框架,比如把4發(fā)射改成6發(fā)射等等。從此前公布的仿真成績看,定點(diǎn)相對于3A5000提升30%,浮點(diǎn)相對于3A5000提升60%,這種提升是非常駭人的——如果仿真成績與最終成績相當(dāng),那么,3A6000 SPEC06單核定點(diǎn)Base分大于13/G,浮點(diǎn)Base分大于16/G,基本達(dá)到AMD Zen2水平。如果3A5000為2.5G至2.8G,那么,3A6000的 SPEC06單核定點(diǎn)Base分大于35,浮點(diǎn)將大于45。
從公開信息看,在使用相同工藝的情況下,3A6000性能比3A5000提升40%—60%,芯片面積縮小20%,12nm的3A6000對標(biāo)7nm的AMD Zen2。鐵流做最保守估算,3A6000 SPEC06單核定點(diǎn)Base分為32分(@2.5G)至35分(@2.8G)。這個性能對于信創(chuàng)和日常使用而言都已經(jīng)明顯過剩了。
必須說明的是,仿真往往是不準(zhǔn)確的,有的公司會高估,有的公司會低估,從龍芯這幾年發(fā)布的信息看,龍芯是偏保守的,實(shí)測成績只會比仿真成績好,以最近流片回來的2K2000來看,實(shí)測成績比龍芯仿真成績高了20%至30%,這大大超乎龍芯的預(yù)期。龍芯2k2000的LA364性能基本追平ARM A76,充分展示了自主路線的發(fā)展?jié)摿桶l(fā)展活力。
3C6000是16核服務(wù)器芯片,內(nèi)核是LA664,與3A6000相同。3D6000則是兩片3C6000封裝在一起構(gòu)成32核服務(wù)器CPU,可以匹敵搭載Zen2核心的AMD EPIC。只要軟件能跟上,商業(yè)市場已經(jīng)沒有性能短板了。
龍芯下一代7000系列CPU,進(jìn)一步提升CPU核性能,IPC瞄準(zhǔn)Zen3和12代酷睿,計(jì)劃采用7nm工藝,SPEC06定點(diǎn)Base最保守估算是40分,屆時,會有24-32核的3D7000(7nm) 和48-64核3E7000(兩片封裝)。
03
Chiplet有利有弊 不宜神化
有文章認(rèn)為:由于地緣政治的影響,中國的半導(dǎo)體行業(yè)受到了種種限制,尤其是開發(fā)自主知識產(chǎn)權(quán)的關(guān)鍵芯片(如國產(chǎn)CPU,或者之后有可能受到影響的其他高性能計(jì)算芯片)的公司難以使用最先進(jìn)的半導(dǎo)體工藝節(jié)點(diǎn)。另一方面,中國的半導(dǎo)體fab同樣由于受到地緣政治的影響,難以快速追趕全球最先進(jìn)的工藝節(jié)點(diǎn),而目前只能主要生產(chǎn)成熟工藝節(jié)點(diǎn)(如28nm),或者是介于成熟工藝和先進(jìn)工藝之間的工藝節(jié)點(diǎn)(例如SMIC今年剛開始大規(guī)模量產(chǎn)14nm,未來幾年可望做到10nm以下)。即使是介于成熟工藝和先進(jìn)工藝之間的工藝節(jié)點(diǎn),也會存在良率較低等問題,需要時間來解決。在這樣的情況下,國產(chǎn)自主知識產(chǎn)權(quán)芯片在受到地緣政治影響下只能使用較落后的工藝節(jié)點(diǎn),那么使用Chiplet這樣的高級封裝技術(shù)就成為了突破工藝限制,或者說至少減少工藝對于芯片影響的一種重要技術(shù)。
鐵流認(rèn)為,以上觀點(diǎn)總體是沒問題的,但不宜將Chiplet神化,畢竟封裝也是存在成本和良率問題,關(guān)鍵還是要看需求和場景。
當(dāng)下,龍芯的最大短板是軟件生態(tài),其次是制造工藝。就工藝而言,一方面是龍芯錢少,不可能和蘋果、高通這些巨無霸去搶臺積電最尖端工藝,何況當(dāng)下臺積電尖端工藝還存在政治風(fēng)險(xiǎn)。正是因此,龍芯在制造工藝的選擇上往往是偏保守,基本與境內(nèi)晶圓廠的最佳制造工藝同步,而彌補(bǔ)工藝差距的方式就是采用Chiplet技術(shù)。Chiplet是一種封裝技術(shù),在制造工藝與臺積電有差距的情況下,可以通過使用先進(jìn)封裝技術(shù)來彌補(bǔ)不足。
Chiplet技術(shù)并非是橫空出世的新技術(shù),過去,AMD的64核和128核就是將8核的芯片和IO橋片封裝在一起的,這其實(shí)就是運(yùn)用Chiplet構(gòu)建多核和SoC主流的技術(shù)。Chiplet最大的優(yōu)勢是降低成本和提升芯片集成度,可以使12nm芯片在集成度上媲美7nm芯片。由于片內(nèi)互聯(lián)效率大幅高于片外互聯(lián),將原來的板載芯片集成進(jìn)來以后,可以大幅提升互聯(lián)速度。此外,Chiplet還可以實(shí)現(xiàn)不同制造工藝芯片的“混搭”,比如關(guān)鍵模塊采用14nm工藝,次要模塊采用28nm工藝,然后封裝到一起,這種SoC的性能和真正的14nm芯片相差無幾,但成本將低于14nm芯片,在性價(jià)比方面會更有優(yōu)勢。
目前,龍芯的技術(shù)還屬于2D水平,其實(shí)并不算多強(qiáng),現(xiàn)在主流已經(jīng)開始向2.5D和3D發(fā)展。龍芯3D5000之所以沒上2.5D,主要是因?yàn)榫湍壳褒埿镜幕ヂ?lián)速度,2D版本就足夠了,后續(xù)接口到16Gbps了就會采用2.5D。
必須說明的是,不宜把Chiplet神化,因?yàn)榉庋b也有成本的,還有良率的問題,也不是封得越多越好。關(guān)鍵還是看需求,Chiplet對服務(wù)器芯片有利,普通芯片盲目封裝沒太多好處。
04
展望未來
就性能而言,3A5000應(yīng)對日常使用和單位辦公已經(jīng)是性能過剩了,3A6000則是進(jìn)一步性能過剩,7000系列CPU則能進(jìn)入商業(yè)市場競爭。對于龍芯而言,性能已經(jīng)不是最大短板,軟件生態(tài)和產(chǎn)業(yè)生態(tài)才是短板。
對此,龍芯措施是兩手抓,一方面用二進(jìn)制翻譯兼容X86生態(tài),另一方面推出自主編程框架。
以LATX來說,目前已經(jīng)可以運(yùn)行大量X86/Windows應(yīng)用,預(yù)計(jì)還需要一年時間完善。以打印機(jī)來說,現(xiàn)在97%、98%以上的打印機(jī)龍芯不用遷移,可以直接用,這在X86和ARM上都沒有做到,凡是windows有的驅(qū)動龍芯都能跑。還有少量的2%、3%的問題,將逐步解決,也就是說在X86和ARM平臺上肯定很多打印機(jī)認(rèn)不了,但在龍芯的平臺上,可以保證100%的打印機(jī)都能識別。
自主CPU和操作系統(tǒng)的整機(jī)產(chǎn)品之所以需要無休止的遷移適配,主要是因?yàn)檫@些系統(tǒng)是不在自主平臺上寫的,現(xiàn)有的應(yīng)用都是基于別人的編程框架編出來的,自主編程框架是自主操作的重要特征,目前國產(chǎn)操作系統(tǒng)都不是真正意義上的自主操作系統(tǒng),只是開源操作系統(tǒng)的自主發(fā)行版,APP開發(fā)者使用的自主編程框架進(jìn)行編程才能徹底解決無休止的適配問題,所以龍芯在明年?duì)幦⊥瞥鲎灾骶幊炭蚣堋N磥砭拖袷謾C(jī)APP有蘋果版和安卓版,未來電腦的系統(tǒng)有龍芯版和windows版,這樣龍芯就有自己的生態(tài)了。
這個過程會非常漫長,也許5年,也許8年。軟件生態(tài)建設(shè)就是一場持久戰(zhàn),只要堅(jiān)持不懈,就能如同八年抗戰(zhàn)趕走日本鬼子那樣,構(gòu)建成龍芯生態(tài)。
「 支持烏有之鄉(xiāng)!」
您的打賞將用于網(wǎng)站日常運(yùn)行與維護(hù)。
幫助我們辦好網(wǎng)站,宣傳紅色文化!
歡迎掃描下方二維碼,訂閱烏有之鄉(xiāng)網(wǎng)刊微信公眾號
