4月14日,騰訊云正式發(fā)布新一代HCC高性能計(jì)算集群。據(jù)悉,該集群采用騰訊云星星海自研服務(wù)器,搭載英偉達(dá)最新代次H800 GPU,服務(wù)器之間采用3.2T超高互聯(lián)帶寬,可為大模型訓(xùn)練、自動(dòng)駕駛、科學(xué)計(jì)算等提供高性能、高帶寬和低延遲的集群算力。
騰訊云的實(shí)測(cè)數(shù)據(jù)顯示,新一代集群的算力性能較前代提升高達(dá)3倍,是目前國(guó)內(nèi)性能最強(qiáng)的大模型計(jì)算集群。去年10月,騰訊完成首個(gè)萬(wàn)億參數(shù)的AI大模型——混元NLP大模型訓(xùn)練,當(dāng)時(shí)的訓(xùn)練時(shí)間為11天,如果基于新一代集群,訓(xùn)練時(shí)間將縮短至4天。
在A(yíng)I大模型火熱的當(dāng)下,算力也成為業(yè)界關(guān)注的重點(diǎn)。這是因?yàn)樵诖竽P偷挠?xùn)練過(guò)程中,算力、算法和數(shù)據(jù)缺一不可。隨著圍繞AI大模型的全球軍備競(jìng)賽打響,業(yè)界對(duì)算力的需求也更加旺盛。
去年,有研究機(jī)構(gòu)預(yù)估,未來(lái)對(duì)一個(gè)大模型訓(xùn)練所需的算力,可能每三、四個(gè)月就需要翻一番,這意味著一年就要增加10倍。而今年在ChatGPT的推動(dòng)下,算力的增長(zhǎng)也將進(jìn)一步提速。
騰訊云異構(gòu)計(jì)算產(chǎn)品總監(jiān)宋丹丹此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪(fǎng)時(shí)表示,大模型對(duì)算力的要求分為訓(xùn)練和推理兩個(gè)階段。其中,訓(xùn)練需要短時(shí)間內(nèi)并行算力非常全且非常大,并且要在短時(shí)間內(nèi)能夠交付,所以對(duì)算力的量級(jí)、算力的穩(wěn)定性彈性擴(kuò)容能力都有較高的要求。
現(xiàn)階段,AI大模型正處于訓(xùn)練需求的爆發(fā)期,大家都需要海量的可擴(kuò)縮容的高性能算力,而且這些算力需要穩(wěn)定交付和計(jì)算。所以對(duì)云廠(chǎng)商來(lái)說(shuō),目前正迎來(lái)一個(gè)全新的市場(chǎng)機(jī)遇。
過(guò)去幾年,算力其實(shí)也在因需而變,以往的計(jì)算已經(jīng)變成了智算。所謂智算,也稱(chēng)異構(gòu)計(jì)算,是用不同制程架構(gòu)、不同指令集、不同功能的硬件組合起來(lái)解決問(wèn)題的計(jì)算架構(gòu)。例如,相對(duì)于只用CPU的通用計(jì)算,在服務(wù)器里使用CPU+GPU就是異構(gòu)計(jì)算。
智算背后的邏輯,是讓最適合的專(zhuān)用硬件去做最適合的事。GPU在并行計(jì)算任務(wù)為主的AI訓(xùn)練/推理和圖形圖像處理等專(zhuān)用場(chǎng)景上,比傳統(tǒng)CPU效率更高且延遲更低。
騰訊云此次發(fā)布的HCC,也是利用并行計(jì)算理念,通過(guò)CPU和GPU節(jié)點(diǎn)的一體化設(shè)計(jì),將單點(diǎn)算力性能提升至最強(qiáng)。除此之外,騰訊云新一代HCC備受關(guān)注的原因,是它在國(guó)內(nèi)首發(fā)了英偉達(dá)H800 GPU。
資料顯示,H800是英偉達(dá)新代次處理器,基于Hopper架構(gòu),對(duì)跑深度推薦系統(tǒng)、大型AI語(yǔ)言模型、基因組學(xué)、復(fù)雜數(shù)字孿生等任務(wù)的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達(dá)到3 TB/s。
雖然論性能,H800并不是最強(qiáng)的,但由于美國(guó)的限制,性能更強(qiáng)的H100無(wú)法供應(yīng)給中國(guó)市場(chǎng)。有業(yè)內(nèi)人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。
芯片受限,固然是個(gè)卡脖子難題,也需要投入更多力量去解決。但從AI大模型訓(xùn)練的角度,近日多位AI行業(yè)人士在接受記者采訪(fǎng)時(shí)均提出,算力的提升不是單純堆卡,而是存在“木桶效應(yīng)”,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)一旦出現(xiàn)瓶頸就會(huì)導(dǎo)致運(yùn)算速度嚴(yán)重下降。光增加GPU卡或計(jì)算節(jié)點(diǎn),但網(wǎng)絡(luò)時(shí)延沒(méi)降低,并不能線(xiàn)性地提升算力收益。
所以,用上了先進(jìn)芯片并不代表就擁有了先進(jìn)算力。以算力對(duì)網(wǎng)絡(luò)的要求為例,目前GPU并行是大模型訓(xùn)練的必備技術(shù),不同于傳統(tǒng)并行以加快計(jì)算速度為目的,大模型的并行計(jì)算往往還要考慮怎樣將龐大的參數(shù)有機(jī)地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓(xùn)練部署。
即使是目前業(yè)界已有的GPU分布式訓(xùn)練方案,也嚴(yán)重依賴(lài)于服務(wù)器之間的通信、拓?fù)洹⒛P筒⑿?、流水并行等底層?wèn)題的解決情況。如果只有分布式訓(xùn)練框架,甚至都無(wú)法正常啟動(dòng)訓(xùn)練過(guò)程。這也是為什么當(dāng)時(shí)GPT-3已發(fā)布一年,卻只有少數(shù)企業(yè)可以復(fù)現(xiàn)GPT-3。
先進(jìn)算力的背后,是先進(jìn)芯片、先進(jìn)網(wǎng)絡(luò)、先進(jìn)存儲(chǔ)等一系列的支撐,缺一不可。比如在網(wǎng)絡(luò)層面,模型參數(shù)量越大,對(duì)帶寬的需求就越高。相比單點(diǎn)GPU故障只影響集群算力的千分之幾,一條鏈路的負(fù)載不均導(dǎo)致網(wǎng)絡(luò)堵塞,就會(huì)成為木桶短板,影響到數(shù)十個(gè)甚至更多GPU的連通性。在這種情況下,其他鏈路即使暢通無(wú)阻,通信時(shí)間仍然會(huì)大幅度增長(zhǎng),進(jìn)而直接影響訓(xùn)練效率。
此外,集群訓(xùn)練也會(huì)引入額外的通信開(kāi)銷(xiāo),導(dǎo)致N個(gè)GPU算力達(dá)不到單個(gè)GPU算力的 N 倍。業(yè)界開(kāi)源的GPU集合通信庫(kù),也不能將網(wǎng)絡(luò)的通信性能發(fā)揮到極致。
正因算力的“木桶效應(yīng)”,也給了云廠(chǎng)商可施展的舞臺(tái)。通過(guò)對(duì)單機(jī)算力、網(wǎng)絡(luò)架構(gòu)和存儲(chǔ)性能進(jìn)行協(xié)同優(yōu)化,提高算力效率,云廠(chǎng)商的高性能計(jì)算集群是能夠彌補(bǔ)芯片一部分傳輸損耗的。
騰訊云此次發(fā)布的新一代HCC,在網(wǎng)絡(luò)層面,利用自研的星脈網(wǎng)絡(luò)為新一代集群帶來(lái)了3.2T超高通信帶寬。實(shí)測(cè)結(jié)果顯示,搭載同樣的GPU,3.2T星脈網(wǎng)絡(luò)相較1.6T網(wǎng)絡(luò),能讓集群整體算力提升20%。
存儲(chǔ)層面,訓(xùn)練場(chǎng)景下,幾千臺(tái)計(jì)算節(jié)點(diǎn)會(huì)同時(shí)讀取一批數(shù)據(jù)集,需要盡可能縮短數(shù)據(jù)集的加載時(shí)長(zhǎng)。騰訊云的新一代集群,引入了自研的文件存儲(chǔ)、對(duì)象存儲(chǔ)架構(gòu),具備TB級(jí)吞吐能力和千萬(wàn)級(jí)IOPS,可支持不同場(chǎng)景下對(duì)存儲(chǔ)的需求。
底層架構(gòu)之上,針對(duì)大模型訓(xùn)練場(chǎng)景,新一代集群集成了騰訊云自研的TACO Train訓(xùn)練加速引擎,對(duì)網(wǎng)絡(luò)協(xié)議、通信策略、AI框架、模型編譯進(jìn)行大量系統(tǒng)級(jí)優(yōu)化,大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。
另外值得關(guān)注的是,騰訊多款自研芯片也已經(jīng)量產(chǎn)。其中,用于A(yíng)I推理的紫霄芯片、用于視頻轉(zhuǎn)碼的滄海芯片已在騰訊內(nèi)部交付使用。據(jù)騰訊云披露,紫霄目前已經(jīng)在騰訊頭部業(yè)務(wù)規(guī)模部署,可提供高達(dá)3倍的計(jì)算加速性能和超過(guò)45%的整體成本節(jié)省。
數(shù)據(jù)顯示,騰訊云目前的分布式云原生調(diào)度總規(guī)模超過(guò)1.5億核,并提供16 EFLOPS的智算算力。對(duì)于近半年突然火熱的AI大模型,宋丹丹表示,市場(chǎng)環(huán)境的變化沒(méi)有打亂騰訊云的產(chǎn)品規(guī)劃,但確實(shí)是讓產(chǎn)品節(jié)奏提前了,因?yàn)锳I業(yè)務(wù)和計(jì)算算力是相互促進(jìn)的,AI技術(shù)迭代對(duì)算力提出更高的要求,那我們也會(huì)有更高的動(dòng)力去讓算力產(chǎn)品更快演進(jìn)。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。