H800國(guó)內(nèi)首發(fā) 騰訊云發(fā)布最新高性能計(jì)算集群當(dāng)前觀點(diǎn)

2023-04-14 13:03:10來(lái)源：中關(guān)村在線

4月14日，騰訊云正式發(fā)布新一代HCC（High-Performance Computing Cluster）高性能計(jì)算集群。該集群采用騰訊云星星海自研服務(wù)器，搭載英偉達(dá)最新代次H800 GPU，服務(wù)器之間采用業(yè)界最高的3.2T超高互聯(lián)帶寬，為大模型訓(xùn)練、自動(dòng)駕駛、科學(xué)計(jì)算等提供高性能、高帶寬和低延遲的集群算力。

實(shí)測(cè)顯示，騰訊云新一代集群的算力性能較前代提升高達(dá)3倍，是國(guó)內(nèi)性能最強(qiáng)的大模型計(jì)算集群。

2022年10月，騰訊完成首個(gè)萬(wàn)億參數(shù)的AI大模型——混元NLP大模型訓(xùn)練。在同等數(shù)據(jù)集下，將訓(xùn)練時(shí)間由50天縮短到11天。如果基于新一代集群，訓(xùn)練時(shí)間將進(jìn)一步縮短至4天。

【資料圖】

大模型進(jìn)入萬(wàn)億參數(shù)時(shí)代，單體服務(wù)器算力有限，需要將大量服務(wù)器通過(guò)高性能網(wǎng)絡(luò)相連，打造大規(guī)模算力集群。通過(guò)對(duì)處理器、網(wǎng)絡(luò)架構(gòu)和存儲(chǔ)性能的全面優(yōu)化，騰訊云攻克了大集群場(chǎng)景下的算力損耗問題，能為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智算能力支撐。

網(wǎng)絡(luò)層面，計(jì)算節(jié)點(diǎn)間存在海量的數(shù)據(jù)交互需求，隨著集群規(guī)模擴(kuò)大，通信性能會(huì)直接影響訓(xùn)練效率。騰訊自研的星脈網(wǎng)絡(luò)，為新一代集群帶來(lái)了業(yè)界最高的3.2T的超高通信帶寬。實(shí)測(cè)結(jié)果顯示，搭載同樣的GPU卡，3.2T星脈網(wǎng)絡(luò)相較前代網(wǎng)絡(luò)，能讓集群整體算力提升20%，使得超大算力集群仍然能保持優(yōu)秀的通信開銷比和吞吐性能。并提供單集群高達(dá)十萬(wàn)卡級(jí)別的組網(wǎng)規(guī)模，支持更大規(guī)模的大模型訓(xùn)練及推理。

存儲(chǔ)層面，幾千臺(tái)計(jì)算節(jié)點(diǎn)同時(shí)讀取一批數(shù)據(jù)集，需要盡可能縮短加載時(shí)長(zhǎng)。騰訊云自研的文件存儲(chǔ)、對(duì)象存儲(chǔ)架構(gòu)，具備TB級(jí)吞吐能力和千萬(wàn)級(jí)IOPS，充分滿足大模型訓(xùn)練的大數(shù)據(jù)量存儲(chǔ)要求。

底層架構(gòu)之上，針對(duì)大模型訓(xùn)練場(chǎng)景，新一代集群集成了騰訊云自研的TACO Train訓(xùn)練加速引擎，對(duì)網(wǎng)絡(luò)協(xié)議、通信策略、AI框架、模型編譯進(jìn)行大量系統(tǒng)級(jí)優(yōu)化，大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。

騰訊混元大模型背后的訓(xùn)練框架AngelPTM，也已通過(guò)騰訊云對(duì)外提供服務(wù)，幫助企業(yè)加速大模型落地。

目前，騰訊混元AI大模型，已經(jīng)覆蓋了自然語(yǔ)言處理、計(jì)算機(jī)視覺、多模態(tài)等基礎(chǔ)模型和眾多行業(yè)、領(lǐng)域模型。

在騰訊云上，企業(yè)基于TI平臺(tái)的大模型能力和工具箱，可結(jié)合產(chǎn)業(yè)場(chǎng)景數(shù)據(jù)進(jìn)行精調(diào)訓(xùn)練，提升生產(chǎn)效率，快速創(chuàng)建和部署AI 應(yīng)用。

此前，騰訊多款自研芯片已經(jīng)量產(chǎn)。其中，用于AI推理的紫霄芯片、用于視頻轉(zhuǎn)碼的滄海芯片已在騰訊內(nèi)部交付使用，性能指標(biāo)和綜合性價(jià)比顯著優(yōu)于業(yè)界。其中，紫霄采用自研存算架構(gòu)，增加片上內(nèi)存容量并使用更先進(jìn)的內(nèi)存技術(shù)，消除訪存能力不足制約芯片性能的問題，同時(shí)內(nèi)置集成騰訊自研加速模塊，減少與CPU握手等待時(shí)間。目前，紫霄已經(jīng)在騰訊頭部業(yè)務(wù)規(guī)模部署，提供高達(dá)3倍的計(jì)算加速性能，和超過(guò)45%的整體成本節(jié)省。

目前，騰訊云的分布式云原生調(diào)度總規(guī)模超過(guò)1.5億核，并提供16 EFLOPS（每秒1600億億次浮點(diǎn)運(yùn)算）的智算算力。未來(lái)，新一代集群不僅能服務(wù)于大模型訓(xùn)練，還將在自動(dòng)駕駛、科學(xué)計(jì)算、自然語(yǔ)言處理等場(chǎng)景中充分應(yīng)用。

以新一代集群為標(biāo)志，基于自研芯片、星星海自研服務(wù)器和分布式云操作系統(tǒng)遨馳，騰訊云正通過(guò)軟硬一體的方式，打造面向AIGC的高性能智算網(wǎng)絡(luò)，持續(xù)加速全社會(huì)云上創(chuàng)新。

標(biāo)簽：