近日,在 OIF(開(kāi)源基礎(chǔ)設(shè)施基金會(huì))CFN(算力網(wǎng)絡(luò))工作組會(huì)議上,中國(guó)移動(dòng)研究院牽頭的異構(gòu)混合訓(xùn)練技術(shù)子組通過(guò)立項(xiàng)評(píng)審,并獲得 OIF 基金會(huì)及產(chǎn)業(yè)伙伴的高度關(guān)注與支持。
當(dāng)前大模型訓(xùn)練任務(wù)基于同構(gòu)集群完成,隨著模型參數(shù)量劇增,存在兩大痛點(diǎn)問(wèn)題,一是大規(guī)模集群與單廠(chǎng)商綁定存在技術(shù)棧封閉和供應(yīng)鏈風(fēng)險(xiǎn),二是已建異構(gòu)智算資源間存在“資源墻”難以聚合成池,導(dǎo)致混合集群資源利用率較低。為充分利用異構(gòu)算力資源,構(gòu)建智算融通生態(tài),中國(guó)移動(dòng)研究院牽頭在 OIF CFN 工作組成立異構(gòu)混合訓(xùn)練技術(shù)子組。
去年,中國(guó)移動(dòng)研究院針對(duì)該技術(shù)已發(fā)布智算“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0,其具備基于 ITD 算法的 3D 并行非均勻切分和基于 GDR 的異構(gòu)芯片高速通信兩大能力,可突破異構(gòu)智算芯片間算力孤島問(wèn)題,實(shí)現(xiàn)大模型在多廠(chǎng)商、多代際、多類(lèi)型的混合智算集群上的規(guī)模訓(xùn)練。
此次中國(guó)移動(dòng)研究院在 OIF CFN 工作組成立的異構(gòu)混合訓(xùn)練技術(shù)子組聚焦異構(gòu)混合訓(xùn)練框架進(jìn)行代碼開(kāi)源,旨在通過(guò)社區(qū)項(xiàng)目吸引智算產(chǎn)業(yè)上下游合作伙伴適配、共建面向多種類(lèi)大模型及智算芯片的通用訓(xùn)練框架,實(shí)現(xiàn)構(gòu)建高效、高可用的大規(guī)模異構(gòu)混合訓(xùn)練技術(shù)能力。
未來(lái),中國(guó)移動(dòng)將通過(guò)開(kāi)源力量,與產(chǎn)學(xué)研用各界合作伙伴一起,推動(dòng)不同廠(chǎng)家、不同架構(gòu)異構(gòu)智能算力間形成通用的異構(gòu)混合訓(xùn)練框架,助力我國(guó)智算生態(tài)融通發(fā)展。
開(kāi)源基礎(chǔ)設(shè)施基金會(huì)(OIF)由全球 187 個(gè)國(guó)家 100,000 余名社區(qū)成員組成,是當(dāng)前全球最活躍的開(kāi)源基金會(huì)之一,現(xiàn)已孵化 OpenStack、Kata Container、StarlingX 等成熟開(kāi)源項(xiàng)目。2022 年 7 月,中國(guó)移動(dòng)研究院聯(lián)合國(guó)內(nèi)外主流設(shè)備商、云服務(wù)商在開(kāi)源基礎(chǔ)設(shè)施基金會(huì)(OIF)主導(dǎo)成立“Computing Force Network Working Group”(算力網(wǎng)絡(luò)工作組),旨在凝聚產(chǎn)業(yè)力量,打造算力網(wǎng)絡(luò)關(guān)鍵領(lǐng)域的參考實(shí)現(xiàn),降低產(chǎn)業(yè)準(zhǔn)入門(mén)檻,加速推動(dòng)算力網(wǎng)絡(luò)技術(shù)與產(chǎn)品成熟。