2月25日,DeepSeek在“開(kāi)源周”的第二日開(kāi)源了DeepEP通信庫(kù)。DeepSeek表示,這是第一個(gè)用于MoE(專(zhuān)家)模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。
“高效、優(yōu)化的全員溝通;節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間均支持NVLink和RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn),一種通信技術(shù));用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核;用于推理解碼的低延遲內(nèi)核;原生FP8調(diào)度支持;靈活的GPU(圖形處理器)資源控制,實(shí)現(xiàn)計(jì)算與通信重疊?!盌eepSeek如此介紹DeepEP的特點(diǎn)。
EP即expert parallelism(專(zhuān)家并行),是一種在大規(guī)模分布式AI模型訓(xùn)練中使用的技術(shù),能用于提升模型并行處理能力和訓(xùn)練效率。DeepSeek表示,對(duì)于延遲敏感的推理解碼任務(wù),DeepEP包含有一組使用純RDMA的低延遲內(nèi)核,可以用于將延遲最小化,DeepEP還引入一種通信與計(jì)算重疊的方法,這種方法可以不占用SM(流處理器)資源。簡(jiǎn)而言之,DeepEP也是用于提升GPU(圖形處理器)利用效率的關(guān)鍵技術(shù)之一。
有位軟件工程師激動(dòng)地表示,“DeepSeek在MoE模型上所達(dá)到的優(yōu)化水平,令人印象深刻,因?yàn)镸oE模型因其規(guī)模和復(fù)雜性而廣為人知,難度非常大。而DeepEP能夠如此精確地處理這些問(wèn)題,使用像NVLink和RDMA這樣的先進(jìn)硬件,并且支持FP8,真是太牛了?!?/p>
有網(wǎng)友稱,DeepSeek再次突破了AI基礎(chǔ)設(shè)施的極限。這種創(chuàng)新方法或?qū)⒏淖傾I領(lǐng)域的溝通方式。從此,AI開(kāi)發(fā)者也許能有效突破大規(guī)模AI模型的界限。
性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3訓(xùn)練出來(lái)的模型,DeepSeek-V3此前就以不大規(guī)模使用最先進(jìn)的英偉達(dá)GPU、低訓(xùn)練預(yù)算著稱。為了在已有的GPU上訓(xùn)練大模型,DeepSeek進(jìn)行了諸多創(chuàng)新,以高效利用GPU算力。有學(xué)界人士此前就解讀了DeepSeek-V3實(shí)現(xiàn)計(jì)算與通信重疊的重要作用。
清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授翟季冬在解讀DeepSeek的相關(guān)技術(shù)時(shí)表示,DeepSeek-V3為了訓(xùn)練效率提升,做了四方面的優(yōu)化,包括負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化。為此,DeepSeek團(tuán)隊(duì)充分挖掘了算法、軟件和硬件協(xié)同創(chuàng)新的潛力,例如為了降低通信開(kāi)銷(xiāo)想了很多辦法,包括精細(xì)化編排計(jì)算和通訊?!癉eepSeek提出一種流水線并行算法DualPipe,通過(guò)精細(xì)控制分配給計(jì)算和通信的GPU SM數(shù)量,實(shí)現(xiàn)計(jì)算和通信完全重疊,從而提高GPU資源的利用率。期間,DeepSeek團(tuán)隊(duì)使用了英偉達(dá)底層的PTX語(yǔ)言來(lái)控制SM的使用?!?翟季冬表示。中存算半導(dǎo)體董事長(zhǎng)陳巍解析DeepSeek-V3和R1訓(xùn)練結(jié)構(gòu)的獨(dú)特優(yōu)勢(shì)時(shí)也指出,DeepSeek設(shè)計(jì)了DualPipe算法來(lái)實(shí)現(xiàn)更高效的流水線并行,并通過(guò)計(jì)算與通信的重疊隱藏了大模型訓(xùn)練過(guò)程中的大部分通信開(kāi)銷(xiāo)。此外,DeepSeek開(kāi)發(fā)了跨節(jié)點(diǎn)All-to-All通信內(nèi)核,以充分利用InfiniBand和NVLink帶寬,對(duì)顯存使用進(jìn)行了優(yōu)化,使得DeepSeek無(wú)需使用昂貴的張量并行即可訓(xùn)練DeepSeek-V3。就開(kāi)源DeepEP通信庫(kù)的影響詢問(wèn)DeepSeek后,它的回答是,DeepEP能顯著提升MoE模型的訓(xùn)練和推理效率,顯著降低計(jì)算資源消耗,開(kāi)源DeepEP有助于降低AI技術(shù)的開(kāi)發(fā)成本,且有助于減少重發(fā)開(kāi)發(fā)。
DeepSeek此前宣布,本周會(huì)陸續(xù)開(kāi)源5個(gè)代碼庫(kù)。加上2月24日開(kāi)源的代碼庫(kù)FlashMLA,DeepSeek已開(kāi)源了2個(gè)代碼庫(kù),接下來(lái)還有3個(gè)代碼庫(kù)待開(kāi)源。