全球首次!上海AI實驗室實現千裡算力互聯訓練千億模型

上海人工智能實驗室於7月19日發布了一項具有裡程碑意義的成果,其研發的DeepLink超大規模跨域混訓技術方案,成功應用於中國聯通網絡,將相隔1500公裡的兩個異構智算中心“拼成”一個“超級節點”,並完成千億參數的AI大模型訓練。此舉在全球首次實現長距離跨域異構智能算力的高效整合,不僅可化解全國算力資源分布不均、利用率不高的瓶頸,更可降低AI行業對特定芯片的依賴,一旦出現供應鏈波動,將為AI產業提供重要的兜底算力支持,避免被“卡脖子”。
據上海AI實驗室介紹,今年2月,他們聯合十余家合作伙伴,在上海建成了超大規模跨域混訓集群的原型,實現了千億參數大模型20天不間斷訓練。在此基礎上,他們融合中國聯通AINET算力智聯網,跨越1500公裡,連接了上海和濟南之間的智算中心,完成了千億參數大模型混訓。
所謂“跨域混訓”,就是將位於不同地域、使用不同芯片架構(即“異構”)的多個算力集群互聯起來,“擰成一股繩”用於訓練﹔與之相對的是“單集群+單芯片”訓練。對AI大模型訓練而言,“跨域+異構”的組合,看起來可以帶來“1+1”的算力資源,但效果上卻遠小於“2”,甚至可能為“0”。此前,國內外尚無利用“跨域+異構”算力集群完成生產級模型訓練的先例,原因在於互聯技術障礙難以跨越,導致模型混訓效率低下,難以為繼。此次,上海AI實驗室成功實現“零的突破”。實測數據顯示,其與中國聯通合作開展的跨域混訓,等效算力高達單集群單芯片算力的95%以上。
過去幾年,順應AI大模型的爆發,國內算力建設如火如荼,但同時也存在區域算力資源分布和使用不均衡的情況,比如在西部一些地區,因為存在綜合成本優勢,超前部署了不少算力集群,但因為需求波動和運營問題,算力資源的實際使用率並不高,出現了一定程度的算力閑置。同時,隨著AI芯片的快速迭代,以及國產芯片的百花齊放,各個智算中心使用的硬件架構也多有不同。由此,利用創新的標准和技術,整合和盤活跨域異構算力資源,變得越來越有戰略價值。
上海AI實驗室青年科學家、DeepLink系統團隊負責人王輝告訴記者,DeepLink方案創新性地採用“3D+PS”的高內聚低耦合架構,某種意義上可以說是“以算法換帶寬”。它將超大規模訓練任務分發到遠隔千裡的各個智算中心,通過算法創新,有效減輕了對網絡的壓力﹔用戶隻需使用普通專線網絡,就可開展大模型訓練。此外,該方案還能確保在跨域訓練中,即使某地智算節點發生故障,整體訓練也能繼續,顯著提升了穩定性。
實際上,除了中國聯通,上海AI實驗室還與中國電信、商湯、儀電等智算平台進行了合作。其中,基於中國電信息壤算網,在不到10G帶寬的網絡條件下,實現了北京、上海、貴州三地智算中心的互聯和大模型混訓,等效算力依然在90%以上。王輝表示,理論上,DeepLink可通過動態配置支持數千公裡的跨域混訓,這意味著,國內任意兩地的智算中心都可借助該方案實現算力整合。
中國聯通研究院下一代互聯網數據中心網絡團隊經理徐博華告訴記者,中國聯通建設高通量、高性能、高智能的算力智聯網AINET,研發了長距無損協議及硬件架構﹔DeepLink則在算法和軟件層面實現一系列首創成果。這次“雙向奔赴”的合作,為全國算力資源的高效利用帶來許多想象空間。比如,它可將多地“碎片化”的算力捏合在一起,化零為整,變成高價值的資源。著眼將來,一旦規模達到目前10倍乃至更大的AI模型出現,對算力提出新的革命性需求,該方案也有可能讓用戶不必花天價新建超大型智算中心,而是通過將上一代智算中心進行“低成本組合”,滿足訓練需求。
上海AI實驗室表示,下一步,他們還將進一步通過DeepLink超大規模跨域混訓技術方案,組建算力生態,擴大應用范圍,推動DeepLink方案能被更多服務商所整合,從而讓用戶可以像逛超市那樣,在全國自由選擇高質量、高性價比的算力供給,為全國算力一體化布局注入核心動能。同時,他們也會面向多元算力在AI大模型混合推理、分布式強化學習等需求,進一步完善技術方案。(文匯報 張懿)
分享讓更多人看到
- 評論
- 關注