為緩解大模型行業“算力荒”，首個千卡異構GPU芯片混訓平台發布

2024年07月07日08:52 | 來源：上觀新聞

小字號

隨著國產GPU（圖形處理器）芯片的興起，如何將進口和國產GPU有效結合在一起，打造異構芯片算力集群，成為發展人工智能的一個重要問題。2024世界人工智能大會上，上海企業無問芯穹發布了業內首個千卡規模異構芯片混訓平台，其算力利用率最高達到97.6%。這家源於清華大學電子工程系的企業與清華大學、上海交通大學科研團隊合作，實現了華為昇騰、天數智芯、沐曦、摩爾線程、AMD、英偉達等6種品牌芯片的交叉混合訓練，為大模型訓練提供了算力解決方案。

“打開水龍頭時，我們不需要知道水是從哪條河裡來的。同樣道理，今后我們用各種AI應用時，也不需要知道它調用了哪些基座模型，用到了哪種加速卡的算力。”無問芯穹聯合創始人兼CEO夏立雪說。

為了實現算力基礎設施的“自然供應”，他帶領團隊開發出“Infini-AI大模型開發與服務雲平台”。4個月前，這個雲平台首次公測，目前已有智譜AI、月之暗面、生數科技等大模型企業在Infini-AI上穩定使用異構算力，還有20余家大模型應用創業公司在雲平台上持續調用各種預置模型API（應用程序編程接口），使用無問芯穹提供的工具鏈開發模型應用產品。

據介紹，Infini-AI雲平台集成了大模型異構千卡混訓能力，是業內首個可進行單任務千卡規模異構芯片混合訓練的平台，並具備萬卡擴展性，支持採用華為昇騰、AMD、英偉達等6種異構芯片的大模型混合訓練。從本月起，通過試訓申請的用戶，可在這個雲平台上一鍵發起700億參數規模的大模型訓練。

夏立雪說，與國際上模型層與芯片層“相對集中”的格局相比，國內模型層與芯片層更加“百花齊放”。這是市場競爭充分的一種表現，但大量的異構芯片也造成了“生態隔離”，給算力的使用方帶來一系列技術挑戰。據不完全統計，宣布擁有千卡規模的國內算力集群不少於100個，但存在難以有效整合與利用的問題，這是當前大模型行業面臨“算力荒”的一個重要原因。

針對這個問題，無問芯穹提出的解決方案是：開發高效整合異構算力資源的算力平台，以及支持軟硬件聯合優化與加速的中間件，讓異構芯片真正轉化為大算力。

近日，這家企業與清華大學、上海交通大學聯合研究團隊發布了HETHUB。這是一個用於大模型的異構分布式混合訓練系統，在業內首次實現了6種不同品牌芯片間的交叉混合訓練，而且工程化完成度高。作為在異構計算優化與集群系統設計方面的科技成果，它有助於構建“M種模型”與“N種芯片”中間層的“M×N”生態格局，實現多種大模型算法在多元芯片上的高效、統一部署，為更多人工智能企業提供充足的算力資源。

(責編：龔莎、軒召強)

分享讓更多人看到

人民日報報系

旗下網站

為緩解大模型行業“算力荒”，首個千卡異構GPU芯片混訓平台發布

客戶端下載

熱門排行