為緩解大模型行業“算力荒”,首個千卡異構GPU芯片混訓平台發布
隨著國產GPU(圖形處理器)芯片的興起,如何將進口和國產GPU有效結合在一起,打造異構芯片算力集群,成為發展人工智能的一個重要問題。2024世界人工智能大會上,上海企業無問芯穹發布了業內首個千卡規模異構芯片混訓平台,其算力利用率最高達到97.6%。這家源於清華大學電子工程系的企業與清華大學、上海交通大學科研團隊合作,實現了華為昇騰、天數智芯、沐曦、摩爾線程、AMD、英偉達等6種品牌芯片的交叉混合訓練,為大模型訓練提供了算力解決方案。
“打開水龍頭時,我們不需要知道水是從哪條河裡來的。同樣道理,今后我們用各種AI應用時,也不需要知道它調用了哪些基座模型,用到了哪種加速卡的算力。”無問芯穹聯合創始人兼CEO夏立雪說。
為了實現算力基礎設施的“自然供應”,他帶領團隊開發出“Infini-AI大模型開發與服務雲平台”。4個月前,這個雲平台首次公測,目前已有智譜AI、月之暗面、生數科技等大模型企業在Infini-AI上穩定使用異構算力,還有20余家大模型應用創業公司在雲平台上持續調用各種預置模型API(應用程序編程接口),使用無問芯穹提供的工具鏈開發模型應用產品。
據介紹,Infini-AI雲平台集成了大模型異構千卡混訓能力,是業內首個可進行單任務千卡規模異構芯片混合訓練的平台,並具備萬卡擴展性,支持採用華為昇騰、AMD、英偉達等6種異構芯片的大模型混合訓練。從本月起,通過試訓申請的用戶,可在這個雲平台上一鍵發起700億參數規模的大模型訓練。
夏立雪說,與國際上模型層與芯片層“相對集中”的格局相比,國內模型層與芯片層更加“百花齊放”。這是市場競爭充分的一種表現,但大量的異構芯片也造成了“生態隔離”,給算力的使用方帶來一系列技術挑戰。據不完全統計,宣布擁有千卡規模的國內算力集群不少於100個,但存在難以有效整合與利用的問題,這是當前大模型行業面臨“算力荒”的一個重要原因。
針對這個問題,無問芯穹提出的解決方案是:開發高效整合異構算力資源的算力平台,以及支持軟硬件聯合優化與加速的中間件,讓異構芯片真正轉化為大算力。
近日,這家企業與清華大學、上海交通大學聯合研究團隊發布了HETHUB。這是一個用於大模型的異構分布式混合訓練系統,在業內首次實現了6種不同品牌芯片間的交叉混合訓練,而且工程化完成度高。作為在異構計算優化與集群系統設計方面的科技成果,它有助於構建“M種模型”與“N種芯片”中間層的“M×N”生態格局,實現多種大模型算法在多元芯片上的高效、統一部署,為更多人工智能企業提供充足的算力資源。
分享讓更多人看到
- 評論
- 關注






























第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量