上海發布人形機器人通用"大腦" 首個大模型發布

2025年03月11日09:29 |

小字號

上海發布人形機器人通用“大腦”

■“機器人能夠在不同場景中執行多種任務，而不需要針對每個新任務重新訓練，也不再局限於預設程序，能夠理解自然語言指令，並具備一定推理能力”

本報記者俞陶然查睿

如何讓人形機器人擁有智慧“大腦”？昨天，上海智元新創技術有限公司發布了自主研發的第一代通用具身智能基座模型——智元啟元大模型GO-1（Genie Operator-1）。這是全國首個通用具身基座大模型，已部署到智元研發的多款機器人本體中。

據介紹，GO-1首創ViLLA架構，讓人形機器人可以利用人類視頻學習各種技能，還能在極少數據甚至零樣本下，使機器人適應不同場景和任務，從而降低具身智能研發門檻，讓機器人持續進化。

十幾年前，機器人就可以“擦桌子”“拉小提琴”，這似乎不是什麼新鮮事。但這類機器人只是在完成預設程序，並不代表機器人具備自主完成任務的能力，或者說並不真正具備智能。如今，隨著具身智能的不斷演化，聰明的機器人已完成“從單一任務到多種任務”“從封閉環境到開放世界”“從預設程序到指令泛化”的三層進化。

“目前，機器人能夠在不同場景中執行多種任務，而不需要針對每個新任務重新訓練，也不再局限於預設程序，能夠理解自然語言指令，並具備一定推理能力。”智元機器人研究院執行院長、具身業務部總裁姚卯青表示，一旦機器人“能聽懂人話”，就可以在商業、工業、家庭等多領域發揮更大的作用。

去年底，智元聯合上海人工智能實驗室、國家地方共建人形機器人創新中心和上海庫帕思科技公司，發布了基於全域真實場景的百萬真機數據集開源項目“AgiBot世界”。這個數據集覆蓋100多種真實場景，其中家居場景佔40%，餐飲和工業場景各佔20%，商超和辦公場景各佔10%。基於“AgiBot世界”數據集，智元開發了啟元大模型，讓人形機器人擁有可不斷進化的“大腦”。

姚卯青介紹，為增強機器人“大腦”的泛化能力，智元提出了ViLLA這一創新性架構。啟元大模型就是基於ViLLA架構開發，由多模態大模型和混合專家組成。其中，多模態大模型可利用互聯網上的海量圖文數據，讓人形機器人獲得通用場景感知和語言理解能力，從而能理解外部世界、周邊環境以及用戶發出的各種指令。

“通過ViLLA創新性架構，我們在5種不同復雜度的任務上測試了GO-1大模型。與已有最優模型對比，GO-1的成功率處於領先水平，將平均成功率提高了32%。”姚卯青介紹，在這些測試任務中，啟元大模型在倒水、清理桌面、補充飲料這3個任務上的表現尤為突出。

作為通用具身基座大模型，GO-1不再被機器人的具體型號、適用場景束縛。姚卯青表示，GO-1大模型可以幫機器人完成全面的“基礎教育”和“職業教育”，天然能適應新的場景，快速學習新的操作。

（來源：解放日報）

(責編：嚴遠、軒召強)

分享讓更多人看到

人民日報報系

旗下網站

上海發布人形機器人通用"大腦" 首個大模型發布

客戶端下載

熱門排行