人民網
人民網>>上海頻道>>要聞

具身智能有了測評“上海卷”,GM-100宣布開源

2026年01月27日09:01 |
小字號

具身智能有了測評“上海卷”

GM-100宣布開源,國內多個大模型將引入“跑分”測試補齊短板

記者昨天獲悉,上海交通大學聯合業界研發的具身智能測評集GM-100宣布開源,旨在為衡量機器人“大腦”(智能模型)與“身體”(物理執行)的協同能力,提供一個更系統、開放且可復現的評估基准。后續,國內多個具身智能大模型將引入該測評集進行“跑分”測試。

當前,具身智能技術路線尚處百家爭鳴期,數據集建設缺乏統一標准。GM-100測評集相當於給具身智能出了一套上海版“統考卷”,為國內具身智能評價體系補齊短板。

不盲目追求任務量

據悉,GM-100測評集包含了100個具體任務,總計1.3萬條操作軌跡數據,規模可觀。項目牽頭人、上海交通大學副教授李永露認為,在當前研究階段,高質量的數據集和評測體系對科研的貢獻至關重要,優化數據分布能有效推動模型能力進步。因此,與其單純追求任務的數據量,該測評集更強調任務設計的廣度與評估體系的深度。

記者從研究團隊了解到,GM-100測評集在設計任務時,首先分析人類與物體交互的基本原語(不可分割的指令),再利用大語言模型生成大量候選任務,經專家篩選優化,最終形成涵蓋從日常簡單操作到罕見復雜場景的100項任務。

此外,該測評集在傳統的任務成功率之外,引入了兩項關鍵指標。一是部分成功率,用於量化多步驟任務中,子步驟的完成情況,避免“非全即無”的粗暴判斷﹔二是動作預測誤差,即衡量模型在面對新情況時動作模仿的精度。

研究團隊對全球主流模型測試結果顯示,GM-100測評集的任務設計難度合理,在不同機器人平台上均可執行且具備區分度,評估結果在不同硬件間也表現出穩定的泛化性,為跨平台模型能力比較提供了可靠參考。

目前,測評集所有100個任務的詳細說明、所需物料清單均已開源,團隊還為每個任務上傳了約130條真實機器人操作軌跡數據。“我們甚至公布了具體物料的購買鏈接,盡可能降低開發者的復現與參與門檻,讓更多人能在同一基准上開展測試。”研究團隊負責人告訴記者。

補齊評價體系短板

當前,具身智能領域評測標准分散且不統一,各團隊自建標准,抓取、路徑規劃等側重點也各不相同,且多局限於高頻簡單場景。隨著技術進步,舊有基准的區分度下降,難以反映復雜環境下的核心挑戰,行業缺乏公認的客觀參照。

“現有具身智能模型結構的泛化能力已顯不足,需進行結構性創新,在數據層面,大規模、高質量數據的採集與評估仍是行業瓶頸。”宇樹董事長王興興在外灘大會、進博會等多個場合公開表示,當前具身智能的制約因素主要是模型架構和數據質量。

為此,上海正努力通過具身數據和模型能力雙維度,找到具身智能行業的破局之道。

在數據方面,智元機器人率先建成全球首個數採超級工廠,還開源了包含百萬條真機數據的AgiBot World數據集。智元具身業務部總裁姚卯青表示,該數據集提供了工業級高質量數據支撐,包含百萬條機器人數據軌跡,每條數據都經過多輪審核,確保場景貼近現實、任務復雜多樣。

此外,國地中心和浦江實驗室聯合團隊計劃完成2500萬組整機數據積累,數據規模達到谷歌同類數據集的10倍。1月22日,上海庫帕思科技與它石智航宣布共建“具身數據星火計劃”,推動實現億小時級別的數據流通規模。

在模型方面,2025年3月,智元發布全球首個通用具身基座大模型智元GO-1,融合多模態大模型(VLM)與混合專家系統(MoE),支持不同本體平台數據採集和部署。上海具識智能還自主研發了全國首個具身智能操作系統InsightOS,在智能制造產線部署、智慧農業作業等產業場景得到應用。

在此基礎上,GM-100測評集的出現,則為上海乃至國內的具身智能評價體系補齊了短板。

“我們的目標並非建立一個絕對公平的物理測試環境,而是打造一個開放、透明、可復現的評測平台。”該負責人表示,通過提供標准化的“考題”(任務)、詳細的“考試說明”(開源資料)和靈活的“閱卷標准”(多維指標),努力成為一張具身智能模型的“統考卷”,不僅有助於橫向比較模型性能,更通過題目設置定義行業的核心能力與前沿問題。

(來源:解放日報 記者 查睿)

(責編:嚴遠、軒召強)

分享讓更多人看到

返回頂部