首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
人民網客戶端
網站無障礙
舉報
登錄

退出

人民網>>上海頻道>>要聞

具身智能有了測評“上海卷”，GM-100宣布開源

2026年01月27日09:01 |

小字號

具身智能有了測評“上海卷”

GM-100宣布開源，國內多個大模型將引入“跑分”測試補齊短板

記者昨天獲悉，上海交通大學聯合業界研發的具身智能測評集GM-100宣布開源，旨在為衡量機器人“大腦”（智能模型）與“身體”（物理執行）的協同能力，提供一個更系統、開放且可復現的評估基准。后續，國內多個具身智能大模型將引入該測評集進行“跑分”測試。

當前，具身智能技術路線尚處百家爭鳴期，數據集建設缺乏統一標准。GM-100測評集相當於給具身智能出了一套上海版“統考卷”，為國內具身智能評價體系補齊短板。

不盲目追求任務量

據悉，GM-100測評集包含了100個具體任務，總計1.3萬條操作軌跡數據，規模可觀。項目牽頭人、上海交通大學副教授李永露認為，在當前研究階段，高質量的數據集和評測體系對科研的貢獻至關重要，優化數據分布能有效推動模型能力進步。因此，與其單純追求任務的數據量，該測評集更強調任務設計的廣度與評估體系的深度。

記者從研究團隊了解到，GM-100測評集在設計任務時，首先分析人類與物體交互的基本原語（不可分割的指令），再利用大語言模型生成大量候選任務，經專家篩選優化，最終形成涵蓋從日常簡單操作到罕見復雜場景的100項任務。

此外，該測評集在傳統的任務成功率之外，引入了兩項關鍵指標。一是部分成功率，用於量化多步驟任務中，子步驟的完成情況，避免“非全即無”的粗暴判斷﹔二是動作預測誤差，即衡量模型在面對新情況時動作模仿的精度。

研究團隊對全球主流模型測試結果顯示，GM-100測評集的任務設計難度合理，在不同機器人平台上均可執行且具備區分度，評估結果在不同硬件間也表現出穩定的泛化性，為跨平台模型能力比較提供了可靠參考。

目前，測評集所有100個任務的詳細說明、所需物料清單均已開源，團隊還為每個任務上傳了約130條真實機器人操作軌跡數據。“我們甚至公布了具體物料的購買鏈接，盡可能降低開發者的復現與參與門檻，讓更多人能在同一基准上開展測試。”研究團隊負責人告訴記者。

補齊評價體系短板

當前，具身智能領域評測標准分散且不統一，各團隊自建標准，抓取、路徑規劃等側重點也各不相同，且多局限於高頻簡單場景。隨著技術進步，舊有基准的區分度下降，難以反映復雜環境下的核心挑戰，行業缺乏公認的客觀參照。

“現有具身智能模型結構的泛化能力已顯不足，需進行結構性創新，在數據層面，大規模、高質量數據的採集與評估仍是行業瓶頸。”宇樹董事長王興興在外灘大會、進博會等多個場合公開表示，當前具身智能的制約因素主要是模型架構和數據質量。

為此，上海正努力通過具身數據和模型能力雙維度，找到具身智能行業的破局之道。

在數據方面，智元機器人率先建成全球首個數採超級工廠，還開源了包含百萬條真機數據的AgiBot World數據集。智元具身業務部總裁姚卯青表示，該數據集提供了工業級高質量數據支撐，包含百萬條機器人數據軌跡，每條數據都經過多輪審核，確保場景貼近現實、任務復雜多樣。

此外，國地中心和浦江實驗室聯合團隊計劃完成2500萬組整機數據積累，數據規模達到谷歌同類數據集的10倍。1月22日，上海庫帕思科技與它石智航宣布共建“具身數據星火計劃”，推動實現億小時級別的數據流通規模。

在模型方面，2025年3月，智元發布全球首個通用具身基座大模型智元GO-1，融合多模態大模型（VLM）與混合專家系統（MoE），支持不同本體平台數據採集和部署。上海具識智能還自主研發了全國首個具身智能操作系統InsightOS，在智能制造產線部署、智慧農業作業等產業場景得到應用。

在此基礎上，GM-100測評集的出現，則為上海乃至國內的具身智能評價體系補齊了短板。

“我們的目標並非建立一個絕對公平的物理測試環境，而是打造一個開放、透明、可復現的評測平台。”該負責人表示，通過提供標准化的“考題”（任務）、詳細的“考試說明”（開源資料）和靈活的“閱卷標准”（多維指標），努力成為一張具身智能模型的“統考卷”，不僅有助於橫向比較模型性能，更通過題目設置定義行業的核心能力與前沿問題。

（來源：解放日報記者查睿）

(責編：嚴遠、軒召強)

分享讓更多人看到

人民日報報系

旗下網站

具身智能有了測評“上海卷”，GM-100宣布開源

客戶端下載

熱門排行