人民網
人民網>>上海頻道>>要聞

上海是“高端標注”理想之城 正催生產業生態圈

2026年04月03日09:43 |
訂閱已訂閱已收藏收藏小字號

給數據“打標簽”在線上就能完成,並不依賴城市?資深從業者並不這樣認為

上海是“高端標注”理想之城

今年3月,楊浦區與字節跳動旗下火山引擎共建的火山工場開業,近10家數據標注企業入駐產業園。

在人們慣有印象中,標注行業是賽博空間的“流水線”。給數據“打標簽”的工作在線上就能完成,並不依賴具體哪座城市。然而,資深從業者並不這樣認為。上海頤高智慧人工智能科技有限公司副總裁段淑偉說,上海是高端標注行業的理想之城。

當人工智能技術向醫療、金融、自動駕駛、具身智能等領域深入推進,數據的復雜程度大幅躍升。上海的專業人才密度、企業需求強度與生態協同程度,構成了對高端數據標注行業的吸引力。“入駐后,企業將作為集團數據標注業務全國總部。”他說。

在段淑偉看來,人才是企業選擇上海的首要原因。

數據標注是對數據進行添加標記、說明、解釋、分類和編碼的過程,也是將人類對物理世界的經驗和理解向機器“傳授”的過程。

以具身智能為例,訓練中首先由人工操控機器人完成舞蹈、炒菜、打掃衛生等一系列任務。機器人身上搭載多個攝像頭,採集完成任務過程中的動作畫面作為數據。這些不能被機器直接理解的數據,會被打包成各種“業務包”發給標注團隊。標注員將連貫的動作逐幀拆解,通過自然語言描述每一幀動作后,機器才能學習這些數據。

如果說標注員是機器學習的“教練”,隨著近年來模型能力快速提升,標注業務的內容正在從通識領域的經驗轉向各個專業領域的知識。比如,醫療影像標注需要專業知識以識別病灶,多語種標注業務需要高學歷翻譯人才。

段淑偉認為,數據標注正在從勞動密集型向知識密集型轉變。不僅對從業者的專業要求越來越高,還有向各行各業“搶人才”的趨勢。一些高端標注業務時薪超400元,許多資深標注師來自其他行業,“白天照常上班,晚上兼職標注”。

此外,頭部AI企業需求讓不少高端標注“不得不來”。

在工場大廈9層,辦公空間一分為二:一側是頤高智慧的標注總部,另一側是火山引擎自建的L4級別數據標注基地。

L4是火山引擎保密級別中的最高級。“涉及核心業務的重要數據,頭部企業會嚴防數據泄露。”許多頭部企業大多自建標注基地,業務啟動后不接入外網、不接待參觀,甚至不能攜帶手機進入工區。不同標注團隊擅長的領域不同,圍繞頭部AI企業,往往會形成一些相對集聚的高端標注生態。

標注行業的另一個特點,是強信任、強協同。

“行業內客戶與標注團隊,有點像總包與分包的關系。”段淑偉說,由於標注業務通常數據量巨大、交付時間又緊,單一標注團隊往往難以獨自承接客戶需求。客戶會選擇一家長期信任的供應商作為總包,總包供應商再從領域內挑選業務能力優秀的分包商以及兼職人員,共同完成客戶需求。以頤高智慧為例,企業目前員工有數百人,儲備的合作企業和兼職人員則共計上萬人。

數據標注的准確性,是選擇標注團隊的主要指標。段淑偉說,如果標注的准確率不足,會對客戶投入巨額算力訓練的模型能力造成顯著影響。“我們必須監管供應商表現,如果合作團隊表現不佳,自身同樣無法獲得客戶信任。”

段淑偉認為,強信任、強協同或許將成為上海高端標注的一大優勢。楊浦區與火山引擎共建的火山工場,既有政府的支持實現物理集聚,又能依托火山引擎獲得技術賦能,有望催生一個高品質的產業生態圈。客戶與同行可以大幅降低信任成本,快速彼此“鎖定”,持續釋放市場需求,共同推動產業規模增長。

(來源:解放日報 記者 肖彤)

(責編:嚴遠、軒召強)

分享讓更多人看到

返回頂部