人民網
人民網>>上海頻道>>要聞

全國首個規劃資源領域專項語料庫在上海亮相

2025年07月25日09:13 |
小字號

上海量子城市建設新進展:全國首個規劃資源領域專項語料庫亮相

讓“AI規劃專家”更懂城市空間治理

上海量子城市建設正迎來突破性進展。記者日前獲悉,全國首個規劃資源領域專項語料庫在上海亮相,實現數據歸集40TB,未來有望達到200TB。

上海為什麼要打造一座“不明覺厲”的規劃資源專項語料庫?

為什麼需要一座專項“倉庫”

2024年,上海首次披露“量子城市”概念,同時啟動建設全市首個三維空間智能規劃與時空治理模型——雲宇星空大模型。

通過這個規劃與自然資源領域的行業大模型,管理者能夠及時分析特定空間內的人、車、物、企等多種要素的特征,更為精准地分析區域內的資源配置需求,提升空間規劃與自然資源治理效率,把閑置資源騰挪出來建設人們更需要的空間場所。

在大模型的初創團隊中,商湯、阿裡等多家AI頭部企業也有露面。兩股力量共同推動了這次大動作。首要的是回應上海建設現代化人民城市的內在要求。在城市和人的需求升級之后,進一步借助AI等新技術,讓空間資源利用更高效、城市治理更精細。此外,全球一流城市都在錨定AI賽道,加速落地城市空間治理大模型,這既是前沿探索,更是未來的卡位之戰。

語料是AI大模型學習的原始材料,更是驅動行業智能化升級不可或缺的戰略資源與核心燃料。雲宇星空大模型屬於行業大模型,需要專門針對城市治理領域進行訓練,才能讓它的專業知識深度遠超通用大模型。這意味著,雲宇星空大模型的“人設”是一個真實的城市專家、專業規劃師。它不僅具備基礎的看圖識字能力,而且面對人們拋出的有關城市空間的問題,能夠有邏輯地對答如流。

為此,上海市規劃資源局牽頭“定制”了一個專項語料庫,囊括規劃設計、測繪地理、自然資源等領域的學科教材、政策法規、技術標准、審批成果等,如1200份技術標准、5.7萬份20年城建檔案。它具有多模態、體量大、質量高、覆蓋全等特點。專項語料庫的數據資產容量可達200TB,在垂類大模型當中屬於“高配置”。這個體量,對於打造一個頂尖“AI規劃專家”來說,不僅夠用,而且富足。

“人工+自動”標注提升語料質量

“量子城市時空創新先行實驗區”復興島上,駐扎著一支由200多名專業人士組成的團隊,他們專門進行語料的人工標注。

語料標注指的是,對原始材料進行加工處理,轉化為機器能夠學習理解的信息。“一般來說,大模型採用自動標注,我們投入了大量人力做語料加工,這種規模在垂類大模型的開發中並不常見。”上海市數字城市規劃研究中心主任奚文沁說。

但這會不會削弱大模型的智能性?

“人工標注不僅有必要,而且在模型訓練的初期階段,還是最主要的、必不可少的過程。”全國首家人工智能語料超級工廠、語料生產商庫帕思董事長山棟明說,雲宇星空大模型對語料數據的要求遠高於普通的自動化標注。實現這一目標,需要專家進行人工標注,生產高質量專業語料,再利用庫帕思的語料工具鏈進行高效擴展形成規模效應。

換句話說,標注質量直接決定了AI大模型學得好不好。雲宇星空大模型採用“人工+自動”標注,人工標注先打樣,再對自動標注的結果進行校核,讓自動標注去調整,全面提高語料標注質量。

高質量標注能讓大模型更“聰明”,回答的結果更精確,知識深度也將遠超其他同類大模型。比如,開發商想要知道高陽路109號的規劃指標,通用大模型的回答是:“我”手頭沒有實時數據庫,建議咨詢權威渠道,並給出相關渠道聯系方式。經過語料標注與訓練,雲宇星空大模型可以給出實時更新的詳細規劃指標。

未來,想要了解黃浦江兩岸前世今生的城市愛好者隻需要使用雲宇星空大模型,就能看到這裡不同時期的變化圖景,了解城市的生長脈絡。

關鍵語料數據后訓練“四兩撥千斤”

大模型討論如火如荼,對AI幻覺的擔憂也如影隨形。

“高質量的語料標注可以鎖定幻覺。”山棟明說。垂類大模型如果要脫穎而出,關鍵就在於結合自身業務特色,給出最關鍵和精准的數據。雲宇星空大模型採用的“專家精准打樣、機器高效放大”的語料標注模式,就是上海規劃資源行業在落地應用時探索出的應對策略。

雲宇星空大模型的語料庫建設,同樣預示著AI技術演進的趨勢:除了算法和算力,語料數據在大模型訓練中的作用越來越重要。

因此,雲宇星空大模型呈現出區別於其他垂類大模型的特征,投喂語料並非通用數據,而是專為AI量身定制的、與場景適配的高密度、高專業性數據。

相較不少通用大模型著力於大規模數據的預訓練,雲宇星空大模型將重心放在關鍵語料數據的后訓練上,可以用少量算力實現更為精准的內容,達到“四兩撥千斤”的效果。

記者了解到,雲宇星空大模型語料團隊已經產出約46萬條問答對,其中10萬條通過人工評測進入微調集,3萬條形成思維鏈語料用於復雜推理,1萬條作為獨立評測集用於模型測試。后續,還將進一步通過人工評測全面提升語料的通過率,形成高質量規模化語料庫,支撐模型持續迭代。

(來源:解放日報 記者 戚穎璞)

(責編:嚴遠、軒召強)

分享讓更多人看到

返回頂部