人民網
人民網>>上海頻道

如何定義好數據?這場專業論壇帶來真知灼見

2025年07月28日17:20 | 來源:人民網-上海頻道
小字號

人民網上海7月28日電(馬作鵬 董志雯)7月27日,2025世界人工智能大會“語料筑基 智生時代”語料創新發展論壇在上海拉開帷幕,眾多學界、業界專家分享了真知灼見。

論壇由世界人工智能大會組委會指導,上海庫帕思科技有限公司、上海市人工智能行業協會主辦。上海市委常委、副市長陳杰出席論壇並致辭,中國科學院院士鄂維南等頂尖科學家、人民日報社傳播內容認知全國重點實驗室學術帶頭人張冬明等專家學者和創新創業者作主旨演講和圓桌論壇分享。

陳杰在致辭中指出,對於語料,上海市委市政府一開始就高度重視,因此組建了庫帕思,要求庫帕思以市場化運營的方式為行業發展賦能,為中小企業的創新突破賦能,重點突破具身智能、強推理數據集、稀缺數據集等3個專項工程。

論壇聚焦AI Ready的高質量語料數據,以“平台筑基、工具賦能、標准引領、生態協同”為主線,集中發布四大類核心成果。其中包括:服務能級再上台階,重磅發布“對內對外”2套平台﹔標准牽引生態鏈接,發布13項標准和1項指南﹔持續深化語料數據人才培養,啟動工程碩博士聯合培養項目﹔持續打響CICC大賽、語料風雲榜等生態品牌。

主旨演講環節,中國科學院院士、上海算法創新研究院學術委員會主任鄂維南帶來《Data-centric AI的基礎設施》,深入剖析了數據驅動AI創新應用的技術路徑。

上海庫帕思科技有限公司董事長山棟明帶來《擁抱以數據為中心的人工智能時代》。山棟明表示人工智能的浪潮已經扑面而來,模型在發生一系列的變化,從過去的大參數、多模態模型在慢慢向小參數生產力模型、強推理慢思考模型、科學智能模型和面向物理AI的具身智能模型轉變,相應的語料數據也會發生一系列變化。

上海人工智能實驗室青年科學家何聰輝為大家介紹《MinerU2:異構數據到AI-Ready的智能引擎》。何聰輝表示,當前所有的模型都是用非常類似的公開數據集做訓練,模型的同質化不可避免,如何打破僵局,他認為AI數據的價值發生了躍遷,模型將會從規模之爭走向數據質量的競賽。

另外,論壇直擊行業一線,邀請企業家代表分享實踐案例。商湯科技大裝置事業群解決方案總經理代繼分享《大模型研發語料工程實踐》,聯通數據智能有限公司副總經理宋雨倫分享《構建高質量數據集聯通實踐》,游族網絡股份有限公司首席戰略官傅焜分享《超越文本與圖像:游戲多模態實時語料的價值挖掘》。

圓桌環節,由上海億歐總經理繆國成主持,攜手天娛科技首席數據官吳邦毅、脈策數據創始人湯舸、鬆應科技創始人聶凱旋、上智院主任研究員李吉羊、人民日報社傳播內容認知全國重點實驗室學術帶頭人張冬明,以《什麼是好數據?》為題,共話“好數據是什麼、好數據在哪裡、好數據需要通過怎樣的機制來獲得”。

張冬明在圓桌論壇環節重點分享了人民網在視頻數據語料建設框架標准的工作和諸多實踐。張冬明表示,人民網在主流價值語料庫為基礎上,進一步開展多維度、多層次的視頻語料採集和高效標注體系工作。

(責編:沐一帆、軒召強)

分享讓更多人看到

返回頂部