《視頻語料建設框架》亮相世界人工智能大會

大家每天刷視頻,欣賞美景美食、動人故事。那麼,AI看這些視頻,會看到什麼呢?
視頻,不僅包含了豐富的故事內容和視覺信息,還融合了時間序列特征,能夠提供動態、連續的時空表達。視頻,是一種信息密度極高的數據類型,能夠為AI提供更加全面的世界認知,因此其在人工智能訓練中的價值極其重要。
7月26日,2025年世界人工智能大會在上海開幕。顧海民攝
2025年世界人工智能大會(WAIC 2025)期間,傳播內容認知全國重點實驗室(人民網)學術帶頭人張冬明帶著最新研究成果《視頻語料建設框架》參會,分享了如何構建高質量的視頻語料。
張冬明指出,通過足夠的人工智能計算和整合,視頻將從以往的內容載體變成未來的信息載體。整個社會未來所需要的,不僅是利用人工智能生成視頻,也需要從海量的視頻中獲得數據,搭建成數據底座,賦能更多應用場景。這正是人民網提出《視頻語料建設框架》的必要性和緊迫性所在。
視頻語料建設是一項系統工程,旨在構建高質量、多維度、可復用的時空數據庫,為 AI 理解世界、預測世界,並學習與世界交互提供“教材”。
張冬明強調,視頻語料庫建設應堅持主流價值導向,遵循質量優先原則,保証語料的真實准確、均衡多樣。未來,視頻語料也將針對不同領域的需求,建設定制化語料包:
在教育領域,視頻語料能夠提供“課堂互動”“實驗操作” 等語料,用於開發智能教學分析系統﹔再如,視頻語料可用於智能交通領域,提供“雨雪天氣路況”“復雜路口行人行為”等語料,用於訓練車輛環境感知模型﹔還有在醫療領域,視頻語料能夠捕捉醫生診療、手術操作、患者行為等動態過程,為模型提供多模態、時序性強的醫學實踐數據支撐……
可以預見,視頻語料的應用場景,將隨著人工智能訓練的實際需要而不斷豐富。
張冬明表示,人民網《視頻語料建設框架》通過系統化地採集、處理、管理、應用全流程設計,確保語料能有效支撐 AI 認知世界、賦能行業應用。同時,需結合技術發展和需求變化持續優化框架,讓視頻語料庫成為動態生長的“孿生世界”,引導人工智能理解、預測、融入世界。
據悉,《視頻語料建設框架》源自人民網7年來“用主流價值導向駕馭算法”的探索。
早在2019年,人民網就提出,視頻不僅是內容載體,更是包含了大量數據的信息載體。人工智能時代,建設“全程媒體、全員媒體、全效媒體、全息媒體”,亟待用足夠的智能技術、計算資源,把視頻中的時空數據挖掘出來、運用起來。
2019年11月,科技部批准由人民日報社主管、依托人民網建設傳播內容認知國家重點實驗室。2022年5月,實驗室改組為首批20家全國重點實驗室之一。這標志著人民網成為人工智能領域的國家戰略科技力量。
2023年初,人民網啟動“主流價值語料庫”建設。依托黨報黨網長期積累的新聞報道、理論評論、政策文獻等優質資源,人民網團隊經科學採樣歸集、清洗標注、多輪審核,下足“笨功夫”“苦功夫”,精心打造了有效幫助AI對齊政治方向、輿論導向、價值取向、文化傳承的主流價值語料庫,總體規模超過300T,其中基礎語料超300億字、問答語料超30萬對。
【附】視頻語料建設框架 (簡版)
傳播內容認知全國重點實驗室(人民網)認為,高質量的視頻語料在 AI 通用世界模型構建中具有不可替代的核心價值,其本質是為模型提供了接近人類認知世界的“動態全景數據”。
視頻語料建設是一項系統性工程,旨在構建高質量、多維度、可復用的時空數據庫,為 AI 理解、預測世界,並學習如何與世界交互提供學習資料。
視頻語料庫建設應堅持主流價值導向,遵循質量優先原則,保証語料的真實准確、均衡多樣。視頻語料採集及標注中應確保視頻語料“三性”,包括:1.復用性:構建標准化、可擴展的語料體系,實現語料的高效管理、復用與共享,降低重復建設成本﹔2融合性:兼顧視頻中的視覺、聽覺、文本等信息,確保語料的信息完整性﹔3.合規性:嚴格遵守數據安全與隱私保護法規,獲取視頻素材時獲得合法授權,對敏感信息進行脫敏處理。
視頻語料採集源包括:公開授權資源、行業合作資源、定制化拍攝、用戶生成內容、AI模型生成等類型。
根據應用需求,明確語料的核心維度,包括:價值觀維度、場景維度、主體維度、多模態維度,確保採集的多樣性。
視頻語料處理的一般處理流程包括:格式標准化、質量優化、脫敏處理、鏡頭分割等。
視頻標注是視頻語料 “賦能” AI 的核心,但過分標注不僅嚴重增加標注成本,也未必有助於AI技術的健康發展,應積極創新標注工具、標注模式,採用人在回路的迭代式標注體系,發展自動模型標注和人工反饋的半自動標注體系,在語料標注實踐中採用領域可遷移標注體系,建立通用層預標注和領域層適配標注相結合的標注模式,使得標注信息可重復利用,提高視頻數據質量。
規模化、高質量視頻語料能為模型提供豐富的多模態感知輸入與真實世界中“狀態-行為-結果”鏈條的數據基礎,使模型能夠學習環境動態、因果關系與長期演化規律。通過對連續視頻中狀態變化、行為決策及其后果的建模,世界模型得以在抽象層面模擬現實,具備對未來情境的預測能力與對環境的內在理解,從而支持具身智能體在復雜、多變的真實世界中進行高質量的認知、推理與規劃。
視頻語料建設框架通過系統化地採集、處理、管理、應用全流程設計,確保語料能有效支撐 AI 認知世界、賦能行業應用。同時,需結合技術發展和需求變化持續優化框架,讓視頻語料庫成為動態生長的 “孿生世界”,引導人工智能理解、預測、融入世界。
分享讓更多人看到
- 評論
- 關注