首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
人民網客戶端
網站無障礙
舉報
登錄

退出

人民網>>上海頻道

《視頻語料建設框架》亮相世界人工智能大會

馬作鵬

2025年07月29日09:51 | 來源：人民網－上海頻道

小字號

大家每天刷視頻，欣賞美景美食、動人故事。那麼，AI看這些視頻，會看到什麼呢？

視頻，不僅包含了豐富的故事內容和視覺信息，還融合了時間序列特征，能夠提供動態、連續的時空表達。視頻，是一種信息密度極高的數據類型，能夠為AI提供更加全面的世界認知，因此其在人工智能訓練中的價值極其重要。

7月26日，2025年世界人工智能大會在上海開幕。顧海民攝

2025年世界人工智能大會（WAIC 2025）期間，傳播內容認知全國重點實驗室（人民網）學術帶頭人張冬明帶著最新研究成果《視頻語料建設框架》參會，分享了如何構建高質量的視頻語料。

張冬明指出，通過足夠的人工智能計算和整合，視頻將從以往的內容載體變成未來的信息載體。整個社會未來所需要的，不僅是利用人工智能生成視頻，也需要從海量的視頻中獲得數據，搭建成數據底座，賦能更多應用場景。這正是人民網提出《視頻語料建設框架》的必要性和緊迫性所在。

視頻語料建設是一項系統工程，旨在構建高質量、多維度、可復用的時空數據庫，為 AI 理解世界、預測世界，並學習與世界交互提供“教材”。

張冬明強調，視頻語料庫建設應堅持主流價值導向，遵循質量優先原則，保証語料的真實准確、均衡多樣。未來，視頻語料也將針對不同領域的需求，建設定制化語料包：

在教育領域，視頻語料能夠提供“課堂互動”“實驗操作” 等語料，用於開發智能教學分析系統﹔再如，視頻語料可用於智能交通領域，提供“雨雪天氣路況”“復雜路口行人行為”等語料，用於訓練車輛環境感知模型﹔還有在醫療領域，視頻語料能夠捕捉醫生診療、手術操作、患者行為等動態過程，為模型提供多模態、時序性強的醫學實踐數據支撐……

可以預見，視頻語料的應用場景，將隨著人工智能訓練的實際需要而不斷豐富。

張冬明表示，人民網《視頻語料建設框架》通過系統化地採集、處理、管理、應用全流程設計，確保語料能有效支撐 AI 認知世界、賦能行業應用。同時，需結合技術發展和需求變化持續優化框架，讓視頻語料庫成為動態生長的“孿生世界”，引導人工智能理解、預測、融入世界。

據悉，《視頻語料建設框架》源自人民網7年來“用主流價值導向駕馭算法”的探索。

早在2019年，人民網就提出，視頻不僅是內容載體，更是包含了大量數據的信息載體。人工智能時代，建設“全程媒體、全員媒體、全效媒體、全息媒體”，亟待用足夠的智能技術、計算資源，把視頻中的時空數據挖掘出來、運用起來。

2019年11月，科技部批准由人民日報社主管、依托人民網建設傳播內容認知國家重點實驗室。2022年5月，實驗室改組為首批20家全國重點實驗室之一。這標志著人民網成為人工智能領域的國家戰略科技力量。

2023年初，人民網啟動“主流價值語料庫”建設。依托黨報黨網長期積累的新聞報道、理論評論、政策文獻等優質資源，人民網團隊經科學採樣歸集、清洗標注、多輪審核，下足“笨功夫”“苦功夫”，精心打造了有效幫助AI對齊政治方向、輿論導向、價值取向、文化傳承的主流價值語料庫，總體規模超過300T，其中基礎語料超300億字、問答語料超30萬對。

【附】視頻語料建設框架（簡版）

傳播內容認知全國重點實驗室（人民網）認為，高質量的視頻語料在 AI 通用世界模型構建中具有不可替代的核心價值，其本質是為模型提供了接近人類認知世界的“動態全景數據”。

視頻語料建設是一項系統性工程，旨在構建高質量、多維度、可復用的時空數據庫，為 AI 理解、預測世界，並學習如何與世界交互提供學習資料。

視頻語料庫建設應堅持主流價值導向，遵循質量優先原則，保証語料的真實准確、均衡多樣。視頻語料採集及標注中應確保視頻語料“三性”，包括：1.復用性：構建標准化、可擴展的語料體系，實現語料的高效管理、復用與共享，降低重復建設成本﹔2融合性：兼顧視頻中的視覺、聽覺、文本等信息，確保語料的信息完整性﹔3.合規性：嚴格遵守數據安全與隱私保護法規，獲取視頻素材時獲得合法授權，對敏感信息進行脫敏處理。

視頻語料採集源包括：公開授權資源、行業合作資源、定制化拍攝、用戶生成內容、AI模型生成等類型。

根據應用需求，明確語料的核心維度，包括：價值觀維度、場景維度、主體維度、多模態維度，確保採集的多樣性。

視頻語料處理的一般處理流程包括：格式標准化、質量優化、脫敏處理、鏡頭分割等。

視頻標注是視頻語料 “賦能” AI 的核心，但過分標注不僅嚴重增加標注成本，也未必有助於AI技術的健康發展，應積極創新標注工具、標注模式，採用人在回路的迭代式標注體系，發展自動模型標注和人工反饋的半自動標注體系，在語料標注實踐中採用領域可遷移標注體系，建立通用層預標注和領域層適配標注相結合的標注模式，使得標注信息可重復利用，提高視頻數據質量。

規模化、高質量視頻語料能為模型提供豐富的多模態感知輸入與真實世界中“狀態-行為-結果”鏈條的數據基礎，使模型能夠學習環境動態、因果關系與長期演化規律。通過對連續視頻中狀態變化、行為決策及其后果的建模，世界模型得以在抽象層面模擬現實，具備對未來情境的預測能力與對環境的內在理解，從而支持具身智能體在復雜、多變的真實世界中進行高質量的認知、推理與規劃。

視頻語料建設框架通過系統化地採集、處理、管理、應用全流程設計，確保語料能有效支撐 AI 認知世界、賦能行業應用。同時，需結合技術發展和需求變化持續優化框架，讓視頻語料庫成為動態生長的 “孿生世界”，引導人工智能理解、預測、融入世界。

(責編：沐一帆、軒召強)

分享讓更多人看到