大江東︱上海:發力語料,建設“模都”
“人工智能,是人類養育的‘孩子’,而語料就是‘教材’。”
“我們希望人工智能在倫理價值上有德、情緒價值上有趣、文化價值上有品、社會價值上有序、技術價值上有用。”
7月6日,2024世界人工智能大會舉辦期間,一場關於人工智能語料的論壇首次在滬舉辦。
時針回撥到一年前,在2023世界人工智能大會上,在上海市委書記陳吉寧、上海市市長龔正共同見証下,上海人工智能實驗室、人民網、國家氣象中心等單位聯合發起的中國第一個大模型語料數據聯盟成立。
2023年7月6日,大模型語料數據聯盟成立。王初攝
人工智能需要與人類價值對齊的規范語料
人工智能大模型取決於三大要素:算力、算法、語料。
算力是硬件,算法是大模型企業的核心競爭力,語料則是大模型訓練的重要“燃料”,高質量的語料對於大模型在各行各業的應用十分關鍵。中國是世界上數字化應用場景最豐富的國家,各種場景提供了極為豐富的語料,但各種語料中也存在良莠不齊現象,有些涉及隱私,有的甚至違規違法。目前,大模型發展急需與人類價值對齊的規范語料。
正因於此,上海一直高度重視語料建設。
縱觀全國,北京、上海、深圳、杭州四地在人工智能領域深耕已久,正執產業發展之牛耳。上海的特點,是人工智能頂層設計有力,場景應用豐富,並在公共數據開源方面進行了長期大量探索。
從183家到348家,上海人工智能產業規上企業數量在2018年至2023年間實現高速增長。商湯科技、達觀數據、星環科技等企業開拓人工智能“新藍海”,培育大模型產業發展新生態,加快形成新質生產力。
上海市已有34款大模型通過備案,產生了制造業、金融、具身智能機器人等垂類領域應用﹔多款通用人形機器人原型機發布,實現雙足避障行走﹔4200億Token的語料數據實現開源。
人工智能,是上海著力發展的三大先導產業之一,也是發展新質生產力的重要引擎。隨著大模型時代到來,上海力圖先行一步,構建大模型創新策源地,建設新的“模都”。
去年9月,2023世界人工智能大會閉幕不久,上海“模速空間”創新生態社區即在徐匯西岸揭牌成立。作為全國首個、上海唯一的生成式人工智能專業孵化和加速載體,目前這裡已入駐大模型上下游企業80余家,力爭成為代表上海乃至國家贏取全球科技戰略競爭主動權的“主力因子”。
全國首個大模型創新生態社區“模速空間”。受訪單位供圖
今年3月下旬,在上海市經信委大力推進下,由上海人工智能實驗室、人民網、中國電信、商湯、階躍星辰等多家頭部人工智能領軍企業共同出資,注冊成立中國第一家人工智能語料公司——上海庫帕思科技有限公司。庫帕思公司董事長山棟明表示,希望為全國的人工智能企業提供“1+N”式的語料服務。其中,“1”為公共的核心語料,包括世界知識體系和價值對齊體系﹔“N”為面向垂直應用領域等的專業語料。
語料數據推進人工智能深度鏈接千行百業
備受業界關注的語料數據的應用,還需在人工智能具體實踐中找到未來。
在追逐浪潮中,不少企業發現,並非誰都有精力、有能力去做基礎大模型,於是“小模型”——垂類大模型順勢而生。專門為具體行業而設計的“小模型”如何在企業等應用場景落地?這是許多人工智能企業負責人普遍關注的問題。
“銀行審計業務面臨數據信息和系統架構的分散性、異構性和復雜性等問題,深挖各類數據的價值一直是挑戰,且銀行內部數據的有效利用率普遍不高,尤其是審計部門內部大量文本數據未形成資產。”多年來,深耕垂類大模型領域的達觀數據在金融行業文本處理方面,積累了大量金融專業數據。如今,達觀數據的垂類大模型已經開始面向銀行審計人員,為審計監控平台提供接口服務,還可對各類文檔進行比對,大大提高工作效率。
“樓上住戶噪音擾民,尤其晚上進出人很多,懷疑是群租房,請管理部門盡快解決。”近日,浦東新區塘橋街道城運中心接到12345市民熱線投訴工單,“數字社工”城運助手立即對工單內容進行分析,並自動精准分派給主辦、協辦部門處置,整個流程不到2分鐘。
“數字社工”以大模型為底座,能夠適應基層政務的多種使用場景。“以前,工單派遣靠經驗,分析研判靠人工,費時費力。”在城運中心工作10多年的卜丹鳳說,“數字社工”上崗后,給基層治理帶來了明顯的變化。
“數字社工”能夠將工單分布情況生成熱力圖。唐小麗攝
如今,塘橋街道城運中心自動派單准確率超過90%,工單處置效率提升60%,績效分析和報表生成從2小時縮減至10分鐘,居民回訪滿意度進一步提升。“這樣的技術應用,真是實實在在為基層減負。”卜丹鳳感慨道。
協同區域發展、構建智慧城市、重塑商業密碼、打造數字文娛……在上海,人工智能正深度鏈接千行百業。擁抱“AI+”,在人工智能助力下推動傳統行業轉型升級、指引新興行業加速生長,已成為當下業界共識,發展趨勢不可阻擋。
讓人工智能成長為符合全人類共同價值的“好孩子”
論壇上,人民網、人民日報社傳播內容認知全國重點實驗室聯合上海庫帕思科技有限公司,正式發布人工智能價值對齊“五有”框架。
2024年7月6日,世界人工智能大會語料論壇現場。王初攝
人民網、人民日報社傳播內容認知全國重點實驗室相關負責人表示,建設多維度價值對齊的語料庫,應該堅持“以人為本、智能向善、造福人類”的原則,鼓勵通過國際合作和實際行動,幫助世界各國加強人工智能能力建設。這個體系分成5個主要維度,分別是:體現遵循社會道德規范和法治精神的倫理價值維度,體現滿足個人和群體情感認同交流和成長需求的情緒價值維度,體現助力大眾文化素養提升和促進文明互鑒共進的文化價值維度,體現推動社會公平正義和可持續創新發展的社會價值維度,體現推動科技創新與可控可治的技術價值維度。
倫理價值維度,希望人工智能是有德的。倫理價值是人類社會長期發展的文明積澱,是社會科學研究的重點領域,也是公眾日常行為生活的規范。倫理價值的語料來源及層次非常豐富,要構建涵蓋基礎理論、歷史文化和現實生活等三大板塊的多角度語料內容,全面反映倫理價值的內涵與外延。
情緒價值維度,希望人工智能是有趣的。情緒價值服務於“技術為人類服務”的根本宗旨,希望人工智能將來的發展目標能與人類共情、共鳴,這也是當前人工智能發展的短板。該維度的語料庫建設具有很強的普適性,同時存在個性化、場景化和地域化等特定需求。希望構建涵蓋治愈成長、互動共鳴及自娛探索等三大板塊的多角度語料內容,全面提升人工智能的情緒價值。
文化價值維度,希望人工智能是有品的。人工智能技術的發展和應用,應充分尊重和促進不同文化之間的平等對話和交流,鼓勵文化多樣性和包容性。應重點構建涵蓋中國元素、傳統文化及全球文化等三大板塊的多角度語料內容,推廣各國文化發展和文明進步過程中形成的精神財富和智慧積累,啟發人工智能在人文關懷、審美塑造和啟迪智慧方面的積極作用。
社會價值維度,希望人工智能是有序的。社會價值側的板塊語料,將體現人類普遍認同的關於國家、民族、社會以及全人類層面的價值理念、處事原則和行為規范。要重點從社會和諧、社會發展、全球治理等三大板塊來進行語料組織和建設,讓人工智能成為促進全人類文明和發展的推動力量。
技術價值維度,希望人工智能是有用的。安全性是實現技術價值對齊的首要前提,可靠性是確保人工智能系統廣泛應用和獲得人類信賴的關鍵,可控性是保障人工智能系統依照人類預期行動的基礎,公平性是實現技術普惠和避免社會不公的重要條件。要建設對人類有益的,對人工智能的安全性、可靠性、可控性和公平性進行測評和風險評估的語料數據庫。
簡言之,就是希望人工智能在倫理價值上有德、情緒價值上有趣、文化價值上有品、社會價值上有序、技術價值上有用。“通過5個維度的價值對齊,建設優質語料‘好教材’,助其成長為符合全人類共同價值的‘好孩子’。”語料論壇上,人民網負責人表示。
分享讓更多人看到
- 評論
- 關注