上海:發力語料,建設“模都”
“人工智能,是人類養育的‘孩子’,而語料就是‘教材’!”
“我們希望人工智能在倫理價值上有德、情緒價值上有趣、文化價值上有品、社會價值上有序、技術價值上有用。”
7月6日上午,上海黃浦江畔,2024世界人工智能大會,一場關於人工智能語料的論壇首次舉辦。
時針回撥到一年前的今天——2023世界人工智能大會,上海市委書記陳吉寧與上海市市長龔正共同見証,上海人工智能實驗室、人民網、國家氣象中心等單位聯合發起的中國第一個大模型語料數據聯盟正式成立。
2023年7月6日,大模型語料數據聯盟成立。人民網記者 王初攝
人工智能大模型取決於三大要素:算力、算法、語料。算力是硬件,算法是大模型企業的核心競爭力。中國是世界上數字化應用場景最豐富的國家,各種場景提供了極為豐富的語料。中國是語料大國,但因為各種語料良莠不齊、涉及隱私,甚至違規、違法,目前急需與人類價值對齊的規范語料。
正因於此,上海才會如此重視語料建設。
縱觀全國,北京、上海、深圳、杭州四地在人工智能領域深耕已久,正執產業發展之牛耳。上海的特點,是AI頂層設計有力,場景應用豐富,並在公共數據開源方面進行了長期大量的探索。
從183家到348家,上海人工智能產業規上企業數量在2018至2023年這5年間實現高速增長。商湯科技、達觀數據、星環科技等企業開拓人工智能“新藍海”,培育大模型產業發展新生態,加快形成新質生產力。
上海市已有34款大模型通過備案,產生了制造業、金融、具身智能機器人等垂類領域應用﹔多款通用人形機器人原型機發布,實現雙足避障行走﹔4200億Token的語料數據實現開源。
2023年被稱作“智能互聯網元年”,這一年,我們見証了激烈的“百模大戰”。除了科技巨頭先后入局之外,迅速崛起的一批AI企業也在不斷進場。
而備受業界關注的語料數據的應用,還需在人工智能具體實踐中找到未來。
人工智能,是上海著力發展的三大先導產業之一,也是發展新質生產力的重要引擎。隨著大模型時代到來,上海力圖先行一步,構建大模型創新策源地,建設新的“模都”。
去年9月,2023世界人工智能大會閉幕不久,上海“模速空間”創新生態社區即在徐匯西岸揭牌成立。作為全國首個、上海唯一的生成式AI專業孵化和加速載體,目前這裡已入駐大模型上下游企業80余家,力爭成為代表上海乃至國家贏取全球科技戰略競爭主動權的“主力因子”。
全國首個大模型創新生態社區“模速空間”。受訪單位供圖
今年3月下旬,在上海市經信委大力推進下,由上海人工智能實驗室、人民網、中國電信、商湯、階躍星辰等多家頭部人工智能領軍企業共同出資,注冊成立中國第一家人工智能語料公司——上海庫帕思科技有限公司。庫帕思公司董事長山棟明表示,希望為全國的人工智能企業提供“1+N”式的語料服務。其中,“1”為公共的核心語料,包括世界知識體系和價值對齊體系﹔“N”為面向垂直應用領域等的專業語料。
在追逐浪潮中,不少企業發現,並非誰都有精力、有能力去做基礎大模型,於是“小模型”——垂類大模型順勢而生。專門為具體行業而設計的“小模型”如何在企業等應用場景落地?這是許多AI企業負責人普遍關注的問題。
“銀行審計業務面臨數據信息和系統架構的分散性、異構性和復雜性等問題,深挖各類數據的價值一直是挑戰,且銀行內部數據的有效利用率普遍不高,尤其是審計部門內部大量文本數據未形成資產。”多年來,深耕垂類大模型領域的達觀數據在金融行業文本處理方面,積累了大量金融專業數據。
如今,達觀數據的垂類大模型已經開始面向銀行審計人員,為審計監控平台提供接口服務,還可對各類文檔進行比對,大大提高工作效率。
“樓上住戶噪音擾民,尤其晚上進出人很多,懷疑是群租房,請管理部門盡快解決。”近日,浦東新區塘橋街道城運中心接到12345市民熱線投訴工單,“數字社工”城運助手立即對工單內容進行分析,並自動精准分派給主、協辦部門處置,整個流程不到2分鐘。
“數字社工”以大模型為底座,能夠適應基層政務的多種使用場景。“以前,工單派遣靠經驗,分析研判靠人工,費時費力。”自“數字社工”上崗以來,在城運中心工作十余年的卜丹鳳見証了科技給基層治理帶來的變化。
“數字社工”能夠將工單分布情況生成熱力圖。人民網記者 唐小麗攝
如今,塘橋街道城運中心自動派單准確率超過90%,工單處置效率提升60%,績效分析和報表生成從2小時縮減至10分鐘,居民回訪滿意度再提升。“這樣的技術應用,真是實實在在為基層減負。”卜丹鳳感慨道。
協同區域發展、構建智慧城市、重塑商業密碼、打造數字文娛……在上海,AI正深度鏈接千行百業。擁抱“人工智能+”,在AI助力下推動傳統行業轉型升級,指引新興行業加速生長,已成為當下業界共識,發展趨勢不可阻擋。
2024年7月6日的語料論壇上,語料庫建設導則正式發布。人民網記者 王初攝
“人工智能訓練,不僅要關注數據語料的數量,也要重視‘數據配方’,用高質量數據的最優組合,提升AI效能與安全性。”語料論壇上,人民網負責人介紹,通過倫理價值、情緒價值、文化價值、社會價值、技術價值五個維度的對齊,建設優質語料“好教材”,幫助大模型成長為“以人為本、智能向善、造福人類”、符合全人類共同價值的“好孩子”。
事實上,人民網在人工智能基礎語料庫的建設工作布局已久。
據人民日報社傳播內容認知全國重點實驗室研究員郭俊波介紹,該實驗室成立於2019年11月,由人民日報社主管,依托人民網建設。實驗室建設以國家重大需求為導向、應用基礎研究為定位、學科交叉融合為特色,助推媒體融合向縱深發展。
在他看來,人工智能的多維度價值對齊需要根據不同維度的具體要求,結合其重要程度與規范性要求,制定分級分類標准,形成對人工智能進行安全風險和能力水平評價的規范和要求,指導語料資源的建設,提升人工智能的價值對齊能力。
針對當前人工智能在價值對齊方面的瓶頸問題,郭俊波和人民網上海分公司總經理、庫帕思董事金煜純介紹,未來實驗室將與上海庫帕思公司攜手,共同建設價值對齊體系語料,形成以基礎語料和問答語料2種形式為主,覆蓋5大價值、3大圈層、14個類別、38個細分維度的高質量、多維度價值對齊基石語料庫。雙方將結合各自在數據、技術、人才等方面的優勢資源,共同為人工智能的價值對齊和能力提升提供高質量教材和語料。
如何獲取高質量的數據?如何讓大模型更好落地造福人類?未知的明天,既是機遇,亦是挑戰,大模型一路成長為符合人類共同價值的“好孩子”,尚需多方攜手並肩。
分享讓更多人看到
- 評論
- 關注