首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 房產
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區
登錄

退出

人民網>>上海頻道

國內首份“大模型安全實踐”報告出爐：大模型“短板”如何補齊

2024年07月07日08:32 | 來源：上觀新聞

小字號

經過一年多的“野蠻生長”，大模型的應用正在聚沙成塔，安全問題也隨之引發關注。2024世界人工智能大會暨人工智能全球治理高級別會議發表的《人工智能全球治理上海宣言》明確提出，要確保其發展過程中的安全性、可靠性、可控性和公平性。

目前，針對大模型的安全評測絕大多數是針對內容類場景，對智能體等高級應用仍是空白區。昨日（5日）下午，《大模型安全實踐（2024）》白皮書發布，這是國內首份“大模型安全實踐”研究報告，從安全性、可靠性、可控性等維度提供技術框架。

大模型仍無法做出專業決策

近兩年來，大模型的進步有目共睹，從本屆WAIC的現場來看，大模型在智能涌現能力上提升明顯，從初級的語言對話到如今多模態、具身智能的發展趨勢，不難看出大模型從規模化邁向產業化。

但是在產業化過程中，業界人士也逐漸發現了大模型的“短板”：泛化能力強但專業能力差，還有長期詬病的幻覺問題。即便是OpenAI最強的大模型GPT-Turbo，依然避免不了事實性錯誤的局限。

“特別是要求嚴謹的行業中，我們發現大模型的幻覺問題和缺乏復雜推理的問題非常嚴重。”螞蟻集團大模型應用部總經理顧進杰安全實驗室首席科學家王維強舉例說，大模型對專業領域知識圖譜的學習有限，在實際使用過程中得謹慎對待。尤其是金融、醫療等領域對模型輸出的專業性和准確性要求極高，“很多醫療的知識不是在書本裡，都是在很多醫生的腦袋中，大模型就沒有辦法做復雜的專業決策”。

特別是Transformer架構成為主流后，以此為基礎的大模型在泛化能力突飛猛進，但“智能涌現”的能力依然是處於“黑盒”中，人類無法控制其生成的結果，因此造成專業能力進步緩慢。即便是OpenAI CEO Sam Altman也坦言，GPT-4的專業性僅相當於專業人士的10%—15%。

對此，白皮書總結大模型發展在當下面臨的技術、個人、企業和社會四大挑戰：大模型技術存在自身缺陷，包括生成內容不可信、能力不可控以及外部安全隱患等問題，帶來諸多風險挑戰，比如生成“幻覺”問題影響生成內容的可信度﹔在個人層面，大模型挑戰廣泛涉及信息獲取、公平正義、人格尊嚴、個人發展以及情感倫理等多個重要維度，同時加劇了“信息繭房”效應﹔在企業層面，大模型面臨用戶隱私與商業秘密泄露、版權侵權及數據安全等多重風險挑戰﹔在社會層面，大模型的廣泛應用不僅沖擊就業市場、擴大數字鴻溝，還可能危及公共安全與利益。

安全、可靠、可控是三大紅線

那麼，什麼樣的大模型在應用過程中能稱之為安全？“安全、可靠、可控，是人工智能的三大紅線。”中國信通院華東分院人工智能事業部主任常永波認為，這三方面缺一不可。

他介紹，安全性意味著確保模型在所有階段都受到保護，包含了數據安全、應用安全、內容安全、倫理安全、認知安全等諸多方面。可靠性要求大模型在各種情境下都能持續地提供准確、一致、真實的結果，包含模型的魯棒性（異常情況下能否運行）、真實性、價值對齊。而可控性關乎模型在提供結果和決策時能否讓人類了解和介入，可根據人類需要進行調適和操作，包含大模型的可解釋研究、大模型的指令遵循能力、安全檢測和水印追溯。

常永波表示，國內頭部廠商走得比較靠前，螞蟻、商湯等圍繞安全和治理都有系統化的技術指標。而個別公司急於在大模型商業化過程中搶佔市場，未能配備相應“安全防護”，如未規范標注和安全自測，會在企業應用和社會治理過程中留有隱患。

“目前，大模型的安全評測絕大多數是針對內容類場景，隨著大模型技術快速發展和廣泛應用，對智能體這類復雜大模型應用架構和未來通用AGI（通用人工智能）的評估是當下面臨的挑戰。”常永波認為，以智能體為核心的檢測，是大模型安全不可或缺的一環。

記者了解到，上屆WAIC“鎮館之寶”蟻天鑒在今年推出2.0版本，新增的“測評智能體”可針對大模型的內在神經元進行“X光掃描”來做探查和判斷。“能讓技術人員直觀感受大模型內部在發生什麼、定位可能引發風險的神經元、並進行編輯修正，從而在模型內部治理幻覺，實現從源頭識別和抑制風險。”螞蟻集團安全內容智能負責人趙智源介紹，蟻天鑒如今還新增了“AI鑒真”技術如今的“AI鑒真”技術，可以快速精准鑒別圖像、視頻、音頻、文本內容的真偽，圖像識別准確率99.9%。

(責編：龔莎、軒召強)

分享讓更多人看到

人民日報報系

旗下網站

國內首份“大模型安全實踐”報告出爐：大模型“短板”如何補齊

客戶端下載

熱門排行