可回溯過去能解決復雜任務 AI向真正“智能學習體”邁進

2021年02月25日16:25 來源：科技日報

原標題：AI向真正“智能學習體”邁進

　　科技日報北京2月24日電（記者張夢然)英國《自然》雜志24日發表一項人工智能研究成果：美國團隊報告了一類增強學習，可回溯過去、解決復雜任務，真正改善了對復雜環境的探索方式，有望應用於機器人、語言理解和藥物設計領域。這類算法被統稱為“Go-Explore”，其已經在一款經典游戲的算法挑戰中得分超過了人類玩家和先進的人工智能系統。該成果被認為正朝著實現真正“智能學習體”邁出了重要一步。

　　增強學習，可讓人工智能系統通過探索和理解復雜環境來進行決策，並學習如何以最優的方式獲得獎勵。獎勵可以包括機器人抵達特定位置或是在電腦游戲中達到一定的等級。然而，當遇到很少給予反饋的復雜環境時，現階段的加強學習算法就很容易碰壁，這讓人工智能專家們非常苦惱。

　　美國“OpenAI”是由諸多硅谷巨頭聯合建立的人工智能非營利組織，推動者包括美國創業孵化器Y Combinator總裁薩姆·阿爾特曼、美國太空技術探索公司（SpaceX）創始人埃隆·馬斯克等，其目標是希望能夠預防人工智能的災難性影響，並推動人工智能發揮積極作用。此次，“OpenAI”的科學家艾德蘭·艾克菲特、朱斯特·赫伊津哈及團隊，提出了有效探索面臨的兩個主要障礙，並設計了一類算法來解決這些障礙。

　　研究人員表示，“Go-Explore”可以對環境進行全面探索，同時構建一個檔案庫來記住它去過的地方，確保自己不會忘記通往有望成功的期中階段或是最終勝利（獎勵）的路線。其在雅達利經典游戲中的得分，超過了人類玩家和先進的人工智能系統，研究人員用這類算法，解決了之前未能解決的2600個雅達利游戲，驗証了這類算法的潛力。“Go-Explore”在算法挑戰《蒙特祖馬的復仇》中的得分是之前的4倍，在另一個算法挑戰《瑪雅人的冒險》中的得分也超過了人類玩家的平均水平。而相對的，此前的算法一分都拿不到。

　　“Go-Explore”算法還能完成一個模擬機器人任務，在這項任務中，它必須用機械臂把東西撿起來並放到4個架子中的一個架子上，其中兩個架子被關在兩扇門的后面。

　　研究人員指出，記住並回到有望成功的探索區域的簡單原則是一種強大、通用的探索方法。他們認為最新的算法有望應用於機器人、語言理解和藥物設計。

(責編：嚴遠、軒召強)