訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
AI智慧更勝人類?不靠人類數據 新版AlphaGo Zero超強
鉅亨網新聞中心
獲取產業訊息零時差!立即訂閱電電公會電子報。
原先舊版 AlphaGo 開發時,先靠人類千年的智慧奠基,由過去的棋譜強化學習運算,算是綜合各家招數後自成一派。但是最新版的 AlphaGo Zero,研究人員只提供遊戲的規則,在不依賴人類數據之下自學,結果「無招勝有招」,表現更勝前代 AlphaGo。
 
DeepMind 作者群在論文中寫道,AlphaGo Zero 證明了即使在最具挑戰的領域,純強化學習的方法也是完全可行的-完全不需要人類提供範例或指導,不提供基本規則以外的任何領域知識,使用強化學習就能夠超越人類的水準。
 
此外,純強化學習方法只花費額外很少的訓練時間,相較於使用人類數據,實現了更好的漸進性能(asymptotic performance)。
 
在很多情況下,人類數據,特別是專家數據,往往太過昂貴,或者根本無法取得。因此,作者認為,如果類似的技術可以應用到其他問題上,這些突破就有可能對社會產生積極的影響。
 
DeepMind 在論文中指出,在進行了 3 天的自我訓練後,AlphaGo Zero 在 100 局比賽中以 100:0 擊敗了上一版本的 AlphaGo,也就是打敗南韓九段棋士李世乭的版本。之後,再經 40 天的自我訓練後,AlphaGo Zero 變得更加強大,超越了「Master」版本的 AlphaGo-完勝柯潔的版本。
訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。