你了解人工智能嗎 擊敗DOTA2選手的AI隻學習了兩周
昨天8月13日,西雅圖鑰匙體育館內,由特斯拉 CEO 馬斯克投資的人工智能研究機構 Open AI 研發的 Dota2 AI 首次公開亮相,對陣世界頂級選手Dendi。(點我)
Dota2 是一款由玩家操作單一遊戲角色,進行多人對戰的競技遊戲。Open AI 嘗試把遊戲規則教會給人工智能,之後開始讓它不斷和自己對戰來提高水準。
Open AI 的開發工程師 Jakub Pachocki 介紹說:” Dota 2 的人工智能最開始只會在地圖上亂跑,莫名地死於敵人攻擊後,它開始學會哪些行為是錯誤的,逐漸地它開始學會補兵,攻擊對面英雄,訓練過程中其實沒有突然的大突破,就是一點點地更新。基本的學會以後就也逐漸學會比較複雜的操作了。“
Open AI 的網站介紹了人工智能如何通過自我訓練來掌握敵人出現後可能會做出的操作數據,並作出最正確的應對。OpenAI 的 CTO Greg Brockman 解釋說,Dota2 的人工智能從零開始,訓練了一個小時以後就已經可以打過內置的 AI 了,連續訓練了 2 個星期的時間後就達到戰勝職業玩家的水準。
令人驚訝地是,在 Open AI 的內部測試中,人工智能已經完全戰勝了世界知名Dota2 選手 SumaiL 和 Arteezy 等人。
鑰匙體育館內的比賽也和之前內部測試的結果一樣,Dendi 在第一局比賽中以 2:0 告負,而第二局比賽開始僅短短十分鐘之後,Dendi 就選擇了直接認輸,此時AI的實力相比第一局已經更上一個層次,而在此期間並沒有程式員為AI添加代碼,這就是自我學習。
比賽中AI正在卡兵:
在此之前的遊戲 AI 大多建立在由策劃設計的遊戲腳本上,AI 的行為完全由腳本觸發執行,它的智能程度取決於遊戲策劃考慮的細致程度,所以和遊戲 AI 會在比賽中出現固定的行動模式和大量模仿玩家策略的戰術表現。
但 Open AI 的人工智能帶來了新的體驗。它並不是通過腳本行動,也沒有使用模仿學習或者數據搜索,而是從頭記錄 Dota2 的規則,通過和自我對戰來了解每一種行動會產生什麽後果,從而預測其他玩家下一步可能的操作,做到了在複雜環境下的隨機應變。而僅僅訓練 2 個星期就打敗 Dendi的 Dota2 人工智能,也計劃用長達 1 年的時間來實現可以和人類進行團體對戰的功能。