花火網訊 人工智能除了下棋,現在又進入了游戲的領域,那么,他們玩的怎么樣呢?首先需要指明的是,騰訊的這篇新論文關注的是 1v1 游戲AI,并不是 5v5 游戲AI。研究人員在論文中解釋稱,后者更注重所有智能體的團隊合作策略,而不是單個智能體的動作決策。
考慮到這一點,1v1游戲更適合用來研究游戲中的復雜動作決策問題,也能夠更加全面系統的研究游戲 AI 智能體的構建。AI的整體架構一共分為4個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發模塊(Dispatch Module)和記憶池(Memory Pool)。
這是一種高可擴展低耦合的系統架構,可以用來構建數據并行化。主要考慮的是復雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓練速度。其中,AI服務器實現的是 AI 模型與環境的交互方式。分發模塊是用于樣本收集、壓縮和傳輸的工作站。記憶池是數據存儲模塊,能為 RL 學習器提供訓練實例。
這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設計和環境邏輯上。這樣的系統設計也可用于其它的多智能體競爭問題。在強化學習學習器中,他們還實現了一個 actor-critic 神經網絡,用于建模1v1 游戲中的動作依賴關系。
為了應對游戲中的多個場景決策,研究人員們還提出了一系列算法策略,來實現更高效率的訓練:
為了幫助AI在戰斗中選擇目標,引入目標注意力機制;
為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
用于構建多標簽近端策略優化(PPO)目標,采用動作依賴關系的解耦;
為了引導強化學習過程中的探索,開發了基于游戲知識的剪枝方法;
為了確保使用大和有偏差的數據批進行訓練時的收斂性,改進 PPO 算法提出dual-clip PPO,其示意圖如下所示:
研究人員在論文中指出,基于這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 內核,訓練一天相當于人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業玩家,其表現要顯著優于多種baseline方法。
而且如前所述,在與人類選手交戰的測試中,獲得了非常亮眼的成績。
以上就是小編整理的關于AI的資訊,將來會不會有人工智能與人類的比賽呢?
此文由 網站目錄_網站網址收錄與提交入口 編輯,未經允許不得轉載!: