本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函數、策略函數求解貝爾曼方程,到利用深度學習模擬價值網絡和策略網絡。書中詳細介紹了深度強化學習相關算法,如Rainbow、Ape-X算法等,并闡述了相關算法的具體實現(xiàn)方式和代表性應用(如AlphaGo)。此外,本書還深度剖析了強化學習各算法之間的聯(lián)系,有助于讀者舉一反三。本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容,反映了深度強化學習領域過去的發(fā)展歷程和研究進展,有助于讀者發(fā)現(xiàn)該領域中新的研究問題和方向。