摘要:針對傳統Q-learning算法在復雜環境下移動機器人路徑規劃問題中容易產生維數災難的問題,提出一種改進方法。該方法將深度學習融于Q-learming框架中,以網絡輸出代替Q值表,解決維數災難問題。通過構建記憶回放矩陣和雙層網絡結構打斷數據相關性,提高算法收斂性。最后,通過柵格法建立仿真環境建模,在不同復雜程度上的地圖上進行仿真實驗,對比實驗驗證了傳統Q-learming難以在大狀態空間下進行路徑規劃,深度強化學習能夠在復雜狀態環境下進行良好的路徑規劃。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社