首頁 > 期刊 > 四川理工學(xué)院學(xué)報 > 基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法【正文】

基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法

深度q神經(jīng)網(wǎng)絡(luò) 期望值函數(shù) 離策略策略表現(xiàn)

作者：劉川莉; 蔡樂才; 高祥; 居錦武; 吳昊霖四川輕化工大學(xué)自動化與信息工程學(xué)院; 四川自貢643000; 人工智能四川省重點(diǎn)實驗室; 四川自貢643000; 宜賓學(xué)院; 四川宜賓644000; 企業(yè)信息化與物聯(lián)網(wǎng)測控技術(shù)四川省高校重點(diǎn)實驗室; 四川自貢643000; 四川大學(xué)計算機(jī)學(xué)院; 成都610065

摘要：深度Q神經(jīng)網(wǎng)絡(luò)算法的值函數(shù)迭代算法大多為Q學(xué)習(xí)算法,這種算法使用貪婪值函數(shù)作逼近目標(biāo),不利于深度Q神經(jīng)網(wǎng)絡(luò)算法獲得長期來看更好的策略。通過以期望思想求解的期望值函數(shù)取代貪婪值函數(shù)作為更新目標(biāo),提出了基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法,并結(jié)合DQN算法神經(jīng)網(wǎng)絡(luò)更新方法,給出期望值函數(shù)能夠作用于DQN算法的解釋。通過使用該算法能夠快速獲得長期回報較高的動作和穩(wěn)定的策略。最后分別在CarPole-v1和Acrobot仿真環(huán)境中對期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法和深度Q神經(jīng)網(wǎng)絡(luò)算法進(jìn)行獲取策略的穩(wěn)定性對比實驗,結(jié)果表明,基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法能夠快速獲得長期回報較高的動作,并且該算法表現(xiàn)更為穩(wěn)定。

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱

四川理工學(xué)院學(xué)報

省級期刊下單

國際刊號：1672-8580

國內(nèi)刊號：51-1676/C

雜志詳情

相關(guān)熱門期刊

湖北民族大學(xué)學(xué)報·哲學(xué)社會科學(xué)版

省級期刊下單

國際刊號：2096-7586

國內(nèi)刊號：42-1907/C
電腦迷

省級期刊下單

國際刊號：1672-528X

國內(nèi)刊號：50-1163/TP
馬克思主義與中華文化研究

省級期刊下單
世界歷史評論

省級期刊下單

國際刊號：2096-6733

國內(nèi)刊號：31-2160/K1