摘要:深度Q神經(jīng)網(wǎng)絡(luò)算法的值函數(shù)迭代算法大多為Q學(xué)習(xí)算法,這種算法使用貪婪值函數(shù)作逼近目標(biāo),不利于深度Q神經(jīng)網(wǎng)絡(luò)算法獲得長期來看更好的策略。通過以期望思想求解的期望值函數(shù)取代貪婪值函數(shù)作為更新目標(biāo),提出了基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法,并結(jié)合DQN算法神經(jīng)網(wǎng)絡(luò)更新方法,給出期望值函數(shù)能夠作用于DQN算法的解釋。通過使用該算法能夠快速獲得長期回報較高的動作和穩(wěn)定的策略。最后分別在CarPole-v1和Acrobot仿真環(huán)境中對期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法和深度Q神經(jīng)網(wǎng)絡(luò)算法進(jìn)行獲取策略的穩(wěn)定性對比實驗,結(jié)果表明,基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法能夠快速獲得長期回報較高的動作,并且該算法表現(xiàn)更為穩(wěn)定。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社