摘要:深度強化學(xué)習(xí)利用深度學(xué)習(xí)感知環(huán)境信息,使用強化學(xué)習(xí)求解最優(yōu)決策,是當(dāng)前人工智能領(lǐng)域的主要研究熱點之一.然而,大部分深度強化學(xué)習(xí)的工作未考慮安全問題,有些方法甚至特意加入帶隨機性質(zhì)的探索來擴展采樣的覆蓋面,以期望獲得更好的近似最優(yōu)解.可是,不受安全控制的探索性學(xué)習(xí)很可能會帶來重大風(fēng)險.針對上述問題,提出了一種基于雙深度網(wǎng)絡(luò)的安全深度強化學(xué)習(xí)(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法設(shè)計了危險樣本經(jīng)驗池和安全樣本經(jīng)驗池,其中危險樣本經(jīng)驗池用于記錄探索失敗時的臨界狀態(tài)和危險狀態(tài)的樣本,而安全樣本經(jīng)驗池用于記錄剔除了臨界狀態(tài)和危險狀態(tài)的樣本.DDN-SDRL方法在原始網(wǎng)絡(luò)模型上增加了一個深度Q網(wǎng)絡(luò)來訓(xùn)練危險樣本,將高維輸入編碼為抽象表示后再解碼為特征;同時提出了懲罰項描述臨界狀態(tài),并使用原始網(wǎng)絡(luò)目標函數(shù)和懲罰項計算目標函數(shù).DDN-SDRL方法以危險樣本經(jīng)驗池中的樣本為輸入,使用深度Q網(wǎng)絡(luò)訓(xùn)練得到懲罰項.由于DDN-SDRL方法利用了臨界狀態(tài)、危險狀態(tài)及安全狀態(tài)信息,因此Agent可以通過避開危險狀態(tài)的樣本、優(yōu)先選取安全狀態(tài)的樣本來提高安全性.DDN-SDRL方法具有通用性,能與多種深度網(wǎng)絡(luò)模型結(jié)合.實驗驗證了方法的有效性.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社