噜噜噜噜私人影院,少妇人妻综合久久中文字幕888,AV天堂永久资源网,5566影音先锋

基于雙深度網(wǎng)絡(luò)的安全深度強化學(xué)習(xí)方法

作者:朱斐; 吳文; 伏玉琛; 劉全 蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院; 江蘇蘇州215006; 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心; 南京210000; 吉林大學(xué)符號計算與知識工程教育部重點實驗室; 長春130012; 蘇州大學(xué)江蘇省計算機信息處理技術(shù)重點實驗室; 江蘇蘇州215006; 常熟理工學(xué)院計算機科學(xué)與工程學(xué)院; 江蘇常熟215500

摘要:深度強化學(xué)習(xí)利用深度學(xué)習(xí)感知環(huán)境信息,使用強化學(xué)習(xí)求解最優(yōu)決策,是當(dāng)前人工智能領(lǐng)域的主要研究熱點之一.然而,大部分深度強化學(xué)習(xí)的工作未考慮安全問題,有些方法甚至特意加入帶隨機性質(zhì)的探索來擴展采樣的覆蓋面,以期望獲得更好的近似最優(yōu)解.可是,不受安全控制的探索性學(xué)習(xí)很可能會帶來重大風(fēng)險.針對上述問題,提出了一種基于雙深度網(wǎng)絡(luò)的安全深度強化學(xué)習(xí)(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法設(shè)計了危險樣本經(jīng)驗池和安全樣本經(jīng)驗池,其中危險樣本經(jīng)驗池用于記錄探索失敗時的臨界狀態(tài)和危險狀態(tài)的樣本,而安全樣本經(jīng)驗池用于記錄剔除了臨界狀態(tài)和危險狀態(tài)的樣本.DDN-SDRL方法在原始網(wǎng)絡(luò)模型上增加了一個深度Q網(wǎng)絡(luò)來訓(xùn)練危險樣本,將高維輸入編碼為抽象表示后再解碼為特征;同時提出了懲罰項描述臨界狀態(tài),并使用原始網(wǎng)絡(luò)目標函數(shù)和懲罰項計算目標函數(shù).DDN-SDRL方法以危險樣本經(jīng)驗池中的樣本為輸入,使用深度Q網(wǎng)絡(luò)訓(xùn)練得到懲罰項.由于DDN-SDRL方法利用了臨界狀態(tài)、危險狀態(tài)及安全狀態(tài)信息,因此Agent可以通過避開危險狀態(tài)的樣本、優(yōu)先選取安全狀態(tài)的樣本來提高安全性.DDN-SDRL方法具有通用性,能與多種深度網(wǎng)絡(luò)模型結(jié)合.實驗驗證了方法的有效性.

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

計算機學(xué)報

北大期刊 下單

國際刊號:0254-4164

國內(nèi)刊號:11-1826/TP

雜志詳情
相關(guān)熱門期刊

服務(wù)介紹LITERATURE

正規(guī)發(fā)表流程 全程指導(dǎo)

多年專注期刊服務(wù),熟悉發(fā)表政策,投稿全程指導(dǎo)。因為專注所以專業(yè)。

保障正刊 雙刊號

推薦期刊保障正刊,評職認可,企業(yè)資質(zhì)合規(guī)可查。

用戶信息嚴格保密

誠信服務(wù),簽訂協(xié)議,嚴格保密用戶信息,提供正規(guī)票據(jù)。

不成功可退款

如果發(fā)表不成功可退款或轉(zhuǎn)刊。資金受第三方支付寶監(jiān)管,安全放心。