|
強(qiáng)化學(xué)習(xí)的基礎(chǔ)教程
0.jpg (38.93 KB, 下載次數(shù): 80)
下載附件
2018-3-22 03:30 上傳
0.jpg (41.97 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:30 上傳
0.jpg (24.48 KB, 下載次數(shù): 63)
下載附件
2018-3-22 03:30 上傳
0.jpg (44.59 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:30 上傳
在DP和RL中,控制器(agent,決策者)與過(guò)程(環(huán)境)進(jìn)行交互,
通過(guò)3種信號(hào):
在每個(gè)離散時(shí)間步,控制器接收來(lái)自過(guò)程的狀態(tài)測(cè)量值,并采取一個(gè)動(dòng)作,使得過(guò)程遷移到一個(gè)新?tīng)顟B(tài),并產(chǎn)生一個(gè)獎(jiǎng)賞,其中獎(jiǎng)賞值用來(lái)評(píng)估狀態(tài)遷移的質(zhì)量。
控制器發(fā)出的行為指令是受控于策略的(從狀態(tài)到動(dòng)作的函數(shù))。
過(guò)程的行為是由它的動(dòng)態(tài)性來(lái)描述的,對(duì)過(guò)程采取動(dòng)作(由控制器發(fā)出的指令)后,狀態(tài)如何變化。
0.jpg (15.14 KB, 下載次數(shù): 64)
下載附件
2018-3-22 03:31 上傳
0.jpg (38 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:31 上傳
0.jpg (22.57 KB, 下載次數(shù): 76)
下載附件
2018-3-22 03:32 上傳
0.jpg (45.42 KB, 下載次數(shù): 74)
下載附件
2018-3-22 03:32 上傳
完整的pdf格式文檔51黑下載地址(共66頁(yè)):
強(qiáng)化學(xué)習(xí).pdf
(4.38 MB, 下載次數(shù): 28)
2018-3-21 21:49 上傳
點(diǎn)擊文件名下載附件
下載積分: 黑幣 -5
|
評(píng)分
-
查看全部評(píng)分
|