30 lines
No EOL
1.1 KiB
Text
30 lines
No EOL
1.1 KiB
Text
Zadani c. 18:
|
|
Uvazujte dvourozmerny obdelnikovy stavovy prostor o rozmerech 4 x 5
|
|
s temito indexy jednotlivych stavu:
|
|
|
|
1 2 3 4 5
|
|
6 7 8 9 10
|
|
11 12 13 14 15
|
|
16 17 18 19 20
|
|
|
|
Dale uvazujte, ze aktualni ohodnoceni jednotlivych stavu po predchozich
|
|
prochazkach jsou nasledujici:
|
|
|
|
-0.055 -0.066 0.017 0.242 0.077
|
|
-0.069 -0.044 -0.046 0.000 0.526
|
|
-0.300 0.000 -0.091 0.267 0.176
|
|
-0.163 -0.399 -0.132 0.013 0.038
|
|
|
|
Zadoucim cilovym stavem je stav 9 (reward=1) a nezadoucim cilovym stavem
|
|
je stav 12 (reward=-1). Odmeny ve vsech ostatnich stavech jsou nulove.
|
|
Metodou TD-learning s koeficienty alpha=0.1 a gamma=0.8 vypocitejte nova
|
|
ohodnoceni vsech stavu po prochazce stavy 1 6 7 8 13 18 17 16 11 12
|
|
a vysledek zapiste na radcich c. 27, 28, 29 a 30 ve formatu stejnem jako
|
|
vyse, tj. ve tvaru matice s cisly zaokrouhlenymi na tri desetinna mista.
|
|
|
|
Reseni:
|
|
|
|
-0.055 -0.066 0.017 0.242 0.077
|
|
-0.066 -0.043 -0.049 0.000 0.526
|
|
-0.370 0.000 -0.092 0.267 0.176
|
|
-0.171 -0.372 -0.151 0.013 0.038 |