Zadani c. 18: Uvazujte dvourozmerny obdelnikovy stavovy prostor o rozmerech 4 x 5 s temito indexy jednotlivych stavu: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Dale uvazujte, ze aktualni ohodnoceni jednotlivych stavu po predchozich prochazkach jsou nasledujici: -0.055 -0.066 0.017 0.242 0.077 -0.069 -0.044 -0.046 0.000 0.526 -0.300 0.000 -0.091 0.267 0.176 -0.163 -0.399 -0.132 0.013 0.038 Zadoucim cilovym stavem je stav 9 (reward=1) a nezadoucim cilovym stavem je stav 12 (reward=-1). Odmeny ve vsech ostatnich stavech jsou nulove. Metodou TD-learning s koeficienty alpha=0.1 a gamma=0.8 vypocitejte nova ohodnoceni vsech stavu po prochazce stavy 1 6 7 8 13 18 17 16 11 12 a vysledek zapiste na radcich c. 27, 28, 29 a 30 ve formatu stejnem jako vyse, tj. ve tvaru matice s cisly zaokrouhlenymi na tri desetinna mista. Reseni: -0.055 -0.066 0.017 0.242 0.077 -0.066 -0.043 -0.049 0.000 0.526 -0.370 0.000 -0.092 0.267 0.176 -0.171 -0.372 -0.151 0.013 0.038