Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
statnice:bakalar:b4b36zui [2025/06/03 12:01] – zapleka3 | statnice:bakalar:b4b36zui [2025/06/03 12:40] (current) – zapleka3 | ||
---|---|---|---|
Line 351: | Line 351: | ||
* Příliš silná heuristika (např. $h(n) > h^*(n)$) může zrychlit výpočet, ale ztrácí optimálnost. | * Příliš silná heuristika (např. $h(n) > h^*(n)$) může zrychlit výpočet, ale ztrácí optimálnost. | ||
- | ====== 4. Algoritmy posilovaného učení | + | ===== 4. Algoritmy posilovaného učení ===== |
**policy evaluation, policy improvement, | **policy evaluation, policy improvement, | ||
Line 1073: | Line 1073: | ||
1. Inicializace hodnotové funkce $V_0$. | 1. Inicializace hodnotové funkce $V_0$. | ||
2. Iterace pro každý $b \in B$: | 2. Iterace pro každý $b \in B$: | ||
- | $$ V_{i+1}(b) = \max_{a \in A} \left[ R(b, a) + \gamma \sum_{o \in Ω} P(o|b,a) \cdot V_i(b_{a, | + | $$ |
+ | V_{i+1}(b) = \max_{a \in A} \left[ R(b, a) + \gamma \sum_{o \in Ω} P(o|b,a) \cdot V_i(b_{a, | ||
+ | $$ | ||
* $b_{a,o}$ je nová víra (belief) po akci $a$ a pozorování $o$ | * $b_{a,o}$ je nová víra (belief) po akci $a$ a pozorování $o$ |