The wiki page is under active construction, expect bugs.

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
statnice:bakalar:b4b36zui [2025/06/03 12:01] zapleka3statnice:bakalar:b4b36zui [2025/06/03 12:40] (current) zapleka3
Line 351: Line 351:
   * Příliš silná heuristika (např. $h(n) > h^*(n)$) může zrychlit výpočet, ale ztrácí optimálnost.   * Příliš silná heuristika (např. $h(n) > h^*(n)$) může zrychlit výpočet, ale ztrácí optimálnost.
  
-====== 4. Algoritmy posilovaného učení ======+===== 4. Algoritmy posilovaného učení =====
  
 **policy evaluation, policy improvement, policy iteration, value iteration, Q-learning** **policy evaluation, policy improvement, policy iteration, value iteration, Q-learning**
Line 1073: Line 1073:
 1. Inicializace hodnotové funkce $V_0$. 1. Inicializace hodnotové funkce $V_0$.
 2. Iterace pro každý $b \in B$: 2. Iterace pro každý $b \in B$:
-   $$ V_{i+1}(b) = \max_{a \in A} \left[ R(b, a) + \gamma \sum_{o \in Ω} P(o|b,a) \cdot V_i(b_{a,o}) \right] $$+$$ 
 +V_{i+1}(b) = \max_{a \in A} \left[ R(b, a) + \gamma \sum_{o \in Ω} P(o|b,a) \cdot V_i(b_{a,o}) \right]  
 +$$
  
   * $b_{a,o}$ je nová víra (belief) po akci $a$ a pozorování $o$   * $b_{a,o}$ je nová víra (belief) po akci $a$ a pozorování $o$
Navigation

Playground

QR Code
QR Code statnice:bakalar:b4b36zui (generated for current page)