Differences

This shows you the differences between two versions of the page.

--- statnice:bakalar:b4b36zui [2025/06/03 12:02] – [Point-Based Value Iteration (PBVI)] zapleka3
+++ statnice:bakalar:b4b36zui [2026/05/29 15:25] (current) – [Policy Improvement] knedl1k
@@ Line 351: / Line 351: @@
   * Příliš silná heuristika (např. $h(n) > h^*(n)$) může zrychlit výpočet, ale ztrácí optimálnost.
-====== 4. Algoritmy posilovaného učení ======
+===== 4. Algoritmy posilovaného učení =====
 **policy evaluation, policy improvement, policy iteration, value iteration, Q-learning**
@@ Line 401: / Line 401: @@
 $$
-\pi'(s) = \arg\max_{a}\sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V^\pi(s')\bigr].
+\pi'(s) = \arg\max_{a}\sum_{s'} P(s'|s,a)\bigl[R(s,a,s') + \gamma V^\pi(s')\bigr].
 $$
@@ Line 458: / Line 458: @@
 $$
-V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V_k(s')\bigr].
+V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a)\left[R(s,a,s') + \gamma V_k(s')\right].
 $$
@@ Line 464: / Line 464: @@
 $$
-\pi^*(s) = \arg\max_a \sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V(s')\bigr].
+\pi^*(s) = \arg\max_a \sum_{s'} P(s'|s,a)\bigl[R(s,a,s') + \gamma V(s')\bigr].
 $$
@@ Line 635: / Line 635: @@
     * Hry s nulovým součtem, kde jsou hodnoty pro oba hráče přesně opačné.
-==== Negascout (Principal Variation Search, PVS) ====
+==== NegaScout (Principal Variation Search, PVS) ====
 Další vylepšení algoritmu Alpha-Beta (resp. Negamax), které využívá předpoklad, že akce jsou předem dobře seřazené (např. pomocí heuristiky). Tím výrazně urychluje prohledávání.

Trace: • b0b01lag • b0b36dbs • b0b01ma2 • b4b01dma • b0b01lgr

Differences

Search

Navigation

Print/export

Tools

QR Code