Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
statnice:bakalar:b4b36zui [2025/09/20 21:57] sanielstatnice:bakalar:b4b36zui [2026/05/29 15:25] (current) – [Policy Improvement] knedl1k
Line 7: Line 7:
   * **Metody prohledávání stavového prostoru** – DFS, BFS, ID-DFS, Dijkstra, A*.   * **Metody prohledávání stavového prostoru** – DFS, BFS, ID-DFS, Dijkstra, A*.
   * **Algoritmy posilovaného učení** – policy evaluation, policy improvement, policy iteration, value iteration, Q-learning.   * **Algoritmy posilovaného učení** – policy evaluation, policy improvement, policy iteration, value iteration, Q-learning.
-  * **Algoritmy pro řešení her dvou hráčů** – minimax, alpha-beta prořezávání, negamax, niggascout, MCTS.+  * **Algoritmy pro řešení her dvou hráčů** – minimax, alpha-beta prořezávání, negamax, negascout, MCTS.
   * **Strukturovaná reprezentace znalostí** – CSP, Scheduling, Situation calculus, STRIPS.   * **Strukturovaná reprezentace znalostí** – CSP, Scheduling, Situation calculus, STRIPS.
   * **Neurčitost v AI** – maximalizace očekávané utility, Bayesovo pravidlo, Bayesovské sítě.   * **Neurčitost v AI** – maximalizace očekávané utility, Bayesovo pravidlo, Bayesovské sítě.
Line 401: Line 401:
  
 $$ $$
-\pi'(s) = \arg\max_{a}\sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V^\pi(s')\bigr].+\pi'(s) = \arg\max_{a}\sum_{s'} P(s'|s,a)\bigl[R(s,a,s') + \gamma V^\pi(s')\bigr].
 $$ $$
  
Line 458: Line 458:
  
 $$ $$
-V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V_k(s')\bigr].+V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a)\left[R(s,a,s') + \gamma V_k(s')\right].
 $$ $$
  
Line 464: Line 464:
  
 $$ $$
-\pi^*(s) = \arg\max_a \sum_{s'} P(s'|s,a),\bigl[R(s,a,s') + \gamma V(s')\bigr].+\pi^*(s) = \arg\max_a \sum_{s'} P(s'|s,a)\bigl[R(s,a,s') + \gamma V(s')\bigr].
 $$ $$
  
Line 582: Line 582:
 Hra je obvykle reprezentována stromem, ve kterém se hráči střídají v rozhodování a každý uzel odpovídá jednomu rozhodovacímu bodu. Hra je obvykle reprezentována stromem, ve kterém se hráči střídají v rozhodování a každý uzel odpovídá jednomu rozhodovacímu bodu.
  
-**minimax, alpha-beta prořezávání, negamax, niggascout, MCTS.**+**minimax, alpha-beta prořezávání, negamax, negascout, MCTS.**
  
 ==== Minimax ==== ==== Minimax ====
Line 635: Line 635:
     * Hry s nulovým součtem, kde jsou hodnoty pro oba hráče přesně opačné.     * Hry s nulovým součtem, kde jsou hodnoty pro oba hráče přesně opačné.
  
-==== Niggascout (Principal Variation Search, PVS) ====+==== NegaScout (Principal Variation Search, PVS) ====
  
 Další vylepšení algoritmu Alpha-Beta (resp. Negamax), které využívá předpoklad, že akce jsou předem dobře seřazené (např. pomocí heuristiky). Tím výrazně urychluje prohledávání. Další vylepšení algoritmu Alpha-Beta (resp. Negamax), které využívá předpoklad, že akce jsou předem dobře seřazené (např. pomocí heuristiky). Tím výrazně urychluje prohledávání.
Navigation

Playground

QR Code
QR Code statnice:bakalar:b4b36zui (generated for current page)