Table of Contents
RPZ Test 16. ledna 2025
(12b) 1. Optimální klasifikátor a 1-NN klasifikátor
Mějme dvě třídy označené jako $1$ a $2$. Podmíněné a apriorní pravděpodobnosti jsou:
\begin{align*} p(x | 1) = 1,\ \text{pro } x \in [-1, 1] \\ p(x | 2) = \frac{1}{2},\ \text{pro } x \in [0, 4] \\ p(1) = \frac{1}{4} \\ p(2) = \frac{3}{4} \end{align*}
\(\text{(a)}\) (5b) Najděte optimální klasifikátor $q^*(x)$, tedy takový, který má na zadaných distribucích minimální chybu klasifikace. Zapište ho v přehlednou formou.
\(\text{(b)}\) (1b) Spočtěte chybu $\varepsilon^*$ tohoto klasifikátoru.
\(\text{(c)}\) (6b) Uvažte klasifikátor 1-NN (klasifikace podle nejbližšího souseda). Předpokládejte asymptotický případ, kdy množství trénovacích a testovacích dat roste k nekonečnu. Spočtěte chybu $\varepsilon^{NN}$ tohoto klasifikátoru.
(13b) 2. Odhad parametrů
Hustota pravděpodobnosti $p(x)$ na intervalu $x \in [-1, 0.5]$ je definována pomocí parametrů $a$ a $b$ následovně:
\begin{align*} p(x) = \begin{cases} a, & \text{pro } x \in [-1, 0] \\ b, & \text{pro } x \in (0, 0.5] \end{cases} \end{align*}
\(\text{(a)}\) (1b) Napište podmínky pro $a$, $b$ plynoucí z toho, že $p(x)$ má být hustotou pravděpodobnosti.
Mějme trénovací data $\mathcal{X} = \{x_1, x_2, \dots, x_K, x_{K+1}, \dots, x_{K+L}\}$ taková, že: \begin{align*} x_i \in [-1, 0] & \text{ pro } i = 1, 2, \dots, K, \\ x_{K+j} \in (0, 0.5] & \text{ pro } j = 1, 2, \dots, L. \end{align*}
\(\text{(b)}\) (2b) Pro tato trénovací data napište vzorec pro věrohodnost.
\(\text{(c)}\) (4b) Odvoďte vztah pro výpočet parametrů $a$ a $b$ pro tato data metodou maximální věrohodnosti (ML). Potom spočítejte ML odhad pro $a$ a $b$ pro konkrétní trénovací množiny: \begin{align*} \mathcal{X}_A &= \{-0.1, 0.2\}, \quad \mathcal{X}_B = \{-0.8, -0.5, -0.3, 0.3\}. \end{align*}
\(\text{(d)}\) (6b) Nechť navíc apriorní pravděpodobnost pro parametr $a$ je $P(a) = 4a^3$, kde $0 \leq a \leq 1$. Odvoďte vztah pro výpočet parametrů $a$ a $b$ metodou maximalizace aposteriorní pravděpodobnosti (MAP). Potom spočítejte MAP odhad pro $a$ a $b$ pro konkrétní trénovací množiny $\mathcal{X}_A$ a $\mathcal{X}_B$ jako v předchozím bodě.