====== RPZ Test 16. ledna 2025 ====== ===== (12b) 1. Optimální klasifikátor a 1-NN klasifikátor ===== Mějme dvě třídy označené jako $1$ a $2$. Podmíněné a apriorní pravděpodobnosti jsou: \begin{align*} p(x | 1) = 1,\ \text{pro } x \in [-1, 1] \\ p(x | 2) = \frac{1}{2},\ \text{pro } x \in [0, 4] \\ p(1) = \frac{1}{4} \\ p(2) = \frac{3}{4} \end{align*} \begin{document} \begin{tikzpicture}[>=latex, scale=3.0] \draw[thick,->] (-1.5,0) -- (4.5,0) node[below] {$x$}; %\draw[thick,->] (0,-0.5) -- (0,1.5) node[left] {$p(x|1), p(x|2)$}; % p(x|1) \draw[thick] (-1,1) -- (1,1); \draw[thick] (1,1) -- (1,0); \draw[thick] (-1,1) -- (-1,0); \node at (0.5,1.2) {$p(x|1) = \frac{1}{4}$}; % p(x|2) \draw[thick] (0,0.5) -- (4,0.5); \draw[thick] (0,0.5) -- (0,0); \draw[thick] (4,0.5) -- (4,0); \node at (2.5,0.7) {$p(x|2) = \frac{1}{2}$}; \node[below] at (-1,0) {-1}; \node[below] at (0,0) {0}; \node[below] at (1,0) {1}; \node[below] at (4,0) {4}; \end{tikzpicture} \end{document} \(\text{(a)}\) (5b) Najděte optimální klasifikátor $q^*(x)$, tedy takový, který má na zadaných distribucích minimální chybu klasifikace. Zapište ho v přehlednou formou. \(\text{(b)}\) (1b) Spočtěte chybu $\varepsilon^*$ tohoto klasifikátoru. \(\text{(c)}\) (6b) Uvažte klasifikátor 1-NN (klasifikace podle nejbližšího souseda). Předpokládejte asymptotický případ, kdy množství trénovacích a testovacích dat roste k nekonečnu. Spočtěte chybu $\varepsilon^{NN}$ tohoto klasifikátoru. ===== (13b) 2. Odhad parametrů ===== Hustota pravděpodobnosti $p(x)$ na intervalu $x \in [-1, 0.5]$ je definována pomocí parametrů $a$ a $b$ následovně: \begin{align*} p(x) = \begin{cases} a, & \text{pro } x \in [-1, 0] \\ b, & \text{pro } x \in (0, 0.5] \end{cases} \end{align*} \begin{document} \begin{tikzpicture}[>=latex, scale=4.0] \draw[thick,->] (-1.5,0) -- (1,0) node[below] {$x$}; \draw[thick,->] (0,0) -- (0,1) node[left] {$p(x)$}; % p(x) \draw[thick] (-1,0.25) -- (0,0.25); \draw[thick] (-1,0.25) -- (-1,0); \draw[thick] (0,1) -- (0,0); \node[left] at (-1,0.125) {$a$}; \draw[thick] (0,0.5) -- (0.5,0.5); \draw[thick] (0.5,0.5) -- (0.5,0); \node[left] at (0.65,0.25) {$b$}; % x-axis labels \node[below] at (-1,0) {-1}; \node[below] at (0,0) {0}; \node[below] at (0.5,0) {0.5}; \end{tikzpicture} \end{document} \(\text{(a)}\) (1b) Napište podmínky pro $a$, $b$ plynoucí z toho, že $p(x)$ má být hustotou pravděpodobnosti. Mějme trénovací data $\mathcal{X} = \{x_1, x_2, \dots, x_K, x_{K+1}, \dots, x_{K+L}\}$ taková, že: \begin{align*} x_i \in [-1, 0] & \text{ pro } i = 1, 2, \dots, K, \\ x_{K+j} \in (0, 0.5] & \text{ pro } j = 1, 2, \dots, L. \end{align*} \(\text{(b)}\) (2b) Pro tato trénovací data napište vzorec pro věrohodnost. \(\text{(c)}\) (4b) Odvoďte vztah pro výpočet parametrů $a$ a $b$ pro tato data metodou maximální věrohodnosti (ML). Potom spočítejte ML odhad pro $a$ a $b$ pro konkrétní trénovací množiny: \begin{align*} \mathcal{X}_A &= \{-0.1, 0.2\}, \quad \mathcal{X}_B = \{-0.8, -0.5, -0.3, 0.3\}. \end{align*} \(\text{(d)}\) (6b) Nechť navíc apriorní pravděpodobnost pro parametr $a$ je $P(a) = 4a^3$, kde $0 \leq a \leq 1$. Odvoďte vztah pro výpočet parametrů $a$ a $b$ metodou maximalizace aposteriorní pravděpodobnosti (MAP). Potom spočítejte MAP odhad pro $a$ a $b$ pro konkrétní trénovací množiny $\mathcal{X}_A$ a $\mathcal{X}_B$ jako v předchozím bodě.