====== RPZ Test 16. ledna 2025 ======
===== (12b) 1. Optimální klasifikátor a 1-NN klasifikátor =====
Mějme dvě třídy označené jako $1$ a $2$. Podmíněné a apriorní pravděpodobnosti jsou:
\begin{align*}
p(x | 1) = 1,\ \text{pro } x \in [-1, 1] \\
p(x | 2) = \frac{1}{2},\ \text{pro } x \in [0, 4] \\
p(1) = \frac{1}{4} \\
p(2) = \frac{3}{4}
\end{align*}
\begin{document}
\begin{tikzpicture}[>=latex, scale=3.0]
\draw[thick,->] (-1.5,0) -- (4.5,0) node[below] {$x$};
%\draw[thick,->] (0,-0.5) -- (0,1.5) node[left] {$p(x|1), p(x|2)$};
% p(x|1)
\draw[thick] (-1,1) -- (1,1);
\draw[thick] (1,1) -- (1,0);
\draw[thick] (-1,1) -- (-1,0);
\node at (0.5,1.2) {$p(x|1) = \frac{1}{4}$};
% p(x|2)
\draw[thick] (0,0.5) -- (4,0.5);
\draw[thick] (0,0.5) -- (0,0);
\draw[thick] (4,0.5) -- (4,0);
\node at (2.5,0.7) {$p(x|2) = \frac{1}{2}$};
\node[below] at (-1,0) {-1};
\node[below] at (0,0) {0};
\node[below] at (1,0) {1};
\node[below] at (4,0) {4};
\end{tikzpicture}
\end{document}
\(\text{(a)}\) (5b) Najděte optimální klasifikátor $q^*(x)$, tedy takový, který má na zadaných distribucích minimální chybu klasifikace. Zapište ho v přehlednou formou.
\(\text{(b)}\) (1b) Spočtěte chybu $\varepsilon^*$ tohoto klasifikátoru.
\(\text{(c)}\) (6b) Uvažte klasifikátor 1-NN (klasifikace podle nejbližšího souseda). Předpokládejte asymptotický případ, kdy množství trénovacích a testovacích dat roste k nekonečnu. Spočtěte chybu $\varepsilon^{NN}$ tohoto klasifikátoru.
===== (13b) 2. Odhad parametrů =====
Hustota pravděpodobnosti $p(x)$ na intervalu $x \in [-1, 0.5]$ je definována pomocí parametrů $a$ a $b$ následovně:
\begin{align*}
p(x) = \begin{cases}
a, & \text{pro } x \in [-1, 0] \\
b, & \text{pro } x \in (0, 0.5]
\end{cases}
\end{align*}
\begin{document}
\begin{tikzpicture}[>=latex, scale=4.0]
\draw[thick,->] (-1.5,0) -- (1,0) node[below] {$x$};
\draw[thick,->] (0,0) -- (0,1) node[left] {$p(x)$};
% p(x)
\draw[thick] (-1,0.25) -- (0,0.25);
\draw[thick] (-1,0.25) -- (-1,0);
\draw[thick] (0,1) -- (0,0);
\node[left] at (-1,0.125) {$a$};
\draw[thick] (0,0.5) -- (0.5,0.5);
\draw[thick] (0.5,0.5) -- (0.5,0);
\node[left] at (0.65,0.25) {$b$};
% x-axis labels
\node[below] at (-1,0) {-1};
\node[below] at (0,0) {0};
\node[below] at (0.5,0) {0.5};
\end{tikzpicture}
\end{document}
\(\text{(a)}\) (1b) Napište podmínky pro $a$, $b$ plynoucí z toho, že $p(x)$ má být hustotou pravděpodobnosti.
Mějme trénovací data $\mathcal{X} = \{x_1, x_2, \dots, x_K, x_{K+1}, \dots, x_{K+L}\}$ taková, že:
\begin{align*}
x_i \in [-1, 0] & \text{ pro } i = 1, 2, \dots, K, \\
x_{K+j} \in (0, 0.5] & \text{ pro } j = 1, 2, \dots, L.
\end{align*}
\(\text{(b)}\) (2b) Pro tato trénovací data napište vzorec pro věrohodnost.
\(\text{(c)}\) (4b) Odvoďte vztah pro výpočet parametrů $a$ a $b$ pro tato data metodou maximální věrohodnosti (ML). Potom spočítejte ML odhad pro $a$ a $b$ pro konkrétní trénovací množiny:
\begin{align*}
\mathcal{X}_A &= \{-0.1, 0.2\}, \quad \mathcal{X}_B = \{-0.8, -0.5, -0.3, 0.3\}.
\end{align*}
\(\text{(d)}\) (6b) Nechť navíc apriorní pravděpodobnost pro parametr $a$ je $P(a) = 4a^3$, kde $0 \leq a \leq 1$. Odvoďte vztah pro výpočet parametrů $a$ a $b$ metodou maximalizace aposteriorní pravděpodobnosti (MAP). Potom spočítejte MAP odhad pro $a$ a $b$ pro konkrétní trénovací množiny $\mathcal{X}_A$ a $\mathcal{X}_B$ jako v předchozím bodě.