====== Způsoby popisu rozdělení náhodných veličin a vektorů. Odhady parametrů rozdělení. Základní statistické testy. Markovské řetězce a jejich asymptotické vlastnosti. ====== [[https://fel.cvut.cz/cz/education/bk/predmety/46/81/p4681506.html|B0B01PST]] [[https://cmp.felk.cvut.cz/~navara/stat/index.htm|Webové stránky předmětu]] [[https://math.fel.cvut.cz/en/people/heliskat/01pst2.html|Helisova stránky předmětu]] * **Definice pravděpodobnosti (Kolmogorovova)** – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení. * **Náhodné vektory a jejich popis** – nezávislost náhodných veličin, kovariance a korelace. * **Čebyševova nerovnost** – centrální limitní věta. * **Základní pojmy statistiky** – náhodný výběr, empirické rozdělení. * **Obecné vlastnosti odhadů parametrů** – odhady střední hodnoty, rozptylu, směrodatné odchylky, momentů. Odhady parametrů metodou momentů a metodou maximální věrohodnosti. Intervalové odhady. * **Princip statistického testování hypotéz** – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce. * **Markovovy řetězce** – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců. ===== 1. Definice pravděpodobnosti (Kolmogorovova) ===== * Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení. * Pravděpodobnost je funkce, která popisuje budoucí pravdivost neznámých jevů. Z teorie vyvozujeme realitu – udává, jak moc očekáváme, že nastane určitý jev. * Náhodný pokus – proces, jehož výsledek není předem jednoznačně určen, ale lze popsat množinou možných výsledků. Např. hod kostkou. * Elementární jev – konkrétní výsledek náhodného pokusu. * Jev – množina elementárních jevů, které sdílí určitou vlastnost. Např. „padla sudá“. * Jistý jev – nastává vždy, nemožný jev – nikdy. Opačný jev – doplněk vzhledem k celku. * Jevové pole – množina všech pozorovatelných jevů (např. exp Ω). * Úplný systém jevů – kolekce navzájem neslučitelných jevů, jejichž sjednocení tvoří jistý jev. Součet jejich pravděpodobností je 1. ==== Kolmogorovova definice pravděpodobnosti ==== * Kolmogorovova definice pravděpodobnosti je založená na třech axiomech: * **Axiom nezápornosti**: $\forall A \in \mathcal{A}: P(A) \geq 0$ * **Axiom normovanosti**: $P(\Omega) = 1$ * **Axiom σ-aditivity**: Pro neslučitelné jevy $A_1, A_2, \dots$, platí: $P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$ * Pravděpodobnostní prostor je trojice $(\Omega, \mathcal{A}, P)$, kde: * $\Omega$ – neprázdná množina elementárních jevů * $\mathcal{A}$ – σ-algebra podmnožin $\Omega$ * $P$ – pravděpodobnostní míra * σ-algebra $\mathcal{A}$ splňuje: * $\emptyset \in \mathcal{A}$ * $A \in \mathcal{A} \Rightarrow A^c \in \mathcal{A}$ * $A_1, A_2, \dots \in \mathcal{A} \Rightarrow \bigcup_{i=1}^{\infty} A_i \in \mathcal{A}$ * Borelova σ-algebra – nejmenší σ-algebra na $\mathbb{R}$ obsahující všechny otevřené intervaly. Obsahuje i uzavřené, polouzavřené a jejich spočetné sjednocení. ==== Nezávislost náhodných jevů ==== * Jevy $A$ a $B$ jsou **nezávislé**, pokud: * $P(A \cap B) = P(A) \cdot P(B)$ * To znamená, že výskyt jednoho jevu nijak neovlivňuje výskyt druhého. * Ekvivalentně: $P(A | B) = P(A)$ a $P(B | A) = P(B)$ * Důsledky: * Pro nezávislé jevy platí také: $P(A \cup B) = P(A) + P(B) - P(A) \cdot P(B)$ * Nezávislost nelze zaměňovat se **neslučitelností** – neslučitelné jevy nemohou nastat současně: $P(A \cap B) = 0$. * Dvojice jevů může být: * **Neslučitelná a závislá** – např. „padla 1“ a „padla 6“ * **Nezávislá a slučitelná** – např. „padla sudá“ a „padla větší než 3“ * V praxi ověřujeme nezávislost pomocí výpočtu $P(A \cap B)$ a porovnáním s $P(A) \cdot P(B)$ ==== Klasická (Laplaceova) definice pravděpodobnosti ==== * Náhodný pokus má $n$ různých stejně pravděpodobných výsledků. * Pravděpodobnost jevu $A \subseteq \Omega$ je: $P(A) = \frac{|A|}{|\Omega|}$ * Tento model je vhodný pouze pro konečné diskrétní prostory s rovnoměrnými rozděleními. * Nevhodný pro spojité rozdělení nebo nekonečné množiny – zde se uplatňuje Kolmogorovův přístup. ==== Podmíněná pravděpodobnost ==== * **Podmíněná pravděpodobnost** je pravděpodobnost jevu $A$ za předpokladu, že nastal jev $B$. Značí se $P(A|B)$ a definuje se jako: $$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{pouze pokud } P(B) > 0 $$ * Znamená to, že podmíněná pravděpodobnost výskytu $A$, pokud víme, že nastal $B$, je rovna pravděpodobnosti průniku obou jevů dělené pravděpodobností $B$. * Tato definice odpovídá intuitivnímu chápání „pravděpodobnosti za předpokladu“. Upřesňuje, jak se mění pohled na pravděpodobnost, když víme, že se určitý jev již stal. * Z podmíněné pravděpodobnosti vyplývá také užitečná identita (úplný zákon pravděpodobnosti): $$ P(A) = P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) $$ * To znamená, že pravděpodobnost jevu $A$ lze rozdělit podle toho, zda nastal $B$ nebo jeho doplněk. * **Řetězové pravidlo** (chain rule): Pravděpodobnost výskytu posloupnosti jevů lze zapsat jako součin podmíněných pravděpodobností: $$ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \dots \cap A_{n-1}) $$ * Například pro posloupnost hodů kostkou můžeme psát: $P(1,4,6,2) = P(1) \cdot P(4|1) \cdot P(6|1 \cap 4) \cdot P(2|1 \cap 4 \cap 6)$ * **Nezávislost jevů a podmíněná pravděpodobnost**: * Jevy $A$ a $B$ jsou **nezávislé**, právě když: $$ P(A|B) = P(A) \quad \text{a} \quad P(B|A) = P(B) $$ * Z toho plyne i definice pro průnik: $P(A \cap B) = P(A) \cdot P(B)$ * **Podmíněná nezávislost**: * Jevy $A$ a $B$ jsou **podmíněně nezávislé** vzhledem k $C$, pokud: $$ P(A \cap B | C) = P(A|C) \cdot P(B|C) $$ * To znamená, že pokud víme, že nastal jev $C$, pak $A$ a $B$ jsou vůči sobě nezávislé. ==== Bayesova věta ==== * **Bayesova věta** je základní vztah v teorii pravděpodobnosti, který umožňuje *obrátit* podmíněné pravděpodobnosti. Z vyjádření pravděpodobnosti $P(B|A)$ získáme $P(A|B)$: $$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$ * pouze pokud P(B) > 0 * Tento vzorec umožňuje odhadnout pravděpodobnost jevu $A$ za předpokladu, že nastal $B$, na základě znalosti pravděpodobnosti $B$ za podmínky $A$ (tzv. likelihood) a apriorní pravděpodobnosti $A$. * **Interpretace**: * $P(A)$ – apriorní pravděpodobnost jevu $A$ (např. pravděpodobnost nemoci před testováním) * $P(B|A)$ – pravděpodobnost pozorování $B$ za předpokladu $A$ (např. pozitivní test pokud je nemoc) * $P(B)$ – celková pravděpodobnost jevu $B$ (např. celková pravděpodobnost pozitivního testu) * $P(A|B)$ – aposteriorní pravděpodobnost (pravděpodobnost, že má pacient nemoc, když test vyšel pozitivně) * **Rozšíření na více jevů – věta o úplné pravděpodobnosti a Bayesův vzorec**: * Pokud máme úplný systém disjunktních jevů $A_1, A_2, ..., A_n$ (např. různé možné příčiny nějakého jevu), a známe pravděpodobnosti $P(A_i)$ a podmíněné pravděpodobnosti $P(B|A_i)$, pak: $$ P(B) = \sum_{j=1}^{n} P(A_j) \cdot P(B|A_j) $$ * A Bayesova věta pro konkrétní $A_i$: $$ P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B|A_j)} $$ * **Praktický příklad – falešně pozitivní testy (FP), pravdivě pozitivní (TP), atd.**: * Např. pravděpodobnost, že pacient má nemoc (A), když test (B) je pozitivní: * $P(A)$ – pravděpodobnost, že má nemoc * $P(B|A)$ – test odhalí nemoc (true positive rate) * $P(B|\neg A)$ – test je falešně pozitivní (false positive rate) * $P(\neg A)$ – nemá nemoc * Pak: $$ P(A|B) = \frac{P(A) \cdot P(B|A)}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A)} $$ * **Význam v praxi**: * Základní nástroj v medicíně (diagnostika), strojovém učení (naivní Bayesův klasifikátor), rozhodování s neúplnými informacemi. ==== Náhodná veličina ==== Náhodná veličina je **měřitelná funkce** $X: \Omega \rightarrow \mathbb{R}$, která každému elementárnímu jevu $\omega \in \Omega$ přiřadí reálné číslo. Je definována na pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$. Měřitelnost znamená, že pro každý interval $I \subseteq \mathbb{R}$ je množina $\{\omega \in \Omega : X(\omega) \in I\} \in \mathcal{A}$, tj. lze jí přiřadit pravděpodobnost. * **Distribuční funkce** náhodné veličiny $X$ je funkce: $$ F_X(t) = P(X \leq t) $$ * Je to neklesající, zprava spojitá funkce, začínající v 0 a konvergující k 1. Popisuje pravděpodobnost, že náhodná veličina $X$ nabude hodnoty menší nebo rovné $t$. * **Hustota pravděpodobnosti** (pokud existuje) je derivací distribuční funkce: $$ f_X(t) = \frac{dF_X(t)}{dt}, \quad f_X(t) \geq 0 $$ * Pravděpodobnost intervalu: $$ P(a < X \le b) = F_X(b) - F_X(a) = \int_a^b f_X(t) \, dt $$ * Základní vlastnosti hustoty: * $f_X(x) \ge 0$ * $\int_{-\infty}^{\infty} f_X(x) \, dx = 1$ * **Pravděpodobnostní funkce** (pro diskrétní náhodné veličiny - pravděpodobnost, že náhodná veličina $X$ nabude konkrétní hodnoty $t$): $$ p_X(t) = P(X = t) $$ * **Pravděpodobnostní míra** $P_X$ určuje pravděpodobnost jevů náhodné veličiny $X$ a splňuje: * $P_X(\mathbb{R}) = 1$ * $P_X(\emptyset) = 0$ * Pokud jsou množiny $B_i$ disjunktní, pak $P_X\left(\bigcup_i B_i\right) = \sum_i P_X(B_i)$ === Diskrétní náhodná veličina === Nabývá konečný nebo spočetný počet hodnot. Distribuční funkce je **schodová**, pravděpodobnost konkrétní hodnoty je dána pravděpodobnostní funkcí: $$ p(t) = P(X = t) = \sum_i p_i \delta(t - t_i) $$ * kde $\delta$ je Diracova funkce. * Platí $\sum_i p_i = 1$ * Pro libovolný interval: $P(a < X \le b) = \sum_{i: a < t_i \le b} p_i$ {{:statnice:bakalar:pasted:20250526-103518.png}} === Spojitá náhodná veličina === Nabývá nekonečně mnoho hodnot. Distribuční funkce je **spojitá**, ale pravděpodobnost, že veličina nabude konkrétní hodnoty, je vždy nulová: $$ P(X = t) = 0 \quad \text{pro všechna } t \in \mathbb{R} $$ * Hustota pravděpodobnosti je definována jako (ale pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty, je vždy 0.): $$ f_X(t) = \frac{dF_X(t)}{dt} $$ * A platí: $$ F_X(t) = \int_{-\infty}^{t} f_X(u) \, du $$ {{:statnice:bakalar:pasted:20250526-103420.png}} === Smíšená náhodná veličina === Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce obsahuje **diskrétní schody** i **spojité části**. Hustota: $$ f(t) = \sum_i p_i \delta(t - t_i) + f_c(t) $$ kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části. ==== Střední hodnota, rozptyl a směrodatná odchylka ==== **Střední hodnota** (očekávaná hodnota) náhodné veličiny $X$ je definována jako „vážený průměr“ hodnot, které může $X$ nabývat, kde váhou je pravděpodobnost výskytu těchto hodnot. * Pro **spojitou náhodnou veličinu** s hustotou pravděpodobnosti $f(t)$ platí: $$ E(X) = \int_{-\infty}^{\infty} t f(t) \, dt $$ * Pro **diskrétní náhodnou veličinu**, která nabývá hodnot $t_i$ s pravděpodobností $p_i$, je očekávaná hodnota dána součtem: $$ E(X) = \sum_{i} t_i p_i $$ Střední hodnota tedy představuje „průměrnou“ hodnotu, kterou bychom očekávali při velkém počtu opakování náhodného pokusu. **Poznámka**: Lze ji také zapsat pomocí distribuční funkce: $$ E(X) = \int_{-\infty}^{\infty} x \, dF(x) $$ pokud integrál existuje. V diskrétním případě lze výpočet provést přes konvergentní řadu: $$ E(X) = \sum_{i=1}^{\infty} x_i \cdot p_i $$ **Rozptyl** (variance) náhodné veličiny $X$ popisuje, jak moc se hodnoty náhodné veličiny „rozptylují“ kolem její střední hodnoty. Je to očekávaná hodnota druhé mocniny odchylky od střední hodnoty: $$ Var(X) = E((X - E(X))^2) $$ Tuto definici lze přepsat pomocí tzv. Steinerovy věty do ekvivalentního tvaru: $$ Var(X) = E(X^2) - (E(X))^2 $$ kde $E(X^2)$ je očekávaná hodnota druhé mocniny veličiny $X$. Rozptyl měří míru „rozptýlení“ hodnot kolem průměru. Čím vyšší rozptyl, tím větší je variabilita dat. **Směrodatná odchylka** (standard deviation) je druhá odmocnina rozptylu: $$ \sigma(X) = \sqrt{Var(X)} $$ Jedná se o často používanou míru variability, protože má stejné jednotky jako původní veličina (na rozdíl od rozptylu, který má jednotky druhé mocniny). **Moment** náhodné veličiny $X$ je obecné rozšíření střední hodnoty a definuje se jako očekávaná hodnota $k$-té mocniny náhodné veličiny: * Pro spojitou náhodnou veličinu: $$ M_k(X) = E(X^k) = \int_{-\infty}^{\infty} t^k f(t) \, dt $$ * Pro diskrétní náhodnou veličinu: $$ M_k(X) = \sum_{i} t_i^k p_i $$ Momenty slouží k popisu tvaru rozdělení (např. šikmost, špičatost), přičemž: * $M_1(X)$ je střední hodnota, * $M_2(X) - (M_1(X))^2$ je rozptyl, * vyšší momenty popisují například „šikmost“ nebo „špičatost“ rozdělení. Existují i tzv. **centrální momenty**, které mají tvar: $$ \mu_k = E((X - E(X))^k) $$ Například druhý centrální moment je právě rozptyl. ==== Základní typy rozdělení ==== === Diskrétní rozdělení === **Binomické rozdělení** – popisuje počet úspěchů v $n$ nezávislých Bernoulliho pokusech, kde každý pokus má pravděpodobnost úspěchu $p$. Distribuční funkce je dána jako: $$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$$ Střední hodnota $EX = np$, rozptyl $varX = np(1-p)$. **Poissonovo rozdělení** – popisuje počet událostí v pevném intervalu při konstantní intenzitě $\lambda$. Distribuční funkce je: $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$ Střední hodnota i rozptyl $EX = varX = \lambda$. **Geometrické rozdělení** – popisuje **počet neúspěchů před prvním úspěchem** v sérii nezávislých Bernoulliho pokusů s pravděpodobností úspěchu $p$. Distribuční funkce je: $$ P(X = k) = p(1 - p)^{k}, \quad k = 0, 1, 2, \ldots$$ Střední hodnota $EX = \frac{1-p}{p}$, rozptyl $varX = \frac{1-p}{p^2}$. *(Pozn.: V některých definicích se udává počet pokusů do prvního úspěchu $(k=1,2,\ldots)$, materiály však explicitně uvádějí $k=0$).* **Alternativní (Bernoulliho) rozdělení** - popisuje **jediný pokus** s pravděpodobností úspěchu $p$. Nabývá hodnot: * $X=1$ (úspěch) s $P(X=1)=p$ * $X=0$ (neúspěch) s $P(X=0)=1-p$ * Střední hodnota $EX=p$, rozptyl $varX=p(1-p)$. * (Pozn.: Popis "počet pokusů do prvního úspěchu s různými $p_i$" neodpovídá Alt(p) v materiálech).* **Rovnoměrné rozdělení** – popisuje náhodnou veličinu nabývající hodnot $a, a+1, \ldots, b$ s rovnoměrnou pravděpodobností: $$ P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a + 1, \ldots, b$$ **Hypergeometrické rozdělení** * popisuje počet úspěchů při $n$ náhodných výběrech bez vracení z populace $N$ s $K$ úspěšnými položkami: $$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad k = \max(0, n - (N - K)), \ldots, \min(K, n)$$ Střední hodnota $E(X) = n \frac{K}{N}$. === Spojitá rozdělení === **Rovnoměrné rozdělení** – popisuje náhodnou veličinu na intervalu $[a, b]$ s konstantní hustotou: $$ f(x) = \begin{cases} \frac{1}{b - a}, & a < x < b \\ 0, & \text{jinak} \end{cases}$$ Distribuční funkce: $$ F(x) = \begin{cases} 0, & x < a \\ \frac{x - a}{b - a}, & a \leq x < b \\ 1, & x \geq b \end{cases} $$ $E[X] = \frac{b-a}{2}$ $\text{Var}(X) = \frac{(b-a)^2}{12}$ **Normální rozdělení** – symetrické rozdělení se střední hodnotou $\mu$ a rozptylem $\sigma^2$. Hustota: $$ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ Distribuční funkce $\Phi(x)$ nemá uzavřený tvar. Speciální případ: **N(0,1)** s hustotou $f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$. **Exponenciální rozdělení** – popisuje **dobu mezi událostmi v Poissonově procesu** s intenzitou $\lambda$: Hustota: $$ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$ Distribuční funkce: $$ F(x) = 1 - e^{-\lambda x}, \quad x \geq 0$$ ===== 2. Náhodné vektory a jejich popis ===== **Náhodné vektory a jejich popis** – nezávislost náhodných veličin, kovariance a korelace. **Náhodný vektor** je $n$-rozměrný vektor $(X_1, X_2, \ldots, X_n)$, kde každá složka $X_i$ je náhodná veličina – měřitelná funkce definovaná na stejném pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$, která každému elementárnímu jevu přiřadí reálnou hodnotu. * Náhodný vektor můžeme chápat buď jako množinu náhodných veličin zkoumaných současně, nebo jako jednu náhodnou veličinu zkoumanou na několika objektech. * Jedná se o zobrazení z $\Omega$ do $\mathbb{R}^n$. **Společná distribuční funkce** (distribuční funkce náhodného vektoru) je definována jako: $$ F(x_1, x_2, \ldots, x_n) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n) $$ * Tato funkce je: * neklesající v každé proměnné, * zprava spojitá, * její limity jsou 0 v $-\infty$ a 1 v $+\infty$. Pro **spojitý náhodný vektor** existuje společná hustota pravděpodobnosti $f(x_1, \ldots, x_n)$ taková, že: $$ F(x_1, \ldots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \ldots, t_n) \, dt_1 \cdots dt_n $$ ==== Nezávislost náhodných veličin ==== Náhodné veličiny $X_1, X_2, \ldots, X_n$ jsou **nezávislé**, pokud pro všechny $x_1, x_2, \ldots, x_n$ platí: $$ F(x_1, x_2, \ldots, x_n) = F_1(x_1) \cdot F_2(x_2) \cdots F_n(x_n) $$ kde $F_i(x_i)$ je marginální distribuční funkce každé jednotlivé složky $X_i$. * Pro **spojité** náhodné veličiny je nezávislost ekvivalentní s podmínkou: $$ f(x_1, \ldots, x_n) = f_1(x_1) \cdot \ldots \cdot f_n(x_n) $$ * Pokud náhodné veličiny nejsou nezávislé, může se jedna veličina ovlivňovat s jinou. * Pro úplnou nezávislost všech $n$ veličin je třeba, aby byly nezávislé i všechny jejich kombinace. **Součet náhodných veličin** – pokud jsou $X$ a $Y$ nezávislé, pak distribuční funkce jejich součtu $Z = X + Y$ vznikne tzv. **konvolucí**: * Pro diskrétní veličiny: $$ P(Z = z) = \sum_{i} P(X = x_i) \cdot P(Y = z - x_i) $$ * Pro spojité veličiny: $$ f_Z(z) = \int_{-\infty}^{\infty} f_X(t) \cdot f_Y(z - t) \, dt $$ Příklady konvoluce rozdělení: * $Alt(p) + Alt(p) = Bin(2, p)$ * $Bin(n_1, p) + Bin(n_2, p) = Bin(n_1 + n_2, p)$ * $Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)$ * $N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$ ==== Kovariance a korelace ==== **Kovariance** je míra lineární závislosti dvou náhodných veličin $X$ a $Y$: $$ \text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y) $$ * Pokud $\text{Cov}(X, Y) > 0$, mezi $X$ a $Y$ existuje pozitivní lineární závislost. * Pokud $\text{Cov}(X, Y) < 0$, závislost je negativní. * Pokud $\text{Cov}(X, Y) = 0$, $X$ a $Y$ jsou lineárně nezávislé (ale nemusí být obecně nezávislé). **Vlastnosti kovariance:** * $\text{Cov}(X, X) = Var(X)$ * $\text{Cov}(X, Y) = \text{Cov}(Y, X)$ * $\text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y)$ * $Var(X + Y) = Var(X) + Var(Y) + 2\text{Cov}(X, Y)$ **Korelace** (Pearsonův korelační koeficient) je normovaná kovariance, která měří sílu a směr lineární závislosti mezi veličinami: $$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y} $$ * $\rho(X, Y) \in [-1, 1]$ * $\rho = 1$ znamená úplnou pozitivní lineární závislost * $\rho = -1$ znamená úplnou negativní lineární závislost * $\rho = 0$ značí, že mezi veličinami není lineární závislost (ale může být nelineární) **Kovarianční matice** a **korelační matice**: * Pro náhodný vektor $X = (X_1, ..., X_n)^T$ se definuje střední hodnota vektoru: $$ E[X] = (E[X_1], E[X_2], \ldots, E[X_n])^T $$ * Kovariance mezi složkami tvoří **kovarianční matici**: $$ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1, X_2) & \cdots \\ Cov(X_2, X_1) & Var(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix} $$ * Korelace tvoří **korelační matici**, kde jsou jednotlivé prvky korelačními koeficienty mezi dvojicemi složek. ===== 3. Čebyševova nerovnost ===== **Čebyševova nerovnost** – centrální limitní věta. **Čebyševova nerovnost** je matematická nerovnost, která říká, jak velká část pravděpodobnostní hmoty náhodné veličiny leží blízko její střední hodnoty. Je velmi obecná, protože nevyžaduje znalost konkrétního rozdělení – stačí znát pouze střední hodnotu a rozptyl. **Teoretické vzorce:** Pro náhodnou veličinu $X$ s konečným rozptylem platí: $$ P(|X - E(X)| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}, \quad \text{pro každé } \varepsilon > 0 $$ kde * $E(X)$ je střední hodnota náhodné veličiny $X$ * $\operatorname{Var}(X)$ je rozptyl náhodné veličiny $X$ **Myšlenka:** Čebyševova nerovnost udává **horní odhad pravděpodobnosti**, že se hodnota náhodné veličiny odchýlí od své střední hodnoty o více než $\varepsilon$. I když nerozumíme přesnému rozdělení, můžeme tímto způsobem říci, že většina hodnot leží „blízko průměru“. * Využití: odhad pravděpodobnosti odlehlých hodnot (outliers) bez nutnosti znát konkrétní rozdělení. **Praktická ukázka:** Mějme náhodnou veličinu $X$ se střední hodnotou $E(X) = 50$ a rozptylem $\operatorname{Var}(X) = 25$. Chceme zjistit pravděpodobnost, že se $X$ odchýlí od 50 o více než 10: $$ P(|X - 50| \geq 10) \leq \frac{25}{10^2} = 0.25 $$ **Interpretace:** Nejvýše 25 % hodnot může být mimo interval $[40, 60]$. To znamená, že alespoň 75 % hodnot leží v tomto intervalu. **Grafické znázornění:** \usepackage{amsmath} \usepackage{pgfplots} \usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta} \begin{document} \begin{tikzpicture}[scale=0.8] % Osy \draw[->] (0,0) -- (8,0) node[right] {$x$}; \draw[->] (0,0) -- (0,4) node[above] {$f(x)$}; % Střední hodnota \draw[dashed] (4,0) -- (4,3.5) node[above] {$\mu$}; % Hustota (např. normální rozdělení) \draw[domain=0:8, smooth, blue] plot (\x, {3*exp(-(\x-4)^2/2)}); % Interval μ ± ε \draw[red] (2.5,0.1) -- (2.5,3) node[above left] {$\mu - \varepsilon$}; \draw[red] (5.5,0.1) -- (5.5,3) node[above right] {$\mu + \varepsilon$}; % Vybarvené ocasy \fill[red!20, domain=0:2.5] (0,0) plot (\x, {3*exp(-(\x-4)^2/2)}) -- (2.5,0) -- cycle; \fill[red!20, domain=5.5:8, samples=200] (5.5,0) -- plot (\x,{3*exp(-(\x-4)^2/2)}) -- (8,0) -- cycle; % Popisky \node at (1,1) {Oblast}; \node at (-2,0.5) {$P(|X-\mu| \geq \varepsilon)$}; \node[below] at (4,-0.2) {$\leq \frac{\sigma^2}{\varepsilon^2}$}; \end{tikzpicture} \end{document} //Vysvětlení:// Červené oblasti znázorňují pravděpodobnost odchylky od $\mu$ o více než $\varepsilon$. Jejich plocha je shora omezena $\frac{\sigma^2}{\varepsilon^2}$. ==== Centrální limitní věta (CLV) ==== **Centrální limitní věta (CLV)** je základní výsledek pravděpodobnosti a statistiky, který říká, že součet (nebo průměr) mnoha nezávislých náhodných veličin má přibližně normální rozdělení – bez ohledu na původní rozdělení jednotlivých veličin. **Teoretický vzorec:**\\ Nechť $X_1, X_2, \dots, X_n$ jsou nezávislé, stejně rozdělené náhodné veličiny se střední hodnotou $\mu$ a konečným rozptylem $\sigma^2$. Potom platí: $$ Z_n = \frac{\sum_{k=1}^n X_k - n\mu}{\sigma \sqrt{n}} \Rightarrow \mathcal{N}(0, 1) \quad \text{pro } n \to \infty $$ Jinými slovy, rozdělení $Z_n$ konverguje k normovanému normálnímu rozdělení (s průměrem 0 a směrodatnou odchylkou 1). Pak pro $n \to \infty$ platí:\\ $$ \lim_{n \to \infty} P(Z_n \leq x) = \Phi(x), $$\\ kde $\Phi(x)$ je distribuční funkce normovaného normálního rozdělení $\mathcal{N}(0,1)$. **Myšlenka:**\\ CLV ukazuje, že **výběrový průměr** (nebo součet) mnoha nezávislých veličin má přibližně **normální rozdělení**, i když původní data nejsou normální. To umožňuje používat normální rozdělení pro aproximace (např. v testování hypotéz). **Praktická ukázka:** Představme si, že házíme klasickou kostkou 100krát. Střední hodnota jednoho hodu je $\mu = 3.5$ a rozptyl je $\sigma^2 = \frac{35}{12} \approx 2.92$. Chceme zjistit pravděpodobnost, že výběrový průměr všech hodů bude větší než 4. 1. **Standardizace**: $$ Z = \frac{4 - 3.5}{\sqrt{2.92 / 100}} \approx \frac{0.5}{0.171} \approx 2.93 $$ 2. **Použití tabulky normálního rozdělení**: $$ P(\bar{X} > 4) = 1 - \Phi(2.93) \approx 1 - 0.9983 = 0.0017 $$ **Interpretace:** Pravděpodobnost, že výběrový průměr přesáhne 4, je velmi malá (přibližně 0.17 %), což dává smysl – je totiž málo pravděpodobné, že by padaly výhradně vysoké hodnoty. **Poznámka:** Rychlost konvergence k normálnímu rozdělení je dána tzv. **Berry-Essenovou nerovností** – čím větší $n$, tím přesnější aproximace. **Grafické znázornění:** \usepackage{amsmath} \usepackage{pgfplots} \usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta} \begin{document} \begin{tikzpicture}[yscale=1.7] % Osy \draw[->] (0,0) -- (8,0) node[right] {$x$}; \draw[->] (0,0) -- (0,4) node[above] {$f(x)$}; % Původní rozdělení (např. diskrétní) \foreach \x/\y in {1/0.5, 2/1, 3/1.5, 4/1.5, 5/1, 6/0.5} \draw[blue, thick] (\x,0) -- (\x,\y); % Normální rozdělení pro n→∞ \draw[domain=0:8, smooth, red] plot (\x, {3.5*exp(-(\x-4)^2/1.5)}); % Šipka a popis \draw[->, dotted, thick] (2,3.5) to[out=30,in=150] (6,3.5); \node at (4,5) {$n \to \infty$}; \node[blue] at (1.5,1.8) {Původní rozdělení}; \node[red] at (6.5,2) {$\mathcal{N}(\mu, \sigma^2/n)$}; \end{tikzpicture} \end{document} //Vysvětlení:// Modré sloupce znázorňují např. rozdělení hodu kostkou. Červená křivka ukazuje konvergenci výběrového průměru k normálnímu rozdělení s rostoucím $n$. ===== 4. Základní pojmy statistiky ===== **Základní pojmy statistiky** – náhodný výběr, empirické rozdělení. ==== Náhodný výběr ==== **Náhodný výběr** je posloupnost $n$ nezávislých a stejně rozdělených náhodných veličin $X_1, X_2, \dots, X_n$ reprezentujících data z populace. Formálně: $$ \{X_i\}_{i=1}^n \quad \text{kde} \quad X_i \sim F \quad (\text{i.i.d.}) $$ * $n$: rozsah výběru * $F$: společná distribuční funkce populace * i.i.d.: *independent and identically distributed* (nezávislé a stejně rozdělené) Tento koncept znamená, že každá jednotlivá hodnota ve výběru má stejnou pravděpodobnostní distribuci jako ostatní a je na nich nezávislá. **Příklad:** Měření výšky 50 náhodně vybraných studentů $\rightarrow X_i = \text{výška } i\text{-tého studenta}$ Každý student je vybrán náhodně, a tedy všechny výšky jsou považovány za i.i.d. realizace z určité distribuční funkce výšek ve studované populaci. ==== Empirické rozdělení ==== **Empirické rozdělení** aproximuje skutečné rozdělení populace pomocí dat z náhodného výběru. * **Empirická distribuční funkce** $F_n(x)$: $$ F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}} $$ kde $\mathbf{1}_{\{X_i \leq x\}} = 1$, pokud $X_i \leq x$, jinak $0$. * **Vlastnosti**: * Skoková funkce s body nespojitosti v hodnotách $X_i$. * Pro $n \to \infty$ platí $F_n(x) \to F(x)$ podle zákona velkých čísel. Tato funkce udává relativní četnost hodnot ve výběru, které jsou menší nebo rovny hodnotě $x$, a tedy slouží jako aproximace skutečné distribuční funkce. **Příklad:** Pro výběr $\{1{,}5;\ 2{,}0;\ 3{,}5\}$ je $F_n(x)$ skoková funkce s třemi skoky o velikosti $\frac{1}{3}$, která stoupá vždy, když $x$ překročí jednu z hodnot výběru. \usepackage{amsmath} \usepackage{pgfplots} \usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta} \begin{document} \begin{tikzpicture} \begin{axis}[ width=10cm, height=6cm, axis lines=left, xlabel={$x$}, ylabel={$F_n(x)$}, ymin=0, ymax=1.05, ytick={0,1/3,2/3,1}, yticklabels={0,$\tfrac{1}{3}$,$\tfrac{2}{3}$,1}, ticklabel style={font=\small}, enlarge y limits={upper, value=0.05}, enlarge x limits=0.05, domain=0:5, samples=2, ] % EDF steps \addplot+[blue, thick, jump mark left] coordinates { (0,0) (1.5,0) (1.5,1/3) (2.0,1/3) (2.0,2/3) (3.5,2/3) (3.5,1) (5,1) }; % Dots at jumps \addplot+[only marks, mark=*, mark size=1.5pt, blue] coordinates { (1.5,1/3) (2.0,1/3) (2.0,2/3) (3.5,2/3) (3.5,1) }; \end{axis} \end{tikzpicture} \end{document} ====== 5. Obecné vlastnosti odhadů parametrů ====== Při odhadování neznámých parametrů základního souboru na základě pozorovaných dat z náhodného výběru se snažíme, aby naše odhady měly určité žádoucí vlastnosti. Tyto vlastnosti nám pomáhají posoudit kvalitu odhadu a vybrat ten nejlepší možný. Odhad je pravidlo nebo funkce, která na základě dat z výběru přiřazuje hodnotu určitému neznámému parametru. ==== Značení ==== Nejprve si zavedeme značení, které se v teorii odhadu běžně používá: * $\vartheta$: Jakákoli hodnota parametru (reálné číslo). * $\vartheta^*$: Skutečná (správná) hodnota parametru (reálné číslo). * $\hat{\Theta}_n$: Odhad parametru založený na náhodném výběru rozsahu $n$ (toto je náhodná veličina). * $\hat{\vartheta}$, $\hat{\vartheta}_n$: Realizace odhadu, tj. konkrétní hodnota odhadu získaná z dat (reálné číslo). Například: Pokud odhadujeme střední hodnotu výšky v populaci, pak $\vartheta$ je neznámá střední výška, $\hat{\Theta}_n$ je výběrový průměr (náhodná veličina závislá na výběru) a $\hat{\vartheta}$ je konkrétní hodnota výběrového průměru vypočtená z dat. ==== Žádoucí vlastnosti bodových odhadů ==== Bodový odhad je funkce náhodného výběru, jejíž předpis nezávisí na odhadovaném parametru. Snažíme se, aby bodové odhady měly následující vlastnosti: - **Nestrannost (nevychýlenost)** * Odhad $\hat{\Theta}_n$ se nazývá nestranný, pokud jeho střední hodnota je rovna skutečné hodnotě parametru $\vartheta^*$, tj. $ E[\hat{\Theta}_n] = \vartheta^* $ * což znamená, že: $ E[\hat{\Theta}_n - \vartheta^*] = 0$ * Pokud tato podmínka není splněna, říkáme, že odhad je **vychýlený** (má systematickou chybu). * Příklad: Výběrový průměr je nestranný odhad střední hodnoty normálního rozdělení. - **Asymptotická nestrannost** * Odhad $\hat{\Theta}_n$ je asymptoticky nestranný, pokud se jeho střední hodnota blíží skutečné hodnotě parametru $\vartheta^*$ s rostoucím rozsahem výběru $n$, tj. $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^* $ * To znamená, že odhad je sice pro malé $n$ vychýlený, ale bias se s rostoucím $n$ zmenšuje a nakonec zmizí. * Např. výběrový rozptyl s dělením $n$ místo $n-1$ je asymptoticky nestranný. - **Konzistence** * Odhad $\hat{\Theta}_n$ je konzistentní, pokud s rostoucím rozsahem výběru $n$ konverguje v pravděpodobnosti k odhadovanému parametru $\vartheta^*$, tj.: $ \hat{\Theta}_n \xrightarrow{P} \vartheta^*$ * To znamená, že: * Je asymptoticky nestranný: $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^*$ * A má klesající rozptyl: $ \lim_{n \rightarrow \infty} D[\hat{\Theta}_n] = 0 $ * Konzistence znamená, že s větším počtem dat bude náš odhad přesnější. - **Efektivita (účinnost)** * Efektivní odhad je takový, který má co nejmenší střední kvadratickou chybu: $ E[(\hat{\Theta}_n - \vartheta^*)^2] $ * Tuto chybu můžeme rozložit na: $D[\hat{\Theta}_n] + (E[\hat{\Theta}_n] - \vartheta^*)^2 $ * Pro **nestranné odhady** tedy platí, že efektivita závisí pouze na jejich rozptylu. * **Nejlepší nestranný odhad** (MVUE – minimum variance unbiased estimator) má ze všech nestranných odhadů nejmenší rozptyl. * Pozor: může se stát, že některé vychýlené odhady jsou efektivnější než MVUE – mají menší celkovou chybu. - **Robustnost** * Robustní odhad je odolný vůči šumu nebo odlehlým hodnotám (například extrémním datům v souboru). * Nemusí být nejefektivnější při ideálních podmínkách, ale je stabilnější v praxi, kde jsou data často zašuměná nebo obsahují chyby. * Přesná matematická definice robustnosti často neexistuje, ale prakticky se jedná o velmi důležitou vlastnost. * Příklad: Medián je robustnější než průměr, protože není ovlivněn extrémními hodnotami. ==== Odhady konkrétních parametrů ==== * **Odhady střední hodnoty** ($\mu$): * Výběrový průměr $ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i $ * je nestranným a konzistentním odhadem střední hodnoty $E[X]$. * To znamená, že jeho střední hodnota je rovna skutečné střední hodnotě populace, a že s rostoucím počtem dat se přibližuje pravé hodnotě $\mu$. * Příklad: Pokud měříme výšku 100 studentů, průměr těchto hodnot odhaduje průměrnou výšku celé populace studentů. * **Odhady rozptylu** ($\sigma^2$): * Výběrový rozptyl $ S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2 $ * je nestranným a konzistentním odhadem rozptylu $D[X]$. * Dělení $n-1$ místo $n$ zajišťuje nestrannost odhadu (tzv. Besselova korekce). * Tento odhad popisuje, jak moc se jednotlivé hodnoty výběru rozptylují kolem výběrového průměru. * **Odhady směrodatné odchylky** ($\sigma$): * Výběrová směrodatná odchylka se definuje jako odmocnina výběrového rozptylu: $ S_n = \sqrt{S^2_n} $ * Je přirozeným odhadem směrodatné odchylky a udává, jak moc se hodnoty typicky liší od průměru v původních jednotkách. * **Odhady momentů**: * Pro odhad $k$-tého obecného momentu $E[X^k]$ použijeme výběrový moment: $ m_{X^k} = \frac{1}{n} \sum_{j=1}^{n} x_j^k $ * Tento moment slouží např. k odhadu tvaru rozdělení (šikmost, špičatost) podle toho, zda se jedná o 3., 4. atd. moment. * Příklad: Výběrový druhý moment je základem pro výpočet rozptylu. ==== Metody odhadování parametrů ==== Existuje několik metod, jak na základě dat odhadnout neznámé parametry rozdělení. Nejčastěji používané jsou tyto dvě: - **Metoda momentů (MM)** * **Princip**: Vycházíme z předpokladu, že teoretické momenty náhodné veličiny (např. střední hodnota, rozptyl atd.) závisí na parametrech rozdělení. Tyto teoretické momenty nahradíme jejich výběrovými odhady spočítanými z dat a vyřešíme rovnice, které takto vzniknou. * **Cíl**: Najít takové hodnoty parametrů, aby teoretické vlastnosti rozdělení (momenty) „odpovídaly“ těm vypočteným z dat * **Postup (příklad pro dva parametry $\theta_1$ a $\theta_2$):** * Sečteme data a spočítáme výběrové momenty: * $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 $$ * Sestavíme rovnice z teoretických momentů $E[X]$, $E[X^2]$ (ty závisí na $\theta_1, \theta_2$) a položíme je rovné výběrovým momentům. * Řešíme soustavu rovnic a získáme odhady parametrů. * **Výhody**: * Poměrně jednoduchá metoda, často poskytuje uzavřené (analytické) řešení. * Zohledňuje všechna data. * Není potřeba znát přesnou formu pravděpodobnostní funkce. * **Nevýhody**: * Řešení nemusí existovat nebo může být nejednoznačné. * Odhady nemusí být nejpřesnější (např. ve smyslu rozptylu). * **Poznámka**: * Používá se např. tehdy, když je výpočetně náročné použít metodu maximální věrohodnosti. - **Metoda maximální věrohodnosti (MLE – Maximum Likelihood Estimation)** * **Princip**: Hledáme takovou hodnotu parametru $\theta$, která **maximalizuje pravděpodobnost pozorovaných dat**. Jinými slovy: jaké nastavení parametrů by „nejlépe vysvětlovalo“ data, která jsme viděli? * **Postup:** * Sestrojíme věrohodnostní funkci $L(\theta)$: * Spojitý případ: $$ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) $$ * Diskrétní případ: $$ L(\theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta) $$ * Z logaritmu věrohodnostní funkce vytvoříme tzv. **log-věrohodnost**: $$ \ell(\theta) = \ln L(\theta) $$ * Přechod na logaritmus je praktický – převádí součiny na součty, což zjednoduší derivování. * Najdeme extrém log-věrohodnosti: * Vypočteme derivaci podle $\theta$, položíme ji rovnu nule a řešíme: $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$ * Výsledné řešení $\hat{\theta}$ je maximálně věrohodný odhad parametru. * **Výhody**: * Při splnění určitých podmínek poskytuje MLE odhady s dobrými vlastnostmi – jsou asymptoticky nestranné, efektivní a konzistentní. * Obvykle poskytuje přesnější výsledky než metoda momentů. * **Nevýhody**: * V některých případech může být složité nebo nemožné analyticky řešit rovnici pro maximum. * Výsledky mohou být citlivé na odlehlé hodnoty. * **Poznámka**: * V jednoduchých situacích (např. normální rozdělení) obě metody vedou ke stejným odhadům. * V praxi se metoda volí podle dostupnosti informací o rozdělení a výpočetní náročnosti. ==== Intervalové odhady (Intervaly spolehlivosti) ==== Na rozdíl od bodového odhadu, který poskytuje pouze jednu hodnotu pro neznámý parametr, intervalový odhad poskytuje **interval**, ve kterém se s určitou pravděpodobností nachází skutečná hodnota tohoto parametru. Tento přístup lépe vystihuje nejistotu spojenou s odhadem. * **Definice**: $(1 - \alpha) \times 100\%$ **interval spolehlivosti** pro parametr $\vartheta$ je interval $(L, U)$ takový, že: $$ P(L < \vartheta^* < U) \geq 1 - \alpha $$ * kde: * $L$ je dolní mez intervalu, * $U$ je horní mez intervalu, * $\vartheta^*$ je skutečná (neznámá) hodnota parametru. * **Koeficient spolehlivosti** $(1 - \alpha)$ vyjadřuje pravděpodobnost, že interval pokrývá skutečnou hodnotu parametru. Například: * Pro $95\%$ spolehlivost platí $\alpha = 0.05$. * Pro $99\%$ spolehlivost platí $\alpha = 0.01$. * **Hladina významnosti** $\alpha$ představuje pravděpodobnost, že skutečný parametr **leží mimo** interval (tj. že interval není „úspěšný“). Často se dělí na dvě části – pro dolní a horní mez (např. $\alpha/2$ a $\alpha/2$). * Existují různé typy intervalových odhadů: * **Oboustranný interval**: $$ I = (L, U) $$ * kde interval symetricky pokrývá oblast kolem bodového odhadu. * **Dolní jednostranný interval**: $$ I = (L, \infty) $$ * **Horní jednostranný interval**: $$ I = (-\infty, U) $$ * **Symetrický oboustranný interval** je takový, kde pravděpodobnost, že parametr leží pod dolní mezí, i nad horní mezí, je stejná, tedy: $$ P(\vartheta^* < L) = P(\vartheta^* > U) = \frac{\alpha}{2} $$ * Abychom mohli interval spolehlivosti zkonstruovat, musíme znát **pravděpodobnostní rozdělení bodového odhadu** $\hat{\Theta}_n$, případně rozdělení vhodné statistiky, která z něj vychází (např. pomocí normálního nebo t-rozdělení). === Intervalové odhady konkrétních parametrů === **Odhad střední hodnoty se známým rozptylem pomocí kvantilů normálního rozdělení ($u$):** Pokud známe rozptyl populace $\sigma^2$, použijeme normální rozdělení. Interval spolehlivosti pro střední hodnotu $\mu$ se pak určuje pomocí kvantilu $u$ z normálního rozdělení. Tento přístup je vhodný, když víme, že data pocházejí z normálního rozdělení **a zároveň známe rozptyl**. **Odhad střední hodnoty a rozptylu pomocí kvantilů $t$ a $\chi^2$:** Pokud je rozptyl neznámý, pro odhad střední hodnoty použijeme **Studentovo t-rozdělení**, které zohledňuje nejistotu ve výběrovém rozptylu. Pro intervalový odhad rozptylu použijeme **chí-kvadrát rozdělení** – dolní a horní mez intervalu spočteme pomocí kvantilů z $\chi^2$. **Odhad střední hodnoty pomocí centrální limitní věty (CLV):** Pokud výběr není z normálního rozdělení, ale máme dostatečně velký počet pozorování, použijeme CLV. Ta zaručuje, že výběrový průměr má přibližně normální rozdělení, takže můžeme použít normální kvantily $u$ i bez normality původního rozdělení. **Asymptotický intervalový odhad:** Používá se v obecných případech, kdy neznáme přesné rozdělení výběru, ale máme velký rozsah $n$. Intervaly jsou pak založené na odhadech ze vzorku (např. výběrový rozptyl místo známého rozptylu) a přibližují skutečné pokrytí při velkém $n$. **Poznámka:** Lze tímto způsobem odhadovat i rozptyly, i když závisí na střední hodnotě. Typicky například u **Poissonova rozdělení**, kde platí $\mu = \sigma^2$, nebo u **alternativního rozdělení** (Bernoulliho), kde je rozptyl určen parametrem $p$ a zároveň souvisí se střední hodnotou. V těchto případech se často využívají speciální odhady přizpůsobené danému typu rozdělení. ===== 6. Princip statistického testování hypotéz ===== **Princip statistického testování hypotéz** – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce. **Princip statistického testování hypotéz** je metoda, jak ověřit, zda data poskytují dostatek důkazů pro zamítnutí nějakého předpokladu (tzv. hypotézy) o rozdělení nebo parametrech náhodných veličin. Tento postup je základem pro rozhodování v mnoha oblastech statistiky, experimentů a datové analýzy. - **Formulace hypotéz**: * **Nulová hypotéza ($H_0$)**: výchozí tvrzení, které předpokládáme, že platí – např. „střední hodnota je rovna 0“, „data mají normální rozdělení“, „dva výběry pochází ze stejné populace“ atd. * **Alternativní hypotéza ($H_1$)**: tvrzení, které se snažíme potvrdit – např. „střední hodnota se liší od 0“, „data nejsou normálně rozložena“, „dva výběry se liší“. * Příklad: * $H_0$: $\mu = 50$ * $H_1$: $\mu \neq 50$ - **Volba hladiny významnosti ($\alpha$)**: * Jedná se o pravděpodobnost chyby I. druhu – tj. že **zamítneme $H_0$, i když je ve skutečnosti pravdivá**. * Typicky se volí $\alpha = 0.05$ nebo $\alpha = 0.01$. * Například při $\alpha = 0.05$ připouštíme maximálně 5% pravděpodobnost, že učiníme chybný závěr ve prospěch $H_1$. - **Výběr testové statistiky**: * Zvolíme vhodnou testovou statistiku v závislosti na typu dat a testované hypotéze. * Např. pro testování střední hodnoty normálně rozdělené veličiny použijeme t-test. * Pro rozptyl může být použit F-test. * Pro testy shody rozdělení použijeme např. $\chi^2$-test. * Testová statistika je funkce vzorku, jejíž rozdělení známe, pokud $H_0$ platí. - **Výpočet kritické hodnoty nebo p-hodnoty**: * **Kritická hodnota**: hodnota testové statistiky, kterou porovnáme s vypočtenou hodnotou. Jestliže překročí tuto mez, zamítáme $H_0$. * **p-hodnota**: pravděpodobnost, že bychom při platnosti $H_0$ získali stejně nebo více extrémní hodnotu testové statistiky. Pokud:$$ \text{p-hodnota} < \alpha, $$ * pak zamítáme $H_0$. * **Poznámka**: p-hodnota je velmi praktický způsob testování, protože přímo říká, jak „nepravděpodobná“ jsou data za předpokladu, že $H_0$ platí. - **Rozhodnutí**: * Pokud p-hodnota < $\alpha$ **nebo** testová statistika je větší než kritická hodnota, **zamítáme $H_0$**. * Jinak **$H_0$ nezamítáme** – což ale neznamená, že ji potvrzujeme; pouze nemáme dostatek důkazů k jejímu zamítnutí. **Shrnutí principu**: Testování hypotéz je proces, jak rozhodnout, zda jsou odchylky pozorované ve vzorku od očekávaných hodnot důkazem proti výchozímu tvrzení. Pomáhá vyhnout se náhodným závěrům na základě šumu v datech, a umožňuje učinit rozhodnutí s kvantifikovanou mírou nejistoty. ==== Testy střední hodnoty a rozptylu ==== **Testy střední hodnoty**: * **Jednovýběrový t-test**: Testuje hypotézu, zda střední hodnota jedné populace je rovna určité hodnotě. Používá se, pokud známe výběrový průměr a výběrový rozptyl a buď: * data pocházejí z normálního rozdělení, nebo * velikost výběru je dostatečně velká (např. $n > 30$, podle CLV). * **Příklad**: Zajímá nás, zda průměrná výška studentů přesahuje 175 cm. * **Dvouvýběrový t-test**: Testuje, zda se liší střední hodnoty dvou nezávislých výběrů. Používá se při porovnání dvou skupin. * **Příklad**: Průměrná výška studentů v ČR vs. SR. * **Párový t-test**: Testuje rozdíl středních hodnot dvou závislých výběrů, tj. každá hodnota v první skupině má přiřazenou dvojici v druhé skupině. * **Příklad**: Výška člověka před a po půlročním tréninku. **Testy rozptylu**: * **F-test**: Slouží ke srovnání dvou rozptylů. Je citlivý na odchylky od normality. * **Příklad**: Testujeme, zda se rozptyl známek ve dvou třídách liší. * **$\chi^2$-test rozptylu**: Používá se k ověření, zda rozptyl náhodné veličiny je roven určité teoretické hodnotě. * Výpočet statistiky: $ \chi^2 = \frac{(n - 1) \cdot S^2}{\sigma_0^2} $ * kde $S^2$ je výběrový rozptyl, $\sigma_0^2$ je hypotetická hodnota rozptylu a $n$ velikost výběru. ==== Porovnání dvou rozdělení ==== **Porovnání dvou rozdělení**: * **Kolmogorov-Smirnovův test**: Testuje, zda dvě empirické distribuční funkce se výrazně liší. Používá se u spojitých veličin. Citlivý k rozdílům ve tvaru rozdělení. * **Mann-Whitneyho test**: Neparametrický test rozdílu středních hodnot mezi dvěma nezávislými skupinami. Nepotřebuje předpoklad normality – vhodný pro pořadová nebo ne-normální data. * **Wilcoxonův test**: Neparametrický párový test – alternativní k párovému t-testu, když data nejsou normálně rozložena. ==== $\chi^2$-test dobré shody ==== Používá se pro ověření, zda četnosti pozorovaných dat odpovídají určitému teoretickému rozdělení (např. binomickému, Poissonovu, normálnímu). Vhodné např. pro kategorická data. **Výpočet testové statistiky**: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ kde: * $O_i$ jsou pozorované četnosti, * $E_i$ jsou teoreticky očekávané četnosti. **Předpoklady**: * Očekávané četnosti $E_i$ by měly být větší nebo rovny 5, aby byl výsledek testu spolehlivý (jinak se používají úpravy nebo sloučení kategorií). ==== Test nezávislosti v kontingenční tabulce ==== **Test nezávislosti**: * Používá se u dvou kategoriálních proměnných – např. pohlaví a preference typu produktu. * Kontingenční tabulka zachycuje četnosti kombinací hodnot obou proměnných. **Testová statistika**: $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ kde: * $O_{ij}$ jsou pozorované četnosti v buňkách tabulky, * $E_{ij}$ jsou očekávané četnosti při nezávislosti proměnných: $ E_{ij} = \frac{r_i \cdot c_j}{n} $ * kde $r_i$ je součet řádku, $c_j$ součet sloupce a $n$ je celkový počet pozorování. **Interpretace**: * Malá hodnota $\chi^2$ znamená, že rozdíly mezi $O_{ij}$ a $E_{ij}$ jsou malé → proměnné jsou pravděpodobně nezávislé. * Velká hodnota $\chi^2$ vede k zamítnutí hypotézy nezávislosti. **Předpoklad**: Očekávané četnosti v buňkách by měly být alespoň 5. ===== 7. Markovovy řetězce ===== **Markovovy řetězce** – modely náhodného vývoje systému v diskrétním čase, kde přechod do dalšího stavu závisí pouze na aktuálním stavu (tzv. *Markova vlastnost*). ==== Základní pojmy a popis ==== **Markovův řetězec** je posloupnost náhodných veličin $X_0, X_1, X_2, \ldots$, kde pro každý $n$ a všechny stavy $i_0, \dots, i_{n+1}$ platí: $$ P(X_{n+1} = i_{n+1} \mid X_n = i_n, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = i_{n+1} \mid X_n = i_n) $$ Tato rovnost říká, že vývoj závisí pouze na aktuálním stavu. Pokud jsou pravděpodobnosti přechodu nezávislé na čase (tj. homogenní), pak označujeme: $$ p_{ij} = P(X_{n+1} = j \mid X_n = i) $$ a tyto pravděpodobnosti uspořádáme do **matice přechodu** $P = (p_{ij})$. Součet pravděpodobností v každém řádku je roven 1: $$ \sum_{j} p_{ij} = 1 \quad \text{pro každé } i $$ $n$-tá mocnina matice $P^n$ udává pravděpodobnosti přechodu za $n$ kroků. Prvek $p_{ij}^{(n)}$ je pravděpodobnost, že se systém dostane ze stavu $i$ do stavu $j$ za právě $n$ kroků. ==== Přechodový diagram a matice ==== **Přechodový diagram** je grafická reprezentace Markovova řetězce. Umožňuje vizuálně sledovat, jak se systém může pohybovat mezi jednotlivými stavy a s jakou pravděpodobností. * **Uzly** představují možné **stavy systému** (např. A, B, C). * **Orientované hrany** značí **možné přechody** mezi stavy. * **Čísla na hranách** udávají **pravděpodobnosti přechodu** z jednoho stavu do druhého. Diagram se tedy chová jako mapa dynamiky systému — zobrazuje nejen směr možného vývoje, ale i jeho pravděpodobnost. \usepackage{tikz} \usetikzlibrary{matrix,arrows.meta,positioning} \begin{document} \begin{tikzpicture} \node (A) at (0,0) {A}; \node (B) at (2,0) {B}; \node (C) at (4,0) {C}; \draw[->, >=latex] (A) to[bend left] node[above] {0.5} (B); \draw[->, >=latex] (A) to[bend left] node[below] {0.5} (C); \draw[->, >=latex] (B) to[loop above] node {1.0} (B); \draw[->, >=latex] (C) to[bend left] node[above] {0.1} (A); \draw[->, >=latex] (C) to[bend left] node[below] {0.2} (B); \draw[->, >=latex] (C) to[loop above] node {0.7} (C); \end{tikzpicture} \end{document} **Matice přechodu**: Tento diagram můžeme přepsat do **matice přechodu** $P$, kde řádky odpovídají výchozím stavům a sloupce cílovým stavům. Hodnota na pozici $p_{ij}$ je pravděpodobnost přechodu ze stavu $i$ do stavu $j$. | | A | B | C | |-------|-------|-------|-------| | **A** | 0.0 | 0.5 | 0.5 | | **B** | 0.0 | 1.0 | 0.0 | | **C** | 0.1 | 0.2 | 0.7 | **Jak číst tuto matici:** * První řádek: Pokud jsme ve stavu **A**, máme 0% šanci zůstat v A, 50% šanci jít do B a 50% do C. * Druhý řádek: Ze stavu **B** se nikam jinam nedostaneme, zůstáváme v B (s pravděpodobností 1). * Třetí řádek: Ze stavu **C** máme 10% šanci jít do A, 20% do B a 70% zůstat v C. ==== Rozložitelnost a komponenty ==== * **Rozložitelný řetězec** (reducibilní): Ne všechny stavy jsou vzájemně dosažitelné. Existují skupiny stavů, mezi kterými není přechod. * **Nerozložitelný řetězec** (irreducibilní): Každý stav je dosažitelný z každého jiného – tvoří jednu komunikující třídu. * **Uzavřená množina stavů**: Jakmile se do této množiny dostaneme, nemůžeme ji opustit. * **Komponenta**: Největší možná uzavřená množina, která neobsahuje menší uzavřenou podmnožinu. ==== Asymptotické chování a stacionární rozdělení ==== Pro ireducibilní, aperiodický a pozitivně rekurentní řetězec existuje **stacionární rozdělení** $\pi = (\pi_1, \ldots, \pi_n)$, které splňuje: $$ \pi = \pi P \quad \text{a} \quad \sum_{i=1}^{n} \pi_i = 1 $$ * Toto rozdělení reprezentuje **dlouhodobé pravděpodobnosti** – tj. jaký podíl času systém stráví ve stavech v limitě $t \to \infty$. * Lze ho nalézt jako **vlastní vektor** matice $P$ k vlastnímu číslu 1. ==== Konvergence a rozklad matice ==== Pro markovský řetězec s trvalými a přechodnými stavy lze matici přechodu přepsat jako blokovou matici: $$ P = \begin{bmatrix} D & 0 \\ R & Q \end{bmatrix} $$ * $D$: přechody mezi trvalými stavy * $Q$: přechody mezi přechodnými stavy * $R$: přechody z přechodných do trvalých Matice **fundamentální** $F = (I - Q)^{-1}$ a **absorpční pravděpodobnosti**: $$ M = F \cdot R = (I - Q)^{-1} R $$ vyjadřují pravděpodobnosti, že systém skončí v některém z trvalých stavů. ==== Asymptotické chování stavů ==== * **Přechodný stav**: $\lim_{n \to \infty} p_{ii}^{(n)} = 0$ * **Trvalý nulový stav**: $\lim_{n \to \infty} p_{ii}^{(n)} = 0$ * **Trvalý nenulový, aperiodický**: $\lim_{n \to \infty} p_{ii}^{(n)} = \pi_i$ * **Periodický stav**: Limitní pravděpodobnosti oscilují v závislosti na periodě.