This is an old revision of the document!
Table of Contents
Způsoby popisu rozdělení náhodných veličin a vektorů. Odhady parametrů rozdělení. Základní statistické testy. Markovské řetězce a jejich asymptotické vlastnosti.
B0B01PST Webové stránky předmětu Helisova stránky předmětu
- Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
- Náhodné vektory a jejich popis – nezávislost náhodných veličin, kovariance a korelace.
- Čebyševova nerovnost – centrální limitní věta.
- Základní pojmy statistiky – náhodný výběr, empirické rozdělení.
- Obecné vlastnosti odhadů parametrů – odhady střední hodnoty, rozptylu, směrodatné odchylky, momentů. Odhady parametrů metodou momentů a metodou maximální věrohodnosti. Intervalové odhady.
- Princip statistického testování hypotéz – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.
- Markovovy řetězce – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců.
1. Definice pravděpodobnosti (Kolmogorovova)
- Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
- Pravděpodobnost je funkce, která popisuje budoucí pravdivost neznámých jevů. Z teorie vyvozujeme realitu – udává, jak moc očekáváme, že nastane určitý jev.
- Náhodný pokus – proces, jehož výsledek není předem jednoznačně určen, ale lze popsat množinou možných výsledků. Např. hod kostkou.
- Elementární jev – konkrétní výsledek náhodného pokusu.
- Jev – množina elementárních jevů, které sdílí určitou vlastnost. Např. „padla sudá“.
- Jistý jev – nastává vždy, nemožný jev – nikdy. Opačný jev – doplněk vzhledem k celku.
- Jevové pole – množina všech pozorovatelných jevů (např. exp Ω).
- Úplný systém jevů – kolekce navzájem neslučitelných jevů, jejichž sjednocení tvoří jistý jev. Součet jejich pravděpodobností je 1.
Kolmogorovova definice pravděpodobnosti
- Kolmogorovova definice pravděpodobnosti je založená na třech axiomech:
- Axiom nezápornosti: $\forall A \in \mathcal{A}: P(A) \geq 0$
- Axiom normovanosti: $P(\Omega) = 1$
- Axiom σ-aditivity: Pro neslučitelné jevy $A_1, A_2, \dots$, platí:
$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$
- Pravděpodobnostní prostor je trojice $(\Omega, \mathcal{A}, P)$, kde:
- $\Omega$ – neprázdná množina elementárních jevů
- $\mathcal{A}$ – σ-algebra podmnožin $\Omega$
- $P$ – pravděpodobnostní míra
- σ-algebra $\mathcal{A}$ splňuje:
- $\emptyset \in \mathcal{A}$
- $A \in \mathcal{A} \Rightarrow A^c \in \mathcal{A}$
- $A_1, A_2, \dots \in \mathcal{A} \Rightarrow \bigcup_{i=1}^{\infty} A_i \in \mathcal{A}$
- Borelova σ-algebra – nejmenší σ-algebra na $\mathbb{R}$ obsahující všechny otevřené intervaly. Obsahuje i uzavřené, polouzavřené a jejich spočetné sjednocení.
Nezávislost náhodných jevů
- Jevy $A$ a $B$ jsou nezávislé, pokud:
- $P(A \cap B) = P(A) \cdot P(B)$
- To znamená, že výskyt jednoho jevu nijak neovlivňuje výskyt druhého.
- Ekvivalentně: $P(A | B) = P(A)$ a $P(B | A) = P(B)$
- Důsledky:
- Pro nezávislé jevy platí také: $P(A \cup B) = P(A) + P(B) - P(A) \cdot P(B)$
- Nezávislost nelze zaměňovat se neslučitelností – neslučitelné jevy nemohou nastat současně: $P(A \cap B) = 0$.
- Dvojice jevů může být:
- Neslučitelná a závislá – např. „padla 1“ a „padla 6“
- Nezávislá a slučitelná – např. „padla sudá“ a „padla větší než 3“
- V praxi ověřujeme nezávislost pomocí výpočtu $P(A \cap B)$ a porovnáním s $P(A) \cdot P(B)$
Klasická (Laplaceova) definice pravděpodobnosti
- Náhodný pokus má $n$ různých stejně pravděpodobných výsledků.
- Pravděpodobnost jevu $A \subseteq \Omega$ je:
$P(A) = \frac{|A|}{|\Omega|}$
- Tento model je vhodný pouze pro konečné diskrétní prostory s rovnoměrnými rozděleními.
- Nevhodný pro spojité rozdělení nebo nekonečné množiny – zde se uplatňuje Kolmogorovův přístup.
Podmíněná pravděpodobnost
- Podmíněná pravděpodobnost je pravděpodobnost jevu $A$ za předpokladu, že nastal jev $B$. Značí se $P(A|B)$ a definuje se jako:
$$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{pouze pokud } P(B) > 0 $$
- Znamená to, že podmíněná pravděpodobnost výskytu $A$, pokud víme, že nastal $B$, je rovna pravděpodobnosti průniku obou jevů dělené pravděpodobností $B$.
- Tato definice odpovídá intuitivnímu chápání „pravděpodobnosti za předpokladu“. Upřesňuje, jak se mění pohled na pravděpodobnost, když víme, že se určitý jev již stal.
- Z podmíněné pravděpodobnosti vyplývá také užitečná identita (úplný zákon pravděpodobnosti):
$$ P(A) = P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) $$
- To znamená, že pravděpodobnost jevu $A$ lze rozdělit podle toho, zda nastal $B$ nebo jeho doplněk.
- Řetězové pravidlo (chain rule): Pravděpodobnost výskytu posloupnosti jevů lze zapsat jako součin podmíněných pravděpodobností:
$$ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \dots \cap A_{n-1}) $$
- Například pro posloupnost hodů kostkou můžeme psát:
$P(1,4,6,2) = P(1) \cdot P(4|1) \cdot P(6|1 \cap 4) \cdot P(2|1 \cap 4 \cap 6)$
- Nezávislost jevů a podmíněná pravděpodobnost:
- Jevy $A$ a $B$ jsou nezávislé, právě když:
$$ P(A|B) = P(A) \quad \text{a} \quad P(B|A) = P(B) $$
- Z toho plyne i definice pro průnik: $P(A \cap B) = P(A) \cdot P(B)$
- Podmíněná nezávislost:
- Jevy $A$ a $B$ jsou podmíněně nezávislé vzhledem k $C$, pokud:
$$ P(A \cap B | C) = P(A|C) \cdot P(B|C) $$
- To znamená, že pokud víme, že nastal jev $C$, pak $A$ a $B$ jsou vůči sobě nezávislé.
Bayesova věta
- Bayesova věta je základní vztah v teorii pravděpodobnosti, který umožňuje *obrátit* podmíněné pravděpodobnosti. Z vyjádření pravděpodobnosti $P(B|A)$ získáme $P(A|B)$:
$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$
- pouze pokud P(B) > 0
- Tento vzorec umožňuje odhadnout pravděpodobnost jevu $A$ za předpokladu, že nastal $B$, na základě znalosti pravděpodobnosti $B$ za podmínky $A$ (tzv. likelihood) a apriorní pravděpodobnosti $A$.
- Interpretace:
- $P(A)$ – apriorní pravděpodobnost jevu $A$ (např. pravděpodobnost nemoci před testováním)
- $P(B|A)$ – pravděpodobnost pozorování $B$ za předpokladu $A$ (např. pozitivní test pokud je nemoc)
- $P(B)$ – celková pravděpodobnost jevu $B$ (např. celková pravděpodobnost pozitivního testu)
- $P(A|B)$ – aposteriorní pravděpodobnost (pravděpodobnost, že má pacient nemoc, když test vyšel pozitivně)
- Rozšíření na více jevů – věta o úplné pravděpodobnosti a Bayesův vzorec:
- Pokud máme úplný systém disjunktních jevů $A_1, A_2, ..., A_n$ (např. různé možné příčiny nějakého jevu), a známe pravděpodobnosti $P(A_i)$ a podmíněné pravděpodobnosti $P(B|A_i)$, pak:
$$ P(B) = \sum_{j=1}^{n} P(A_j) \cdot P(B|A_j) $$
- A Bayesova věta pro konkrétní $A_i$:
$$ P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B|A_j)} $$
- Praktický příklad – falešně pozitivní testy (FP), pravdivě pozitivní (TP), atd.:
- Např. pravděpodobnost, že pacient má nemoc (A), když test (B) je pozitivní:
- $P(A)$ – pravděpodobnost, že má nemoc
- $P(B|A)$ – test odhalí nemoc (true positive rate)
- $P(B|\neg A)$ – test je falešně pozitivní (false positive rate)
- $P(\neg A)$ – nemá nemoc
- Pak:
$$ P(A|B) = \frac{P(A) \cdot P(B|A)}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A)} $$
- Význam v praxi:
- Základní nástroj v medicíně (diagnostika), strojovém učení (naivní Bayesův klasifikátor), rozhodování s neúplnými informacemi.
Náhodná veličina
Náhodná veličina je měřitelná funkce $X: \Omega \rightarrow \mathbb{R}$, která každému elementárnímu jevu $\omega \in \Omega$ přiřadí reálné číslo. Je definována na pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$. Měřitelnost znamená, že pro každý interval $I \subseteq \mathbb{R}$ je množina $\{\omega \in \Omega : X(\omega) \in I\} \in \mathcal{A}$, tj. lze jí přiřadit pravděpodobnost.
- Distribuční funkce náhodné veličiny $X$ je funkce:
$$ F_X(t) = P(X \leq t) $$
- Je to neklesající, zprava spojitá funkce, začínající v 0 a konvergující k 1. Popisuje pravděpodobnost, že náhodná veličina $X$ nabude hodnoty menší nebo rovné $t$.
- Hustota pravděpodobnosti (pokud existuje) je derivací distribuční funkce:
$$ f_X(t) = \frac{dF_X(t)}{dt}, \quad f_X(t) \geq 0 $$
- Pravděpodobnost intervalu:
$$ P(a < X \le b) = F_X(b) - F_X(a) = \int_a^b f_X(t) \, dt $$
- Základní vlastnosti hustoty:
- $f_X(x) \ge 0$
- $\int_{-\infty}^{\infty} f_X(x) \, dx = 1$
- Pravděpodobnostní funkce (pro diskrétní náhodné veličiny - pravděpodobnost, že náhodná veličina $X$ nabude konkrétní hodnoty $t$):
$$ p_X(t) = P(X = t) $$
- Pravděpodobnostní míra $P_X$ určuje pravděpodobnost jevů náhodné veličiny $X$ a splňuje:
- $P_X(\mathbb{R}) = 1$
- $P_X(\emptyset) = 0$
- Pokud jsou množiny $B_i$ disjunktní, pak $P_X\left(\bigcup_i B_i\right) = \sum_i P_X(B_i)$
Diskrétní náhodná veličina
Nabývá konečný nebo spočetný počet hodnot. Distribuční funkce je schodová, pravděpodobnost konkrétní hodnoty je dána pravděpodobnostní funkcí: $$ p(t) = P(X = t) = \sum_i p_i \delta(t - t_i) $$
- kde $\delta$ je Diracova funkce.
- Platí $\sum_i p_i = 1$
- Pro libovolný interval: $P(a < X \le b) = \sum_{i: a < t_i \le b} p_i$
Spojitá náhodná veličina
Nabývá nekonečně mnoho hodnot. Distribuční funkce je spojitá, ale pravděpodobnost, že veličina nabude konkrétní hodnoty, je vždy nulová: $$ P(X = t) = 0 \quad \text{pro všechna } t \in \mathbb{R} $$
- Hustota pravděpodobnosti je definována jako (ale pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty, je vždy 0.):
$$ f_X(t) = \frac{dF_X(t)}{dt} $$
- A platí:
$$ F_X(t) = \int_{-\infty}^{t} f_X(u) \, du $$
Smíšená náhodná veličina
Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce je kombinací schodové a spojité části. Hustota pravděpodobnosti je definována jako: $$ f(t) = \sum_{i} p_i \delta(t - t_i) + f_c(t),$$ kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.
Smíšená náhodná veličina
Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce obsahuje diskrétní schody i spojité části. Hustota:
$$ f(t) = \sum_i p_i \delta(t - t_i) + f_c(t) $$
kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.
Střední hodnota, rozptyl a směrodatná odchylka
Střední hodnota (očekávaná hodnota) náhodné veličiny $X$ je definována jako „vážený průměr“ hodnot, které může $X$ nabývat, kde váhou je pravděpodobnost výskytu těchto hodnot.
- Pro spojitou náhodnou veličinu s hustotou pravděpodobnosti $f(t)$ platí:
$$ E(X) = \int_{-\infty}^{\infty} t f(t) \, dt $$
- Pro diskrétní náhodnou veličinu, která nabývá hodnot $t_i$ s pravděpodobností $p_i$, je očekávaná hodnota dána součtem:
$$ E(X) = \sum_{i} t_i p_i $$
Střední hodnota tedy představuje „průměrnou“ hodnotu, kterou bychom očekávali při velkém počtu opakování náhodného pokusu.
Poznámka: Lze ji také zapsat pomocí distribuční funkce: $$ E(X) = \int_{-\infty}^{\infty} x \, dF(x) $$ pokud integrál existuje. V diskrétním případě lze výpočet provést přes konvergentní řadu: $$ E(X) = \sum_{i=1}^{\infty} x_i \cdot p_i $$
Rozptyl (variance) náhodné veličiny $X$ popisuje, jak moc se hodnoty náhodné veličiny „rozptylují“ kolem její střední hodnoty. Je to očekávaná hodnota druhé mocniny odchylky od střední hodnoty:
$$ Var(X) = E((X - E(X))^2) $$
Tuto definici lze přepsat pomocí tzv. Steinerovy věty do ekvivalentního tvaru: $$ Var(X) = E(X^2) - (E(X))^2 $$ kde $E(X^2)$ je očekávaná hodnota druhé mocniny veličiny $X$.
Rozptyl měří míru „rozptýlení“ hodnot kolem průměru. Čím vyšší rozptyl, tím větší je variabilita dat.
Směrodatná odchylka (standard deviation) je druhá odmocnina rozptylu: $$ \sigma(X) = \sqrt{Var(X)} $$
Jedná se o často používanou míru variability, protože má stejné jednotky jako původní veličina (na rozdíl od rozptylu, který má jednotky druhé mocniny).
Moment náhodné veličiny $X$ je obecné rozšíření střední hodnoty a definuje se jako očekávaná hodnota $k$-té mocniny náhodné veličiny:
- Pro spojitou náhodnou veličinu:
$$ M_k(X) = E(X^k) = \int_{-\infty}^{\infty} t^k f(t) \, dt $$
- Pro diskrétní náhodnou veličinu:
$$ M_k(X) = \sum_{i} t_i^k p_i $$
Momenty slouží k popisu tvaru rozdělení (např. šikmost, špičatost), přičemž:
- $M_1(X)$ je střední hodnota,
- $M_2(X) - (M_1(X))^2$ je rozptyl,
- vyšší momenty popisují například „šikmost“ nebo „špičatost“ rozdělení.
Existují i tzv. centrální momenty, které mají tvar: $$ \mu_k = E((X - E(X))^k) $$ Například druhý centrální moment je právě rozptyl.
Základní typy rozdělení
Diskrétní rozdělení
Binomické rozdělení – popisuje počet úspěchů v $n$ nezávislých Bernoulliho pokusech, kde každý pokus má pravděpodobnost úspěchu $p$. Distribuční funkce je dána jako: $$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$$ Poissonovo rozdělení – popisuje počet událostí, které nastanou v pevném časovém intervalu, pokud jsou tyto události nezávislé a nastávají s konstantní průměrnou rychlostí $\lambda$. Distribuční funkce je dána jako: $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$ Geometrické rozdělení – popisuje počet pokusů potřebných k dosažení prvního úspěchu v sérii nezávislých Bernoulliho pokusů. Distribuční funkce je dána jako: $$ P(X = k) = (1 - p)^{k - 1} p, \quad k = 1, 2, \ldots$$ Alternativní rozdělení – popisuje počet pokusů potřebných k dosažení prvního úspěchu v sérii nezávislých Bernoulliho pokusů, ale s různými pravděpodobnostmi úspěchu v jednotlivých pokusech. Distribuční funkce je dána jako: $$ P(X = k) = \prod_{i=1}^{k-1} (1 - p_i) p_k, \quad k = 1, 2, \ldots$$ Rovnoměrné rozdělení – popisuje náhodnou veličinu, která může nabývat hodnot v intervalu $[a, b]$ s rovnoměrnou pravděpodobností. Distribuční funkce je dána jako: $$ P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a + 1, \ldots, b$$ Hypergeometrické rozdělení – popisuje počet úspěchů v náhodném výběru $n$ položek z populace o velikosti $N$, která obsahuje $K$ úspěšných položek. Distribuční funkce je dána jako: $$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad k = 0, 1, \ldots, \min(K, n)$$ Napřiklad “M” losů z nichž “J” vyhrává, tak udává počet výherních losů, z výtažených “S” losů. $$ E(x) = \frac{(J \cdot S)}{M} $$
Spojitá rozdělení
Rovnoměrné rozdělení – popisuje náhodnou veličinu, která může nabývat hodnot v intervalu $[a, b]$ s rovnoměrnou pravděpodobností. Distribuční funkce je dána jako: $$ F(x) = \begin{cases} 0, & x < a \\ \frac{x - a}{b - a}, & a \leq x < b \\ 1, & x \geq b \end{cases} $$ Hustota je tvaru $$ f(x) = \begin{cases} \frac{1}{b - a}, & a < x < b \\ 0, & \text{jinak} \end{cases} $$
Normální rozdělení – popisuje náhodnou veličinu, která má symetrické rozdělení kolem střední hodnoty $\mu$ a standardní odchylky $\sigma$. Distribuční funkce je dána jako: $$ \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{t^2}{2}}\,dt. $$
Hustota je tvaru $$ f(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} $$ Exponenciální rozdělení – popisuje čas mezi událostmi v Poissonově procesu. Distribuční funkce je dána jako: $$ F(x) = 1 - e^{-\lambda x}, \quad x \geq 0$$ Hustota pravděpodobnosti je dána jako: $$ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$
2. Náhodné vektory a jejich popis
Náhodné vektory a jejich popis – nezávislost náhodných veličin, kovariance a korelace.
Náhodný vektor je $n$-rozměrný vektor $(X_1, X_2, \ldots, X_n)$, kde každá složka $X_i$ je náhodná veličina – měřitelná funkce definovaná na stejném pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$, která každému elementárnímu jevu přiřadí reálnou hodnotu.
- Náhodný vektor můžeme chápat buď jako množinu náhodných veličin zkoumaných současně, nebo jako jednu náhodnou veličinu zkoumanou na několika objektech.
- Jedná se o zobrazení z $\Omega$ do $\mathbb{R}^n$.
Společná distribuční funkce (distribuční funkce náhodného vektoru) je definována jako: $$ F(x_1, x_2, \ldots, x_n) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n) $$
- Tato funkce je:
- neklesající v každé proměnné,
- zprava spojitá,
- její limity jsou 0 v $-\infty$ a 1 v $+\infty$.
Pro spojitý náhodný vektor existuje společná hustota pravděpodobnosti $f(x_1, \ldots, x_n)$ taková, že: $$ F(x_1, \ldots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \ldots, t_n) \, dt_1 \cdots dt_n $$
Nezávislost náhodných veličin
Náhodné veličiny $X_1, X_2, \ldots, X_n$ jsou nezávislé, pokud pro všechny $x_1, x_2, \ldots, x_n$ platí: $$ F(x_1, x_2, \ldots, x_n) = F_1(x_1) \cdot F_2(x_2) \cdots F_n(x_n) $$ kde $F_i(x_i)$ je marginální distribuční funkce každé jednotlivé složky $X_i$.
- Pro spojité náhodné veličiny je nezávislost ekvivalentní s podmínkou:
$$ f(x_1, \ldots, x_n) = f_1(x_1) \cdot \ldots \cdot f_n(x_n) $$
- Pokud náhodné veličiny nejsou nezávislé, může se jedna veličina ovlivňovat s jinou.
- Pro úplnou nezávislost všech $n$ veličin je třeba, aby byly nezávislé i všechny jejich kombinace.
Součet náhodných veličin – pokud jsou $X$ a $Y$ nezávislé, pak distribuční funkce jejich součtu $Z = X + Y$ vznikne tzv. konvolucí:
- Pro diskrétní veličiny:
$$ P(Z = z) = \sum_{i} P(X = x_i) \cdot P(Y = z - x_i) $$
- Pro spojité veličiny:
$$ f_Z(z) = \int_{-\infty}^{\infty} f_X(t) \cdot f_Y(z - t) \, dt $$
Příklady konvoluce rozdělení:
- $Alt(p) + Alt(p) = Bin(2, p)$
- $Bin(n_1, p) + Bin(n_2, p) = Bin(n_1 + n_2, p)$
- $Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)$
- $N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$
Kovariance a korelace
Kovariance je míra lineární závislosti dvou náhodných veličin $X$ a $Y$: $$ \text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y) $$
- Pokud $\text{Cov}(X, Y) > 0$, mezi $X$ a $Y$ existuje pozitivní lineární závislost.
- Pokud $\text{Cov}(X, Y) < 0$, závislost je negativní.
- Pokud $\text{Cov}(X, Y) = 0$, $X$ a $Y$ jsou lineárně nezávislé (ale nemusí být obecně nezávislé).
Vlastnosti kovariance:
- $\text{Cov}(X, X) = Var(X)$
- $\text{Cov}(X, Y) = \text{Cov}(Y, X)$
- $\text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y)$
- $Var(X + Y) = Var(X) + Var(Y) + 2\text{Cov}(X, Y)$
Korelace (Pearsonův korelační koeficient) je normovaná kovariance, která měří sílu a směr lineární závislosti mezi veličinami: $$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y} $$
- $\rho(X, Y) \in [-1, 1]$
- $\rho = 1$ znamená úplnou pozitivní lineární závislost
- $\rho = -1$ znamená úplnou negativní lineární závislost
- $\rho = 0$ značí, že mezi veličinami není lineární závislost (ale může být nelineární)
Kovarianční matice a korelační matice:
- Pro náhodný vektor $X = (X_1, ..., X_n)^T$ se definuje střední hodnota vektoru:
$$ E[X] = (E[X_1], E[X_2], \ldots, E[X_n])^T $$
- Kovariance mezi složkami tvoří kovarianční matici:
$$ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1, X_2) & \cdots \\ Cov(X_2, X_1) & Var(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix} $$
- Korelace tvoří korelační matici, kde jsou jednotlivé prvky korelačními koeficienty mezi dvojicemi složek.
3. Čebyševova nerovnost
Čebyševova nerovnost – centrální limitní věta.
Čebyševova nerovnost je matematická nerovnost, která říká, jak velká část pravděpodobnostní hmoty náhodné veličiny leží blízko její střední hodnoty. Je velmi obecná, protože nevyžaduje znalost konkrétního rozdělení – stačí znát pouze střední hodnotu a rozptyl.
Teoretické vzorce: Pro náhodnou veličinu $X$ s konečným rozptylem platí: $$ P(|X - E(X)| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}, \quad \text{pro každé } \varepsilon > 0 $$ kde
- $E(X)$ je střední hodnota náhodné veličiny $X$
- $\operatorname{Var}(X)$ je rozptyl náhodné veličiny $X$
Myšlenka:
Čebyševova nerovnost udává horní odhad pravděpodobnosti, že se hodnota náhodné veličiny odchýlí od své střední hodnoty o více než $\varepsilon$. I když nerozumíme přesnému rozdělení, můžeme tímto způsobem říci, že většina hodnot leží „blízko průměru“.
- Využití: odhad pravděpodobnosti odlehlých hodnot (outliers) bez nutnosti znát konkrétní rozdělení.
Praktická ukázka:
Mějme náhodnou veličinu $X$ se střední hodnotou $E(X) = 50$ a rozptylem $\operatorname{Var}(X) = 25$. Chceme zjistit pravděpodobnost, že se $X$ odchýlí od 50 o více než 10: $$ P(|X - 50| \geq 10) \leq \frac{25}{10^2} = 0.25 $$
Interpretace: Nejvýše 25 % hodnot může být mimo interval $[40, 60]$. To znamená, že alespoň 75 % hodnot leží v tomto intervalu.
Grafické znázornění:
Vysvětlení: Červené oblasti znázorňují pravděpodobnost odchylky od $\mu$ o více než $\varepsilon$. Jejich plocha je shora omezena $\frac{\sigma^2}{\varepsilon^2}$.
Centrální limitní věta (CLV)
Centrální limitní věta (CLV) je základní výsledek pravděpodobnosti a statistiky, který říká, že součet (nebo průměr) mnoha nezávislých náhodných veličin má přibližně normální rozdělení – bez ohledu na původní rozdělení jednotlivých veličin.
Teoretický vzorec:
Nechť $X_1, X_2, \dots, X_n$ jsou nezávislé, stejně rozdělené náhodné veličiny se střední hodnotou $\mu$ a konečným rozptylem $\sigma^2$. Potom platí:
$$
Z_n = \frac{\sum_{k=1}^n X_k - n\mu}{\sigma \sqrt{n}} \Rightarrow \mathcal{N}(0, 1) \quad \text{pro } n \to \infty
$$
Jinými slovy, rozdělení $Z_n$ konverguje k normovanému normálnímu rozdělení (s průměrem 0 a směrodatnou odchylkou 1).
Pak pro $n \to \infty$ platí:
$$ \lim_{n \to \infty} P(Z_n \leq x) = \Phi(x), $$
kde $\Phi(x)$ je distribuční funkce normovaného normálního rozdělení $\mathcal{N}(0,1)$.
Myšlenka:
CLV ukazuje, že výběrový průměr (nebo součet) mnoha nezávislých veličin má přibližně normální rozdělení, i když původní data nejsou normální. To umožňuje používat normální rozdělení pro aproximace (např. v testování hypotéz).
Praktická ukázka:
Představme si, že házíme klasickou kostkou 100krát. Střední hodnota jednoho hodu je $\mu = 3.5$ a rozptyl je $\sigma^2 = \frac{35}{12} \approx 2.92$.
Chceme zjistit pravděpodobnost, že výběrový průměr všech hodů bude větší než 4.
1. Standardizace: $$ Z = \frac{4 - 3.5}{\sqrt{2.92 / 100}} \approx \frac{0.5}{0.171} \approx 2.93 $$
2. Použití tabulky normálního rozdělení: $$ P(\bar{X} > 4) = 1 - \Phi(2.93) \approx 1 - 0.9983 = 0.0017 $$
Interpretace: Pravděpodobnost, že výběrový průměr přesáhne 4, je velmi malá (přibližně 0.17 %), což dává smysl – je totiž málo pravděpodobné, že by padaly výhradně vysoké hodnoty.
Poznámka: Rychlost konvergence k normálnímu rozdělení je dána tzv. Berry-Essenovou nerovností – čím větší $n$, tím přesnější aproximace.
Grafické znázornění:
Vysvětlení: Modré sloupce znázorňují např. rozdělení hodu kostkou. Červená křivka ukazuje konvergenci výběrového průměru k normálnímu rozdělení s rostoucím $n$.
4. Základní pojmy statistiky
Základní pojmy statistiky – náhodný výběr, empirické rozdělení.
Náhodný výběr
Náhodný výběr je posloupnost $n$ nezávislých a stejně rozdělených náhodných veličin $X_1, X_2, \dots, X_n$ reprezentujících data z populace. Formálně: $$ \{X_i\}_{i=1}^n \quad \text{kde} \quad X_i \sim F \quad (\text{i.i.d.}) $$
- $n$: rozsah výběru
- $F$: společná distribuční funkce populace
- i.i.d.: *independent and identically distributed* (nezávislé a stejně rozdělené)
Tento koncept znamená, že každá jednotlivá hodnota ve výběru má stejnou pravděpodobnostní distribuci jako ostatní a je na nich nezávislá.
Příklad: Měření výšky 50 náhodně vybraných studentů $\rightarrow X_i = \text{výška } i\text{-tého studenta}$ Každý student je vybrán náhodně, a tedy všechny výšky jsou považovány za i.i.d. realizace z určité distribuční funkce výšek ve studované populaci.
Empirické rozdělení
Empirické rozdělení aproximuje skutečné rozdělení populace pomocí dat z náhodného výběru.
- Empirická distribuční funkce $F_n(x)$:
$$ F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}} $$ kde $\mathbf{1}_{\{X_i \leq x\}} = 1$, pokud $X_i \leq x$, jinak $0$.
- Vlastnosti:
- Skoková funkce s body nespojitosti v hodnotách $X_i$.
- Pro $n \to \infty$ platí $F_n(x) \to F(x)$ podle zákona velkých čísel.
Tato funkce udává relativní četnost hodnot ve výběru, které jsou menší nebo rovny hodnotě $x$, a tedy slouží jako aproximace skutečné distribuční funkce.
Příklad: Pro výběr $\{1{,}5;\ 2{,}0;\ 3{,}5\}$ je $F_n(x)$ skoková funkce s třemi skoky o velikosti $\frac{1}{3}$, která stoupá vždy, když $x$ překročí jednu z hodnot výběru.
5. Obecné vlastnosti odhadů parametrů
Při odhadování neznámých parametrů základního souboru na základě pozorovaných dat z náhodného výběru se snažíme, aby naše odhady měly určité žádoucí vlastnosti. Tyto vlastnosti nám pomáhají posoudit kvalitu odhadu a vybrat ten nejlepší možný. Odhad je pravidlo nebo funkce, která na základě dat z výběru přiřazuje hodnotu určitému neznámému parametru.
Značení
Nejprve si zavedeme značení, které se v teorii odhadu běžně používá:
- $\vartheta$: Jakákoli hodnota parametru (reálné číslo).
- $\vartheta^*$: Skutečná (správná) hodnota parametru (reálné číslo).
- $\hat{\Theta}_n$: Odhad parametru založený na náhodném výběru rozsahu $n$ (toto je náhodná veličina).
- $\hat{\vartheta}$, $\hat{\vartheta}_n$: Realizace odhadu, tj. konkrétní hodnota odhadu získaná z dat (reálné číslo).
Například: Pokud odhadujeme střední hodnotu výšky v populaci, pak $\vartheta$ je neznámá střední výška, $\hat{\Theta}_n$ je výběrový průměr (náhodná veličina závislá na výběru) a $\hat{\vartheta}$ je konkrétní hodnota výběrového průměru vypočtená z dat.
Žádoucí vlastnosti bodových odhadů
Bodový odhad je funkce náhodného výběru, jejíž předpis nezávisí na odhadovaném parametru. Snažíme se, aby bodové odhady měly následující vlastnosti:
- Nestrannost (nevychýlenost)
- Odhad $\hat{\Theta}_n$ se nazývá nestranný, pokud jeho střední hodnota je rovna skutečné hodnotě parametru $\vartheta^*$, tj. $ E[\hat{\Theta}_n] = \vartheta^* $
- což znamená, že: $ E[\hat{\Theta}_n - \vartheta^*] = 0$
- Pokud tato podmínka není splněna, říkáme, že odhad je vychýlený (má systematickou chybu).
- Příklad: Výběrový průměr je nestranný odhad střední hodnoty normálního rozdělení.
- Asymptotická nestrannost
- Odhad $\hat{\Theta}_n$ je asymptoticky nestranný, pokud se jeho střední hodnota blíží skutečné hodnotě parametru $\vartheta^*$ s rostoucím rozsahem výběru $n$, tj. $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^* $
- To znamená, že odhad je sice pro malé $n$ vychýlený, ale bias se s rostoucím $n$ zmenšuje a nakonec zmizí.
- Např. výběrový rozptyl s dělením $n$ místo $n-1$ je asymptoticky nestranný.
- Konzistence
- Odhad $\hat{\Theta}_n$ je konzistentní, pokud s rostoucím rozsahem výběru $n$ konverguje v pravděpodobnosti k odhadovanému parametru $\vartheta^*$, tj.: $ \hat{\Theta}_n \xrightarrow{P} \vartheta^*$
- To znamená, že:
- Je asymptoticky nestranný: $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^*$
- A má klesající rozptyl: $ \lim_{n \rightarrow \infty} D[\hat{\Theta}_n] = 0 $
- Konzistence znamená, že s větším počtem dat bude náš odhad přesnější.
- Efektivita (účinnost)
- Efektivní odhad je takový, který má co nejmenší střední kvadratickou chybu: $ E[(\hat{\Theta}_n - \vartheta^*)^2] $
- Tuto chybu můžeme rozložit na: $D[\hat{\Theta}_n] + (E[\hat{\Theta}_n] - \vartheta^*)^2 $
- Pro nestranné odhady tedy platí, že efektivita závisí pouze na jejich rozptylu.
- Nejlepší nestranný odhad (MVUE – minimum variance unbiased estimator) má ze všech nestranných odhadů nejmenší rozptyl.
- Pozor: může se stát, že některé vychýlené odhady jsou efektivnější než MVUE – mají menší celkovou chybu.
- Robustnost
- Robustní odhad je odolný vůči šumu nebo odlehlým hodnotám (například extrémním datům v souboru).
- Nemusí být nejefektivnější při ideálních podmínkách, ale je stabilnější v praxi, kde jsou data často zašuměná nebo obsahují chyby.
- Přesná matematická definice robustnosti často neexistuje, ale prakticky se jedná o velmi důležitou vlastnost.
- Příklad: Medián je robustnější než průměr, protože není ovlivněn extrémními hodnotami.
Odhady konkrétních parametrů
- Odhady střední hodnoty ($\mu$):
- Výběrový průměr $\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ je nestranným a konzistentním odhadem střední hodnoty $E[X]$.
- Odhady rozptylu ($\sigma^2$):
- Výběrový rozptyl $S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2$ je nestranným a konzistentním odhadem rozptylu $D[X]$.
- Odhady směrodatné odchylky ($\sigma$):
- Výběrová směrodatná odchylka $S_n = \sqrt{S^2_n}$ je odhadem směrodatné odchylky $\sigma$.
- Odhady momentů:
- Pro odhad $k$-tého obecného momentu $E[X^k]$ se používá výběrový $k$-tý obecný moment $m_{X^k} = \frac{1}{n}\sum_{j=1}^{n}x_j^k$.
Odhady konkrétních parametrů
- Odhady střední hodnoty ($\mu$):
- Výběrový průměr $ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i $
- je nestranným a konzistentním odhadem střední hodnoty $E[X]$.
- To znamená, že jeho střední hodnota je rovna skutečné střední hodnotě populace, a že s rostoucím počtem dat se přibližuje pravé hodnotě $\mu$.
- Příklad: Pokud měříme výšku 100 studentů, průměr těchto hodnot odhaduje průměrnou výšku celé populace studentů.
- Odhady rozptylu ($\sigma^2$):
- Výběrový rozptyl $ S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2 $
- je nestranným a konzistentním odhadem rozptylu $D[X]$.
- Dělení $n-1$ místo $n$ zajišťuje nestrannost odhadu (tzv. Besselova korekce).
- Tento odhad popisuje, jak moc se jednotlivé hodnoty výběru rozptylují kolem výběrového průměru.
- Odhady směrodatné odchylky ($\sigma$):
- Výběrová směrodatná odchylka se definuje jako odmocnina výběrového rozptylu: $ S_n = \sqrt{S^2_n} $
- Je přirozeným odhadem směrodatné odchylky a udává, jak moc se hodnoty typicky liší od průměru v původních jednotkách.
- Odhady momentů:
- Pro odhad $k$-tého obecného momentu $E[X^k]$ použijeme výběrový moment: $ m_{X^k} = \frac{1}{n} \sum_{j=1}^{n} x_j^k $
- Tento moment slouží např. k odhadu tvaru rozdělení (šikmost, špičatost) podle toho, zda se jedná o 3., 4. atd. moment.
- Příklad: Výběrový druhý moment je základem pro výpočet rozptylu.
Metody odhadování parametrů
Existuje několik metod, jak na základě dat odhadnout neznámé parametry rozdělení. Nejčastěji používané jsou tyto dvě:
- Metoda momentů (MM)
- Princip: Vycházíme z předpokladu, že teoretické momenty náhodné veličiny (např. střední hodnota, rozptyl atd.) závisí na parametrech rozdělení. Tyto teoretické momenty nahradíme jejich výběrovými odhady spočítanými z dat a vyřešíme rovnice, které takto vzniknou.
- Cíl: Najít takové hodnoty parametrů, aby teoretické vlastnosti rozdělení (momenty) „odpovídaly“ těm vypočteným z dat
- Postup (příklad pro dva parametry $\theta_1$ a $\theta_2$):
- Sečteme data a spočítáme výběrové momenty:
- $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 $$
- Sestavíme rovnice z teoretických momentů $E[X]$, $E[X^2]$ (ty závisí na $\theta_1, \theta_2$) a položíme je rovné výběrovým momentům.
- Řešíme soustavu rovnic a získáme odhady parametrů.
- Výhody:
- Poměrně jednoduchá metoda, často poskytuje uzavřené (analytické) řešení.
- Zohledňuje všechna data.
- Není potřeba znát přesnou formu pravděpodobnostní funkce.
- Nevýhody:
- Řešení nemusí existovat nebo může být nejednoznačné.
- Odhady nemusí být nejpřesnější (např. ve smyslu rozptylu).
- Poznámka:
- Používá se např. tehdy, když je výpočetně náročné použít metodu maximální věrohodnosti.
- Metoda maximální věrohodnosti (MLE – Maximum Likelihood Estimation)
- Princip: Hledáme takovou hodnotu parametru $\theta$, která maximalizuje pravděpodobnost pozorovaných dat. Jinými slovy: jaké nastavení parametrů by „nejlépe vysvětlovalo“ data, která jsme viděli?
- Postup:
- Sestrojíme věrohodnostní funkci $L(\theta)$:
- Spojitý případ: $$ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) $$
- Diskrétní případ: $$ L(\theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta) $$
- Z logaritmu věrohodnostní funkce vytvoříme tzv. log-věrohodnost: $$ \ell(\theta) = \ln L(\theta) $$
- Přechod na logaritmus je praktický – převádí součiny na součty, což zjednoduší derivování.
- Najdeme extrém log-věrohodnosti:
- Vypočteme derivaci podle $\theta$, položíme ji rovnu nule a řešíme: $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$
- Výsledné řešení $\hat{\theta}$ je maximálně věrohodný odhad parametru.
- Výhody:
- Při splnění určitých podmínek poskytuje MLE odhady s dobrými vlastnostmi – jsou asymptoticky nestranné, efektivní a konzistentní.
- Obvykle poskytuje přesnější výsledky než metoda momentů.
- Nevýhody:
- V některých případech může být složité nebo nemožné analyticky řešit rovnici pro maximum.
- Výsledky mohou být citlivé na odlehlé hodnoty.
- Poznámka:
- V jednoduchých situacích (např. normální rozdělení) obě metody vedou ke stejným odhadům.
- V praxi se metoda volí podle dostupnosti informací o rozdělení a výpočetní náročnosti.
Intervalové odhady (Intervaly spolehlivosti)
Na rozdíl od bodového odhadu, který poskytuje pouze jednu hodnotu pro neznámý parametr, intervalový odhad poskytuje interval, ve kterém se s určitou pravděpodobností nachází skutečná hodnota tohoto parametru. Tento přístup lépe vystihuje nejistotu spojenou s odhadem.
- Definice: $(1 - \alpha) \times 100\%$ interval spolehlivosti pro parametr $\vartheta$ je interval $(L, U)$ takový, že: $$ P(L < \vartheta^* < U) \geq 1 - \alpha $$
- kde:
- $L$ je dolní mez intervalu,
- $U$ je horní mez intervalu,
- $\vartheta^*$ je skutečná (neznámá) hodnota parametru.
- Koeficient spolehlivosti $(1 - \alpha)$ vyjadřuje pravděpodobnost, že interval pokrývá skutečnou hodnotu parametru. Například:
- Pro $95\%$ spolehlivost platí $\alpha = 0.05$.
- Pro $99\%$ spolehlivost platí $\alpha = 0.01$.
- Hladina významnosti $\alpha$ představuje pravděpodobnost, že skutečný parametr leží mimo interval (tj. že interval není „úspěšný“). Často se dělí na dvě části – pro dolní a horní mez (např. $\alpha/2$ a $\alpha/2$).
- Existují různé typy intervalových odhadů:
- Oboustranný interval: $$ I = (L, U) $$
- kde interval symetricky pokrývá oblast kolem bodového odhadu.
- Dolní jednostranný interval: $$ I = (L, \infty) $$
- Horní jednostranný interval: $$ I = (-\infty, U) $$
- Symetrický oboustranný interval je takový, kde pravděpodobnost, že parametr leží pod dolní mezí, i nad horní mezí, je stejná, tedy: $$ P(\vartheta^* < L) = P(\vartheta^* > U) = \frac{\alpha}{2} $$
- Abychom mohli interval spolehlivosti zkonstruovat, musíme znát pravděpodobnostní rozdělení bodového odhadu $\hat{\Theta}_n$, případně rozdělení vhodné statistiky, která z něj vychází (např. pomocí normálního nebo t-rozdělení).
Intervalové odhady konkrétních parametrů
Odhad střední hodnoty se známým rozptylem pomocí kvantilů normálního rozdělení ($u$): Pokud známe rozptyl populace $\sigma^2$, použijeme normální rozdělení. Interval spolehlivosti pro střední hodnotu $\mu$ se pak určuje pomocí kvantilu $u$ z normálního rozdělení. Tento přístup je vhodný, když víme, že data pocházejí z normálního rozdělení a zároveň známe rozptyl.
Odhad střední hodnoty a rozptylu pomocí kvantilů $t$ a $\chi^2$: Pokud je rozptyl neznámý, pro odhad střední hodnoty použijeme Studentovo t-rozdělení, které zohledňuje nejistotu ve výběrovém rozptylu. Pro intervalový odhad rozptylu použijeme chí-kvadrát rozdělení – dolní a horní mez intervalu spočteme pomocí kvantilů z $\chi^2$.
Odhad střední hodnoty pomocí centrální limitní věty (CLV): Pokud výběr není z normálního rozdělení, ale máme dostatečně velký počet pozorování, použijeme CLV. Ta zaručuje, že výběrový průměr má přibližně normální rozdělení, takže můžeme použít normální kvantily $u$ i bez normality původního rozdělení.
Asymptotický intervalový odhad: Používá se v obecných případech, kdy neznáme přesné rozdělení výběru, ale máme velký rozsah $n$. Intervaly jsou pak založené na odhadech ze vzorku (např. výběrový rozptyl místo známého rozptylu) a přibližují skutečné pokrytí při velkém $n$.
Poznámka: Lze tímto způsobem odhadovat i rozptyly, i když závisí na střední hodnotě. Typicky například u Poissonova rozdělení, kde platí $\mu = \sigma^2$, nebo u alternativního rozdělení (Bernoulliho), kde je rozptyl určen parametrem $p$ a zároveň souvisí se střední hodnotou. V těchto případech se často využívají speciální odhady přizpůsobené danému typu rozdělení.
6. Princip statistického testování hypotéz
Princip statistického testování hypotéz – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.
Princip statistického testování hypotéz je metoda, jak ověřit, zda data poskytují dostatek důkazů pro zamítnutí nějakého předpokladu (tzv. hypotézy) o rozdělení nebo parametrech náhodných veličin. Tento postup je základem pro rozhodování v mnoha oblastech statistiky, experimentů a datové analýzy.
- Formulace hypotéz:
- Nulová hypotéza ($H_0$): výchozí tvrzení, které předpokládáme, že platí – např. „střední hodnota je rovna 0“, „data mají normální rozdělení“, „dva výběry pochází ze stejné populace“ atd.
- Alternativní hypotéza ($H_1$): tvrzení, které se snažíme potvrdit – např. „střední hodnota se liší od 0“, „data nejsou normálně rozložena“, „dva výběry se liší“.
- Příklad:
- $H_0$: $\mu = 50$
- $H_1$: $\mu \neq 50$
- Volba hladiny významnosti ($\alpha$):
- Jedná se o pravděpodobnost chyby I. druhu – tj. že zamítneme $H_0$, i když je ve skutečnosti pravdivá.
- Typicky se volí $\alpha = 0.05$ nebo $\alpha = 0.01$.
- Například při $\alpha = 0.05$ připouštíme maximálně 5% pravděpodobnost, že učiníme chybný závěr ve prospěch $H_1$.
- Výběr testové statistiky:
- Zvolíme vhodnou testovou statistiku v závislosti na typu dat a testované hypotéze.
- Např. pro testování střední hodnoty normálně rozdělené veličiny použijeme t-test.
- Pro rozptyl může být použit F-test.
- Pro testy shody rozdělení použijeme např. $\chi^2$-test.
- Testová statistika je funkce vzorku, jejíž rozdělení známe, pokud $H_0$ platí.
- Výpočet kritické hodnoty nebo p-hodnoty:
- Kritická hodnota: hodnota testové statistiky, kterou porovnáme s vypočtenou hodnotou. Jestliže překročí tuto mez, zamítáme $H_0$.
- p-hodnota: pravděpodobnost, že bychom při platnosti $H_0$ získali stejně nebo více extrémní hodnotu testové statistiky. Pokud:$$ \text{p-hodnota} < \alpha, $$
- pak zamítáme $H_0$.
- Poznámka: p-hodnota je velmi praktický způsob testování, protože přímo říká, jak „nepravděpodobná“ jsou data za předpokladu, že $H_0$ platí.
- Rozhodnutí:
- Pokud p-hodnota < $\alpha$ nebo testová statistika je větší než kritická hodnota, zamítáme $H_0$.
- Jinak $H_0$ nezamítáme – což ale neznamená, že ji potvrzujeme; pouze nemáme dostatek důkazů k jejímu zamítnutí.
Shrnutí principu: Testování hypotéz je proces, jak rozhodnout, zda jsou odchylky pozorované ve vzorku od očekávaných hodnot důkazem proti výchozímu tvrzení. Pomáhá vyhnout se náhodným závěrům na základě šumu v datech, a umožňuje učinit rozhodnutí s kvantifikovanou mírou nejistoty.
Testy střední hodnoty a rozptylu
Testy střední hodnoty:
- Jednovýběrový t-test: Testuje hypotézu, zda střední hodnota jedné populace je rovna určité hodnotě. Používá se, pokud známe výběrový průměr a výběrový rozptyl a buď:
- data pocházejí z normálního rozdělení, nebo
- velikost výběru je dostatečně velká (např. $n > 30$, podle CLV).
- Příklad: Zajímá nás, zda průměrná výška studentů přesahuje 175 cm.
- Dvouvýběrový t-test: Testuje, zda se liší střední hodnoty dvou nezávislých výběrů. Používá se při porovnání dvou skupin.
- Příklad: Průměrná výška studentů v ČR vs. SR.
- Párový t-test: Testuje rozdíl středních hodnot dvou závislých výběrů, tj. každá hodnota v první skupině má přiřazenou dvojici v druhé skupině.
- Příklad: Výška člověka před a po půlročním tréninku.
Testy rozptylu:
- F-test: Slouží ke srovnání dvou rozptylů. Je citlivý na odchylky od normality.
- Příklad: Testujeme, zda se rozptyl známek ve dvou třídách liší.
- $\chi^2$-test rozptylu: Používá se k ověření, zda rozptyl náhodné veličiny je roven určité teoretické hodnotě.
- Výpočet statistiky: $ \chi^2 = \frac{(n - 1) \cdot S^2}{\sigma_0^2} $
- kde $S^2$ je výběrový rozptyl, $\sigma_0^2$ je hypotetická hodnota rozptylu a $n$ velikost výběru.
Porovnání dvou rozdělení
Porovnání dvou rozdělení:
- Kolmogorov-Smirnovův test: Testuje, zda dvě empirické distribuční funkce se výrazně liší. Používá se u spojitých veličin. Citlivý k rozdílům ve tvaru rozdělení.
- Mann-Whitneyho test: Neparametrický test rozdílu středních hodnot mezi dvěma nezávislými skupinami. Nepotřebuje předpoklad normality – vhodný pro pořadová nebo ne-normální data.
- Wilcoxonův test: Neparametrický párový test – alternativní k párovému t-testu, když data nejsou normálně rozložena.
$\chi^2$-test dobré shody
Používá se pro ověření, zda četnosti pozorovaných dat odpovídají určitému teoretickému rozdělení (např. binomickému, Poissonovu, normálnímu). Vhodné např. pro kategorická data.
Výpočet testové statistiky: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ kde:
- $O_i$ jsou pozorované četnosti,
- $E_i$ jsou teoreticky očekávané četnosti.
Předpoklady:
- Očekávané četnosti $E_i$ by měly být větší nebo rovny 5, aby byl výsledek testu spolehlivý (jinak se používají úpravy nebo sloučení kategorií).
Test nezávislosti v kontingenční tabulce
Test nezávislosti:
- Používá se u dvou kategoriálních proměnných – např. pohlaví a preference typu produktu.
- Kontingenční tabulka zachycuje četnosti kombinací hodnot obou proměnných.
Testová statistika: $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ kde:
- $O_{ij}$ jsou pozorované četnosti v buňkách tabulky,
- $E_{ij}$ jsou očekávané četnosti při nezávislosti proměnných: $ E_{ij} = \frac{r_i \cdot c_j}{n} $
- kde $r_i$ je součet řádku, $c_j$ součet sloupce a $n$ je celkový počet pozorování.
Interpretace:
- Malá hodnota $\chi^2$ znamená, že rozdíly mezi $O_{ij}$ a $E_{ij}$ jsou malé → proměnné jsou pravděpodobně nezávislé.
- Velká hodnota $\chi^2$ vede k zamítnutí hypotézy nezávislosti.
Předpoklad: Očekávané četnosti v buňkách by měly být alespoň 5.
7. Markovovy řetězce
Markovovy řetězce – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců.
Základní pojmy a popis
Markovovy řetězce jsou stochastické procesy s konečným nebo spočetným počtem stavů, kde pravděpodobnost přechodu do dalšího stavu závisí pouze na aktuálním stavu (vlastnost Markova).
- Přechodový diagram: Graf s uzly (stavy) a hranami (pravděpodobnosti přechodu).
- Matice přechodu $ P(t) $: Matice velikosti $ n \times n $, kde $ p_{ij}(t) $ je pravděpodobnost přechodu ze stavu $ i $ do stavu $ j $ v čase $ t $.
Klasifikace stavů
Typ stavu | Definice |
---|
Absorbující | $p_{jj} = 1$ (po vstupu nelze opustit) |
| Tranzientní | Existuje nenulová pravděpodobnost, že se nikdy nevrátíme do tohoto stavu | | Rekurentní | Stav je navštíven nekonečně často s pravděpodobností 1 |
Periodický | Návrat do stavu je možný pouze v násobcích čísla $d_j$ (perioda) |
Aperiodický | Perioda $d_j = 1$ |
Rozložitelnost a asymptotika
- Rozložitelnost (reducibilní řetězec): Pokud neexistuje cesta mezi některými stavy.
- Irreducibilní řetězec: Všechny stavy jsou vzájemně dosažitelné.
- Asymptotické chování: Pro irreducibilní, aperiodické a pozitivně rekurentní řetězce konverguje distribuce k stacionárnímu rozdělení $\pi$, které splňuje $\pi = \pi P$.
Přechodový diagram a matice
Příklad diagramu:
Matice přechodu
A | B | C | |
A | 0.0 | 0.5 | 0.3 |
B | 0.0 | 1.0 | 0.0 |
C | 0.1 | 0.2 | 0.7 |