The wiki page is under active construction, expect bugs.

This is an old revision of the document!


Způsoby popisu rozdělení náhodných veličin a vektorů. Odhady parametrů rozdělení. Základní statistické testy. Markovské řetězce a jejich asymptotické vlastnosti.

B0B01PST Webové stránky předmětu Helisova stránky předmětu

  • Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
  • Náhodné vektory a jejich popis – nezávislost náhodných veličin, kovariance a korelace.
  • Čebyševova nerovnost – centrální limitní věta.
  • Základní pojmy statistiky – náhodný výběr, empirické rozdělení.
  • Obecné vlastnosti odhadů parametrů – odhady střední hodnoty, rozptylu, směrodatné odchylky, momentů. Odhady parametrů metodou momentů a metodou maximální věrohodnosti. Intervalové odhady.
  • Princip statistického testování hypotéz – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.
  • Markovovy řetězce – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců.

1. Definice pravděpodobnosti (Kolmogorovova)

  • Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
  • Pravděpodobnost je funkce, která popisuje budoucí pravdivost neznámých jevů. Z teorie vyvozujeme realitu – udává, jak moc očekáváme, že nastane určitý jev.
  • Náhodný pokus – proces, jehož výsledek není předem jednoznačně určen, ale lze popsat množinou možných výsledků. Např. hod kostkou.
  • Elementární jev – konkrétní výsledek náhodného pokusu.
  • Jev – množina elementárních jevů, které sdílí určitou vlastnost. Např. „padla sudá“.
  • Jistý jev – nastává vždy, nemožný jev – nikdy. Opačný jev – doplněk vzhledem k celku.
  • Jevové pole – množina všech pozorovatelných jevů (např. exp Ω).
  • Úplný systém jevů – kolekce navzájem neslučitelných jevů, jejichž sjednocení tvoří jistý jev. Součet jejich pravděpodobností je 1.

Kolmogorovova definice pravděpodobnosti

  • Kolmogorovova definice pravděpodobnosti je založená na třech axiomech:
    • Axiom nezápornosti: $\forall A \in \mathcal{A}: P(A) \geq 0$
    • Axiom normovanosti: $P(\Omega) = 1$
    • Axiom σ-aditivity: Pro neslučitelné jevy $A_1, A_2, \dots$, platí:

$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$

  • Pravděpodobnostní prostor je trojice $(\Omega, \mathcal{A}, P)$, kde:
    • $\Omega$ – neprázdná množina elementárních jevů
    • $\mathcal{A}$ – σ-algebra podmnožin $\Omega$
    • $P$ – pravděpodobnostní míra
  • σ-algebra $\mathcal{A}$ splňuje:
    • $\emptyset \in \mathcal{A}$
    • $A \in \mathcal{A} \Rightarrow A^c \in \mathcal{A}$
    • $A_1, A_2, \dots \in \mathcal{A} \Rightarrow \bigcup_{i=1}^{\infty} A_i \in \mathcal{A}$
  • Borelova σ-algebra – nejmenší σ-algebra na $\mathbb{R}$ obsahující všechny otevřené intervaly. Obsahuje i uzavřené, polouzavřené a jejich spočetné sjednocení.

Nezávislost náhodných jevů

  • Jevy $A$ a $B$ jsou nezávislé, pokud:
    • $P(A \cap B) = P(A) \cdot P(B)$
    • To znamená, že výskyt jednoho jevu nijak neovlivňuje výskyt druhého.
    • Ekvivalentně: $P(A | B) = P(A)$ a $P(B | A) = P(B)$
  • Důsledky:
    • Pro nezávislé jevy platí také: $P(A \cup B) = P(A) + P(B) - P(A) \cdot P(B)$
  • Nezávislost nelze zaměňovat se neslučitelností – neslučitelné jevy nemohou nastat současně: $P(A \cap B) = 0$.
  • Dvojice jevů může být:
    • Neslučitelná a závislá – např. „padla 1“ a „padla 6“
    • Nezávislá a slučitelná – např. „padla sudá“ a „padla větší než 3“
  • V praxi ověřujeme nezávislost pomocí výpočtu $P(A \cap B)$ a porovnáním s $P(A) \cdot P(B)$

Klasická (Laplaceova) definice pravděpodobnosti

  • Náhodný pokus má $n$ různých stejně pravděpodobných výsledků.
  • Pravděpodobnost jevu $A \subseteq \Omega$ je:

$P(A) = \frac{|A|}{|\Omega|}$

  • Tento model je vhodný pouze pro konečné diskrétní prostory s rovnoměrnými rozděleními.
  • Nevhodný pro spojité rozdělení nebo nekonečné množiny – zde se uplatňuje Kolmogorovův přístup.

Podmíněná pravděpodobnost

  • Podmíněná pravděpodobnost je pravděpodobnost jevu $A$ za předpokladu, že nastal jev $B$. Značí se $P(A|B)$ a definuje se jako:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{pouze pokud } P(B) > 0 $$

  • Znamená to, že podmíněná pravděpodobnost výskytu $A$, pokud víme, že nastal $B$, je rovna pravděpodobnosti průniku obou jevů dělené pravděpodobností $B$.
  • Tato definice odpovídá intuitivnímu chápání „pravděpodobnosti za předpokladu“. Upřesňuje, jak se mění pohled na pravděpodobnost, když víme, že se určitý jev již stal.
  • Z podmíněné pravděpodobnosti vyplývá také užitečná identita (úplný zákon pravděpodobnosti):

$$ P(A) = P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) $$

  • To znamená, že pravděpodobnost jevu $A$ lze rozdělit podle toho, zda nastal $B$ nebo jeho doplněk.
  • Řetězové pravidlo (chain rule): Pravděpodobnost výskytu posloupnosti jevů lze zapsat jako součin podmíněných pravděpodobností:

$$ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \dots \cap A_{n-1}) $$

  • Například pro posloupnost hodů kostkou můžeme psát:

$P(1,4,6,2) = P(1) \cdot P(4|1) \cdot P(6|1 \cap 4) \cdot P(2|1 \cap 4 \cap 6)$

  • Nezávislost jevů a podmíněná pravděpodobnost:
    • Jevy $A$ a $B$ jsou nezávislé, právě když:

$$ P(A|B) = P(A) \quad \text{a} \quad P(B|A) = P(B) $$

  • Z toho plyne i definice pro průnik: $P(A \cap B) = P(A) \cdot P(B)$
  • Podmíněná nezávislost:
    • Jevy $A$ a $B$ jsou podmíněně nezávislé vzhledem k $C$, pokud:

$$ P(A \cap B | C) = P(A|C) \cdot P(B|C) $$

  • To znamená, že pokud víme, že nastal jev $C$, pak $A$ a $B$ jsou vůči sobě nezávislé.

Bayesova věta

  • Bayesova věta je základní vztah v teorii pravděpodobnosti, který umožňuje *obrátit* podmíněné pravděpodobnosti. Z vyjádření pravděpodobnosti $P(B|A)$ získáme $P(A|B)$:

$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$

  • pouze pokud P(B) > 0
  • Tento vzorec umožňuje odhadnout pravděpodobnost jevu $A$ za předpokladu, že nastal $B$, na základě znalosti pravděpodobnosti $B$ za podmínky $A$ (tzv. likelihood) a apriorní pravděpodobnosti $A$.
  • Interpretace:
    • $P(A)$ – apriorní pravděpodobnost jevu $A$ (např. pravděpodobnost nemoci před testováním)
    • $P(B|A)$ – pravděpodobnost pozorování $B$ za předpokladu $A$ (např. pozitivní test pokud je nemoc)
    • $P(B)$ – celková pravděpodobnost jevu $B$ (např. celková pravděpodobnost pozitivního testu)
    • $P(A|B)$ – aposteriorní pravděpodobnost (pravděpodobnost, že má pacient nemoc, když test vyšel pozitivně)
  • Rozšíření na více jevů – věta o úplné pravděpodobnosti a Bayesův vzorec:
    • Pokud máme úplný systém disjunktních jevů $A_1, A_2, ..., A_n$ (např. různé možné příčiny nějakého jevu), a známe pravděpodobnosti $P(A_i)$ a podmíněné pravděpodobnosti $P(B|A_i)$, pak:

$$ P(B) = \sum_{j=1}^{n} P(A_j) \cdot P(B|A_j) $$

  • A Bayesova věta pro konkrétní $A_i$:

$$ P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B|A_j)} $$

  • Praktický příklad – falešně pozitivní testy (FP), pravdivě pozitivní (TP), atd.:
    • Např. pravděpodobnost, že pacient má nemoc (A), když test (B) je pozitivní:
      • $P(A)$ – pravděpodobnost, že má nemoc
      • $P(B|A)$ – test odhalí nemoc (true positive rate)
      • $P(B|\neg A)$ – test je falešně pozitivní (false positive rate)
      • $P(\neg A)$ – nemá nemoc
      • Pak:

$$ P(A|B) = \frac{P(A) \cdot P(B|A)}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A)} $$

  • Význam v praxi:
    • Základní nástroj v medicíně (diagnostika), strojovém učení (naivní Bayesův klasifikátor), rozhodování s neúplnými informacemi.

Náhodná veličina

Náhodná veličina je měřitelná funkce $X: \Omega \rightarrow \mathbb{R}$, která každému elementárnímu jevu $\omega \in \Omega$ přiřadí reálné číslo. Je definována na pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$. Měřitelnost znamená, že pro každý interval $I \subseteq \mathbb{R}$ je množina $\{\omega \in \Omega : X(\omega) \in I\} \in \mathcal{A}$, tj. lze jí přiřadit pravděpodobnost.

  • Distribuční funkce náhodné veličiny $X$ je funkce:

$$ F_X(t) = P(X \leq t) $$

  • Je to neklesající, zprava spojitá funkce, začínající v 0 a konvergující k 1. Popisuje pravděpodobnost, že náhodná veličina $X$ nabude hodnoty menší nebo rovné $t$.
  • Hustota pravděpodobnosti (pokud existuje) je derivací distribuční funkce:

$$ f_X(t) = \frac{dF_X(t)}{dt}, \quad f_X(t) \geq 0 $$

  • Pravděpodobnost intervalu:

$$ P(a < X \le b) = F_X(b) - F_X(a) = \int_a^b f_X(t) \, dt $$

  • Základní vlastnosti hustoty:
    • $f_X(x) \ge 0$
    • $\int_{-\infty}^{\infty} f_X(x) \, dx = 1$
  • Pravděpodobnostní funkce (pro diskrétní náhodné veličiny - pravděpodobnost, že náhodná veličina $X$ nabude konkrétní hodnoty $t$):

$$ p_X(t) = P(X = t) $$

  • Pravděpodobnostní míra $P_X$ určuje pravděpodobnost jevů náhodné veličiny $X$ a splňuje:
    • $P_X(\mathbb{R}) = 1$
    • $P_X(\emptyset) = 0$
    • Pokud jsou množiny $B_i$ disjunktní, pak $P_X\left(\bigcup_i B_i\right) = \sum_i P_X(B_i)$

Diskrétní náhodná veličina

Nabývá konečný nebo spočetný počet hodnot. Distribuční funkce je schodová, pravděpodobnost konkrétní hodnoty je dána pravděpodobnostní funkcí: $$ p(t) = P(X = t) = \sum_i p_i \delta(t - t_i) $$

  • kde $\delta$ je Diracova funkce.
    • Platí $\sum_i p_i = 1$
    • Pro libovolný interval: $P(a < X \le b) = \sum_{i: a < t_i \le b} p_i$

Spojitá náhodná veličina

Nabývá nekonečně mnoho hodnot. Distribuční funkce je spojitá, ale pravděpodobnost, že veličina nabude konkrétní hodnoty, je vždy nulová: $$ P(X = t) = 0 \quad \text{pro všechna } t \in \mathbb{R} $$

  • Hustota pravděpodobnosti je definována jako (ale pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty, je vždy 0.):

$$ f_X(t) = \frac{dF_X(t)}{dt} $$

  • A platí:

$$ F_X(t) = \int_{-\infty}^{t} f_X(u) \, du $$

Smíšená náhodná veličina

Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce je kombinací schodové a spojité části. Hustota pravděpodobnosti je definována jako: $$ f(t) = \sum_{i} p_i \delta(t - t_i) + f_c(t),$$ kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.

Smíšená náhodná veličina

Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce obsahuje diskrétní schody i spojité části. Hustota:

$$ f(t) = \sum_i p_i \delta(t - t_i) + f_c(t) $$

kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.

Střední hodnota, rozptyl a směrodatná odchylka

Střední hodnota (očekávaná hodnota) náhodné veličiny $X$ je definována jako „vážený průměr“ hodnot, které může $X$ nabývat, kde váhou je pravděpodobnost výskytu těchto hodnot.

  • Pro spojitou náhodnou veličinu s hustotou pravděpodobnosti $f(t)$ platí:

$$ E(X) = \int_{-\infty}^{\infty} t f(t) \, dt $$

  • Pro diskrétní náhodnou veličinu, která nabývá hodnot $t_i$ s pravděpodobností $p_i$, je očekávaná hodnota dána součtem:

$$ E(X) = \sum_{i} t_i p_i $$

Střední hodnota tedy představuje „průměrnou“ hodnotu, kterou bychom očekávali při velkém počtu opakování náhodného pokusu.

Poznámka: Lze ji také zapsat pomocí distribuční funkce: $$ E(X) = \int_{-\infty}^{\infty} x \, dF(x) $$ pokud integrál existuje. V diskrétním případě lze výpočet provést přes konvergentní řadu: $$ E(X) = \sum_{i=1}^{\infty} x_i \cdot p_i $$

Rozptyl (variance) náhodné veličiny $X$ popisuje, jak moc se hodnoty náhodné veličiny „rozptylují“ kolem její střední hodnoty. Je to očekávaná hodnota druhé mocniny odchylky od střední hodnoty:

$$ Var(X) = E((X - E(X))^2) $$

Tuto definici lze přepsat pomocí tzv. Steinerovy věty do ekvivalentního tvaru: $$ Var(X) = E(X^2) - (E(X))^2 $$ kde $E(X^2)$ je očekávaná hodnota druhé mocniny veličiny $X$.

Rozptyl měří míru „rozptýlení“ hodnot kolem průměru. Čím vyšší rozptyl, tím větší je variabilita dat.

Směrodatná odchylka (standard deviation) je druhá odmocnina rozptylu: $$ \sigma(X) = \sqrt{Var(X)} $$

Jedná se o často používanou míru variability, protože má stejné jednotky jako původní veličina (na rozdíl od rozptylu, který má jednotky druhé mocniny).

Moment náhodné veličiny $X$ je obecné rozšíření střední hodnoty a definuje se jako očekávaná hodnota $k$-té mocniny náhodné veličiny:

  • Pro spojitou náhodnou veličinu:

$$ M_k(X) = E(X^k) = \int_{-\infty}^{\infty} t^k f(t) \, dt $$

  • Pro diskrétní náhodnou veličinu:

$$ M_k(X) = \sum_{i} t_i^k p_i $$

Momenty slouží k popisu tvaru rozdělení (např. šikmost, špičatost), přičemž:

  • $M_1(X)$ je střední hodnota,
  • $M_2(X) - (M_1(X))^2$ je rozptyl,
  • vyšší momenty popisují například „šikmost“ nebo „špičatost“ rozdělení.

Existují i tzv. centrální momenty, které mají tvar: $$ \mu_k = E((X - E(X))^k) $$ Například druhý centrální moment je právě rozptyl.

Základní typy rozdělení

Diskrétní rozdělení

Binomické rozdělení – popisuje počet úspěchů v $n$ nezávislých Bernoulliho pokusech, kde každý pokus má pravděpodobnost úspěchu $p$. Distribuční funkce je dána jako: $$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$$ Poissonovo rozdělení – popisuje počet událostí, které nastanou v pevném časovém intervalu, pokud jsou tyto události nezávislé a nastávají s konstantní průměrnou rychlostí $\lambda$. Distribuční funkce je dána jako: $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$ Geometrické rozdělení – popisuje počet pokusů potřebných k dosažení prvního úspěchu v sérii nezávislých Bernoulliho pokusů. Distribuční funkce je dána jako: $$ P(X = k) = (1 - p)^{k - 1} p, \quad k = 1, 2, \ldots$$ Alternativní rozdělení – popisuje počet pokusů potřebných k dosažení prvního úspěchu v sérii nezávislých Bernoulliho pokusů, ale s různými pravděpodobnostmi úspěchu v jednotlivých pokusech. Distribuční funkce je dána jako: $$ P(X = k) = \prod_{i=1}^{k-1} (1 - p_i) p_k, \quad k = 1, 2, \ldots$$ Rovnoměrné rozdělení – popisuje náhodnou veličinu, která může nabývat hodnot v intervalu $[a, b]$ s rovnoměrnou pravděpodobností. Distribuční funkce je dána jako: $$ P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a + 1, \ldots, b$$ Hypergeometrické rozdělení – popisuje počet úspěchů v náhodném výběru $n$ položek z populace o velikosti $N$, která obsahuje $K$ úspěšných položek. Distribuční funkce je dána jako: $$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad k = 0, 1, \ldots, \min(K, n)$$ Napřiklad “M” losů z nichž “J” vyhrává, tak udává počet výherních losů, z výtažených “S” losů. $$ E(x) = \frac{(J \cdot S)}{M} $$

Spojitá rozdělení

Rovnoměrné rozdělení – popisuje náhodnou veličinu, která může nabývat hodnot v intervalu $[a, b]$ s rovnoměrnou pravděpodobností. Distribuční funkce je dána jako: $$ F(x) = \begin{cases} 0, & x < a \\ \frac{x - a}{b - a}, & a \leq x < b \\ 1, & x \geq b \end{cases} $$ Hustota je tvaru $$ f(x) = \begin{cases} \frac{1}{b - a}, & a < x < b \\ 0, & \text{jinak} \end{cases} $$

Normální rozdělení – popisuje náhodnou veličinu, která má symetrické rozdělení kolem střední hodnoty $\mu$ a standardní odchylky $\sigma$. Distribuční funkce je dána jako: $$ \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{t^2}{2}}\,dt. $$

Hustota je tvaru $$ f(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} $$ Exponenciální rozdělení – popisuje čas mezi událostmi v Poissonově procesu. Distribuční funkce je dána jako: $$ F(x) = 1 - e^{-\lambda x}, \quad x \geq 0$$ Hustota pravděpodobnosti je dána jako: $$ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$

2. Náhodné vektory a jejich popis

Náhodné vektory a jejich popis – nezávislost náhodných veličin, kovariance a korelace.

Náhodný vektor je $n$-rozměrný vektor $(X_1, X_2, \ldots, X_n)$, kde každá složka $X_i$ je náhodná veličina – měřitelná funkce definovaná na stejném pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$, která každému elementárnímu jevu přiřadí reálnou hodnotu.

  • Náhodný vektor můžeme chápat buď jako množinu náhodných veličin zkoumaných současně, nebo jako jednu náhodnou veličinu zkoumanou na několika objektech.
  • Jedná se o zobrazení z $\Omega$ do $\mathbb{R}^n$.

Společná distribuční funkce (distribuční funkce náhodného vektoru) je definována jako: $$ F(x_1, x_2, \ldots, x_n) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n) $$

  • Tato funkce je:
    • neklesající v každé proměnné,
    • zprava spojitá,
    • její limity jsou 0 v $-\infty$ a 1 v $+\infty$.

Pro spojitý náhodný vektor existuje společná hustota pravděpodobnosti $f(x_1, \ldots, x_n)$ taková, že: $$ F(x_1, \ldots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \ldots, t_n) \, dt_1 \cdots dt_n $$

Nezávislost náhodných veličin

Náhodné veličiny $X_1, X_2, \ldots, X_n$ jsou nezávislé, pokud pro všechny $x_1, x_2, \ldots, x_n$ platí: $$ F(x_1, x_2, \ldots, x_n) = F_1(x_1) \cdot F_2(x_2) \cdots F_n(x_n) $$ kde $F_i(x_i)$ je marginální distribuční funkce každé jednotlivé složky $X_i$.

  • Pro spojité náhodné veličiny je nezávislost ekvivalentní s podmínkou:

$$ f(x_1, \ldots, x_n) = f_1(x_1) \cdot \ldots \cdot f_n(x_n) $$

  • Pokud náhodné veličiny nejsou nezávislé, může se jedna veličina ovlivňovat s jinou.
  • Pro úplnou nezávislost všech $n$ veličin je třeba, aby byly nezávislé i všechny jejich kombinace.

Součet náhodných veličin – pokud jsou $X$ a $Y$ nezávislé, pak distribuční funkce jejich součtu $Z = X + Y$ vznikne tzv. konvolucí:

  • Pro diskrétní veličiny:

$$ P(Z = z) = \sum_{i} P(X = x_i) \cdot P(Y = z - x_i) $$

  • Pro spojité veličiny:

$$ f_Z(z) = \int_{-\infty}^{\infty} f_X(t) \cdot f_Y(z - t) \, dt $$

Příklady konvoluce rozdělení:

  • $Alt(p) + Alt(p) = Bin(2, p)$
  • $Bin(n_1, p) + Bin(n_2, p) = Bin(n_1 + n_2, p)$
  • $Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)$
  • $N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$

Kovariance a korelace

Kovariance je míra lineární závislosti dvou náhodných veličin $X$ a $Y$: $$ \text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y) $$

  • Pokud $\text{Cov}(X, Y) > 0$, mezi $X$ a $Y$ existuje pozitivní lineární závislost.
  • Pokud $\text{Cov}(X, Y) < 0$, závislost je negativní.
  • Pokud $\text{Cov}(X, Y) = 0$, $X$ a $Y$ jsou lineárně nezávislé (ale nemusí být obecně nezávislé).

Vlastnosti kovariance:

  • $\text{Cov}(X, X) = Var(X)$
  • $\text{Cov}(X, Y) = \text{Cov}(Y, X)$
  • $\text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y)$
  • $Var(X + Y) = Var(X) + Var(Y) + 2\text{Cov}(X, Y)$

Korelace (Pearsonův korelační koeficient) je normovaná kovariance, která měří sílu a směr lineární závislosti mezi veličinami: $$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y} $$

  • $\rho(X, Y) \in [-1, 1]$
  • $\rho = 1$ znamená úplnou pozitivní lineární závislost
  • $\rho = -1$ znamená úplnou negativní lineární závislost
  • $\rho = 0$ značí, že mezi veličinami není lineární závislost (ale může být nelineární)

Kovarianční matice a korelační matice:

  • Pro náhodný vektor $X = (X_1, ..., X_n)^T$ se definuje střední hodnota vektoru:

$$ E[X] = (E[X_1], E[X_2], \ldots, E[X_n])^T $$

  • Kovariance mezi složkami tvoří kovarianční matici:

$$ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1, X_2) & \cdots \\ Cov(X_2, X_1) & Var(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix} $$

  • Korelace tvoří korelační matici, kde jsou jednotlivé prvky korelačními koeficienty mezi dvojicemi složek.

3. Čebyševova nerovnost

Čebyševova nerovnost – centrální limitní věta.

Čebyševova nerovnost je matematická nerovnost, která říká, jak velká část pravděpodobnostní hmoty náhodné veličiny leží blízko její střední hodnoty. Je velmi obecná, protože nevyžaduje znalost konkrétního rozdělení – stačí znát pouze střední hodnotu a rozptyl.

Teoretické vzorce: Pro náhodnou veličinu $X$ s konečným rozptylem platí: $$ P(|X - E(X)| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}, \quad \text{pro každé } \varepsilon > 0 $$ kde

  • $E(X)$ je střední hodnota náhodné veličiny $X$
  • $\operatorname{Var}(X)$ je rozptyl náhodné veličiny $X$

Myšlenka:

Čebyševova nerovnost udává horní odhad pravděpodobnosti, že se hodnota náhodné veličiny odchýlí od své střední hodnoty o více než $\varepsilon$. I když nerozumíme přesnému rozdělení, můžeme tímto způsobem říci, že většina hodnot leží „blízko průměru“.

  • Využití: odhad pravděpodobnosti odlehlých hodnot (outliers) bez nutnosti znát konkrétní rozdělení.

Praktická ukázka:

Mějme náhodnou veličinu $X$ se střední hodnotou $E(X) = 50$ a rozptylem $\operatorname{Var}(X) = 25$. Chceme zjistit pravděpodobnost, že se $X$ odchýlí od 50 o více než 10: $$ P(|X - 50| \geq 10) \leq \frac{25}{10^2} = 0.25 $$

Interpretace: Nejvýše 25 % hodnot může být mimo interval $[40, 60]$. To znamená, že alespoň 75 % hodnot leží v tomto intervalu.

Grafické znázornění:

Vysvětlení: Červené oblasti znázorňují pravděpodobnost odchylky od $\mu$ o více než $\varepsilon$. Jejich plocha je shora omezena $\frac{\sigma^2}{\varepsilon^2}$.

Centrální limitní věta (CLV)

Centrální limitní věta (CLV) je základní výsledek pravděpodobnosti a statistiky, který říká, že součet (nebo průměr) mnoha nezávislých náhodných veličin má přibližně normální rozdělení – bez ohledu na původní rozdělení jednotlivých veličin.

Teoretický vzorec:
Nechť $X_1, X_2, \dots, X_n$ jsou nezávislé, stejně rozdělené náhodné veličiny se střední hodnotou $\mu$ a konečným rozptylem $\sigma^2$. Potom platí: $$ Z_n = \frac{\sum_{k=1}^n X_k - n\mu}{\sigma \sqrt{n}} \Rightarrow \mathcal{N}(0, 1) \quad \text{pro } n \to \infty $$

Jinými slovy, rozdělení $Z_n$ konverguje k normovanému normálnímu rozdělení (s průměrem 0 a směrodatnou odchylkou 1).

Pak pro $n \to \infty$ platí:
$$ \lim_{n \to \infty} P(Z_n \leq x) = \Phi(x), $$
kde $\Phi(x)$ je distribuční funkce normovaného normálního rozdělení $\mathcal{N}(0,1)$.

Myšlenka:
CLV ukazuje, že výběrový průměr (nebo součet) mnoha nezávislých veličin má přibližně normální rozdělení, i když původní data nejsou normální. To umožňuje používat normální rozdělení pro aproximace (např. v testování hypotéz).

Praktická ukázka:

Představme si, že házíme klasickou kostkou 100krát. Střední hodnota jednoho hodu je $\mu = 3.5$ a rozptyl je $\sigma^2 = \frac{35}{12} \approx 2.92$.

Chceme zjistit pravděpodobnost, že výběrový průměr všech hodů bude větší než 4.

1. Standardizace: $$ Z = \frac{4 - 3.5}{\sqrt{2.92 / 100}} \approx \frac{0.5}{0.171} \approx 2.93 $$

2. Použití tabulky normálního rozdělení: $$ P(\bar{X} > 4) = 1 - \Phi(2.93) \approx 1 - 0.9983 = 0.0017 $$

Interpretace: Pravděpodobnost, že výběrový průměr přesáhne 4, je velmi malá (přibližně 0.17 %), což dává smysl – je totiž málo pravděpodobné, že by padaly výhradně vysoké hodnoty.

Poznámka: Rychlost konvergence k normálnímu rozdělení je dána tzv. Berry-Essenovou nerovností – čím větší $n$, tím přesnější aproximace.

Grafické znázornění:

Vysvětlení: Modré sloupce znázorňují např. rozdělení hodu kostkou. Červená křivka ukazuje konvergenci výběrového průměru k normálnímu rozdělení s rostoucím $n$.

4. Základní pojmy statistiky

Základní pojmy statistiky – náhodný výběr, empirické rozdělení.

Náhodný výběr

Náhodný výběr je posloupnost $n$ nezávislých a stejně rozdělených náhodných veličin $X_1, X_2, \dots, X_n$ reprezentujících data z populace. Formálně: $$ \{X_i\}_{i=1}^n \quad \text{kde} \quad X_i \sim F \quad (\text{i.i.d.}) $$

  • $n$: rozsah výběru
  • $F$: společná distribuční funkce populace
  • i.i.d.: *independent and identically distributed* (nezávislé a stejně rozdělené)

Tento koncept znamená, že každá jednotlivá hodnota ve výběru má stejnou pravděpodobnostní distribuci jako ostatní a je na nich nezávislá.

Příklad: Měření výšky 50 náhodně vybraných studentů $\rightarrow X_i = \text{výška } i\text{-tého studenta}$ Každý student je vybrán náhodně, a tedy všechny výšky jsou považovány za i.i.d. realizace z určité distribuční funkce výšek ve studované populaci.

Empirické rozdělení

Empirické rozdělení aproximuje skutečné rozdělení populace pomocí dat z náhodného výběru.

  • Empirická distribuční funkce $F_n(x)$:

$$ F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}} $$ kde $\mathbf{1}_{\{X_i \leq x\}} = 1$, pokud $X_i \leq x$, jinak $0$.

  • Vlastnosti:
    • Skoková funkce s body nespojitosti v hodnotách $X_i$.
    • Pro $n \to \infty$ platí $F_n(x) \to F(x)$ podle zákona velkých čísel.

Tato funkce udává relativní četnost hodnot ve výběru, které jsou menší nebo rovny hodnotě $x$, a tedy slouží jako aproximace skutečné distribuční funkce.

Příklad: Pro výběr $\{1{,}5;\ 2{,}0;\ 3{,}5\}$ je $F_n(x)$ skoková funkce s třemi skoky o velikosti $\frac{1}{3}$, která stoupá vždy, když $x$ překročí jednu z hodnot výběru.

5. Obecné vlastnosti odhadů parametrů

Při odhadování neznámých parametrů základního souboru na základě pozorovaných dat z náhodného výběru se snažíme, aby naše odhady měly určité žádoucí vlastnosti. Tyto vlastnosti nám pomáhají posoudit kvalitu odhadu a vybrat ten nejlepší možný. Odhad je pravidlo nebo funkce, která na základě dat z výběru přiřazuje hodnotu určitému neznámému parametru.

Značení

Nejprve si zavedeme značení, které se v teorii odhadu běžně používá:

  • $\vartheta$: Jakákoli hodnota parametru (reálné číslo).
  • $\vartheta^*$: Skutečná (správná) hodnota parametru (reálné číslo).
  • $\hat{\Theta}_n$: Odhad parametru založený na náhodném výběru rozsahu $n$ (toto je náhodná veličina).
  • $\hat{\vartheta}$, $\hat{\vartheta}_n$: Realizace odhadu, tj. konkrétní hodnota odhadu získaná z dat (reálné číslo).

Například: Pokud odhadujeme střední hodnotu výšky v populaci, pak $\vartheta$ je neznámá střední výška, $\hat{\Theta}_n$ je výběrový průměr (náhodná veličina závislá na výběru) a $\hat{\vartheta}$ je konkrétní hodnota výběrového průměru vypočtená z dat.

Žádoucí vlastnosti bodových odhadů

Bodový odhad je funkce náhodného výběru, jejíž předpis nezávisí na odhadovaném parametru. Snažíme se, aby bodové odhady měly následující vlastnosti:

  1. Nestrannost (nevychýlenost)
    • Odhad $\hat{\Theta}_n$ se nazývá nestranný, pokud jeho střední hodnota je rovna skutečné hodnotě parametru $\vartheta^*$, tj. $ E[\hat{\Theta}_n] = \vartheta^* $
      • což znamená, že: $ E[\hat{\Theta}_n - \vartheta^*] = 0$
    • Pokud tato podmínka není splněna, říkáme, že odhad je vychýlený (má systematickou chybu).
    • Příklad: Výběrový průměr je nestranný odhad střední hodnoty normálního rozdělení.
  2. Asymptotická nestrannost
    • Odhad $\hat{\Theta}_n$ je asymptoticky nestranný, pokud se jeho střední hodnota blíží skutečné hodnotě parametru $\vartheta^*$ s rostoucím rozsahem výběru $n$, tj. $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^* $
    • To znamená, že odhad je sice pro malé $n$ vychýlený, ale bias se s rostoucím $n$ zmenšuje a nakonec zmizí.
    • Např. výběrový rozptyl s dělením $n$ místo $n-1$ je asymptoticky nestranný.
  3. Konzistence
    • Odhad $\hat{\Theta}_n$ je konzistentní, pokud s rostoucím rozsahem výběru $n$ konverguje v pravděpodobnosti k odhadovanému parametru $\vartheta^*$, tj.: $ \hat{\Theta}_n \xrightarrow{P} \vartheta^*$
    • To znamená, že:
      • Je asymptoticky nestranný: $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^*$
      • A má klesající rozptyl: $ \lim_{n \rightarrow \infty} D[\hat{\Theta}_n] = 0 $
    • Konzistence znamená, že s větším počtem dat bude náš odhad přesnější.
  4. Efektivita (účinnost)
    • Efektivní odhad je takový, který má co nejmenší střední kvadratickou chybu: $ E[(\hat{\Theta}_n - \vartheta^*)^2] $
    • Tuto chybu můžeme rozložit na: $D[\hat{\Theta}_n] + (E[\hat{\Theta}_n] - \vartheta^*)^2 $
    • Pro nestranné odhady tedy platí, že efektivita závisí pouze na jejich rozptylu.
    • Nejlepší nestranný odhad (MVUE – minimum variance unbiased estimator) má ze všech nestranných odhadů nejmenší rozptyl.
    • Pozor: může se stát, že některé vychýlené odhady jsou efektivnější než MVUE – mají menší celkovou chybu.
  5. Robustnost
    • Robustní odhad je odolný vůči šumu nebo odlehlým hodnotám (například extrémním datům v souboru).
    • Nemusí být nejefektivnější při ideálních podmínkách, ale je stabilnější v praxi, kde jsou data často zašuměná nebo obsahují chyby.
    • Přesná matematická definice robustnosti často neexistuje, ale prakticky se jedná o velmi důležitou vlastnost.
    • Příklad: Medián je robustnější než průměr, protože není ovlivněn extrémními hodnotami.

Odhady konkrétních parametrů

  • Odhady střední hodnoty ($\mu$):
    • Výběrový průměr $\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ je nestranným a konzistentním odhadem střední hodnoty $E[X]$.
  • Odhady rozptylu ($\sigma^2$):
    • Výběrový rozptyl $S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2$ je nestranným a konzistentním odhadem rozptylu $D[X]$.
  • Odhady směrodatné odchylky ($\sigma$):
    • Výběrová směrodatná odchylka $S_n = \sqrt{S^2_n}$ je odhadem směrodatné odchylky $\sigma$.
  • Odhady momentů:
  • Pro odhad $k$-tého obecného momentu $E[X^k]$ se používá výběrový $k$-tý obecný moment $m_{X^k} = \frac{1}{n}\sum_{j=1}^{n}x_j^k$.

Odhady konkrétních parametrů

  • Odhady střední hodnoty ($\mu$):
    • Výběrový průměr $ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i $
      • je nestranným a konzistentním odhadem střední hodnoty $E[X]$.
    • To znamená, že jeho střední hodnota je rovna skutečné střední hodnotě populace, a že s rostoucím počtem dat se přibližuje pravé hodnotě $\mu$.
    • Příklad: Pokud měříme výšku 100 studentů, průměr těchto hodnot odhaduje průměrnou výšku celé populace studentů.
  • Odhady rozptylu ($\sigma^2$):
    • Výběrový rozptyl $ S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2 $
      • je nestranným a konzistentním odhadem rozptylu $D[X]$.
    • Dělení $n-1$ místo $n$ zajišťuje nestrannost odhadu (tzv. Besselova korekce).
    • Tento odhad popisuje, jak moc se jednotlivé hodnoty výběru rozptylují kolem výběrového průměru.
  • Odhady směrodatné odchylky ($\sigma$):
    • Výběrová směrodatná odchylka se definuje jako odmocnina výběrového rozptylu: $ S_n = \sqrt{S^2_n} $
    • Je přirozeným odhadem směrodatné odchylky a udává, jak moc se hodnoty typicky liší od průměru v původních jednotkách.
  • Odhady momentů:
    • Pro odhad $k$-tého obecného momentu $E[X^k]$ použijeme výběrový moment: $ m_{X^k} = \frac{1}{n} \sum_{j=1}^{n} x_j^k $
    • Tento moment slouží např. k odhadu tvaru rozdělení (šikmost, špičatost) podle toho, zda se jedná o 3., 4. atd. moment.
    • Příklad: Výběrový druhý moment je základem pro výpočet rozptylu.

Metody odhadování parametrů

Existuje několik metod, jak na základě dat odhadnout neznámé parametry rozdělení. Nejčastěji používané jsou tyto dvě:

  1. Metoda momentů (MM)
    • Princip: Vycházíme z předpokladu, že teoretické momenty náhodné veličiny (např. střední hodnota, rozptyl atd.) závisí na parametrech rozdělení. Tyto teoretické momenty nahradíme jejich výběrovými odhady spočítanými z dat a vyřešíme rovnice, které takto vzniknou.
    • Cíl: Najít takové hodnoty parametrů, aby teoretické vlastnosti rozdělení (momenty) „odpovídaly“ těm vypočteným z dat
    • Postup (příklad pro dva parametry $\theta_1$ a $\theta_2$):
      • Sečteme data a spočítáme výběrové momenty:
      • $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 $$
      • Sestavíme rovnice z teoretických momentů $E[X]$, $E[X^2]$ (ty závisí na $\theta_1, \theta_2$) a položíme je rovné výběrovým momentům.
      • Řešíme soustavu rovnic a získáme odhady parametrů.
    • Výhody:
      • Poměrně jednoduchá metoda, často poskytuje uzavřené (analytické) řešení.
      • Zohledňuje všechna data.
      • Není potřeba znát přesnou formu pravděpodobnostní funkce.
    • Nevýhody:
      • Řešení nemusí existovat nebo může být nejednoznačné.
      • Odhady nemusí být nejpřesnější (např. ve smyslu rozptylu).
    • Poznámka:
      • Používá se např. tehdy, když je výpočetně náročné použít metodu maximální věrohodnosti.
  2. Metoda maximální věrohodnosti (MLE – Maximum Likelihood Estimation)
    • Princip: Hledáme takovou hodnotu parametru $\theta$, která maximalizuje pravděpodobnost pozorovaných dat. Jinými slovy: jaké nastavení parametrů by „nejlépe vysvětlovalo“ data, která jsme viděli?
    • Postup:
      • Sestrojíme věrohodnostní funkci $L(\theta)$:
        • Spojitý případ: $$ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) $$
        • Diskrétní případ: $$ L(\theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta) $$
      • Z logaritmu věrohodnostní funkce vytvoříme tzv. log-věrohodnost: $$ \ell(\theta) = \ln L(\theta) $$
        • Přechod na logaritmus je praktický – převádí součiny na součty, což zjednoduší derivování.
      • Najdeme extrém log-věrohodnosti:
        • Vypočteme derivaci podle $\theta$, položíme ji rovnu nule a řešíme: $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$
      • Výsledné řešení $\hat{\theta}$ je maximálně věrohodný odhad parametru.
    • Výhody:
      • Při splnění určitých podmínek poskytuje MLE odhady s dobrými vlastnostmi – jsou asymptoticky nestranné, efektivní a konzistentní.
      • Obvykle poskytuje přesnější výsledky než metoda momentů.
    • Nevýhody:
      • V některých případech může být složité nebo nemožné analyticky řešit rovnici pro maximum.
      • Výsledky mohou být citlivé na odlehlé hodnoty.
    • Poznámka:
      • V jednoduchých situacích (např. normální rozdělení) obě metody vedou ke stejným odhadům.
      • V praxi se metoda volí podle dostupnosti informací o rozdělení a výpočetní náročnosti.

Intervalové odhady (Intervaly spolehlivosti)

Na rozdíl od bodového odhadu, který poskytuje pouze jednu hodnotu pro neznámý parametr, intervalový odhad poskytuje interval, ve kterém se s určitou pravděpodobností nachází skutečná hodnota tohoto parametru. Tento přístup lépe vystihuje nejistotu spojenou s odhadem.

  • Definice: $(1 - \alpha) \times 100\%$ interval spolehlivosti pro parametr $\vartheta$ je interval $(L, U)$ takový, že: $$ P(L < \vartheta^* < U) \geq 1 - \alpha $$
    • kde:
      • $L$ je dolní mez intervalu,
      • $U$ je horní mez intervalu,
      • $\vartheta^*$ je skutečná (neznámá) hodnota parametru.
  • Koeficient spolehlivosti $(1 - \alpha)$ vyjadřuje pravděpodobnost, že interval pokrývá skutečnou hodnotu parametru. Například:
    • Pro $95\%$ spolehlivost platí $\alpha = 0.05$.
    • Pro $99\%$ spolehlivost platí $\alpha = 0.01$.
  • Hladina významnosti $\alpha$ představuje pravděpodobnost, že skutečný parametr leží mimo interval (tj. že interval není „úspěšný“). Často se dělí na dvě části – pro dolní a horní mez (např. $\alpha/2$ a $\alpha/2$).
  • Existují různé typy intervalových odhadů:
    • Oboustranný interval: $$ I = (L, U) $$
      • kde interval symetricky pokrývá oblast kolem bodového odhadu.
    • Dolní jednostranný interval: $$ I = (L, \infty) $$
    • Horní jednostranný interval: $$ I = (-\infty, U) $$
  • Symetrický oboustranný interval je takový, kde pravděpodobnost, že parametr leží pod dolní mezí, i nad horní mezí, je stejná, tedy: $$ P(\vartheta^* < L) = P(\vartheta^* > U) = \frac{\alpha}{2} $$
  • Abychom mohli interval spolehlivosti zkonstruovat, musíme znát pravděpodobnostní rozdělení bodového odhadu $\hat{\Theta}_n$, případně rozdělení vhodné statistiky, která z něj vychází (např. pomocí normálního nebo t-rozdělení).

Intervalové odhady konkrétních parametrů

Odhad střední hodnoty se známým rozptylem pomocí kvantilů normálního rozdělení ($u$): Pokud známe rozptyl populace $\sigma^2$, použijeme normální rozdělení. Interval spolehlivosti pro střední hodnotu $\mu$ se pak určuje pomocí kvantilu $u$ z normálního rozdělení. Tento přístup je vhodný, když víme, že data pocházejí z normálního rozdělení a zároveň známe rozptyl.

Odhad střední hodnoty a rozptylu pomocí kvantilů $t$ a $\chi^2$: Pokud je rozptyl neznámý, pro odhad střední hodnoty použijeme Studentovo t-rozdělení, které zohledňuje nejistotu ve výběrovém rozptylu. Pro intervalový odhad rozptylu použijeme chí-kvadrát rozdělení – dolní a horní mez intervalu spočteme pomocí kvantilů z $\chi^2$.

Odhad střední hodnoty pomocí centrální limitní věty (CLV): Pokud výběr není z normálního rozdělení, ale máme dostatečně velký počet pozorování, použijeme CLV. Ta zaručuje, že výběrový průměr má přibližně normální rozdělení, takže můžeme použít normální kvantily $u$ i bez normality původního rozdělení.

Asymptotický intervalový odhad: Používá se v obecných případech, kdy neznáme přesné rozdělení výběru, ale máme velký rozsah $n$. Intervaly jsou pak založené na odhadech ze vzorku (např. výběrový rozptyl místo známého rozptylu) a přibližují skutečné pokrytí při velkém $n$.

Poznámka: Lze tímto způsobem odhadovat i rozptyly, i když závisí na střední hodnotě. Typicky například u Poissonova rozdělení, kde platí $\mu = \sigma^2$, nebo u alternativního rozdělení (Bernoulliho), kde je rozptyl určen parametrem $p$ a zároveň souvisí se střední hodnotou. V těchto případech se často využívají speciální odhady přizpůsobené danému typu rozdělení.

6. Princip statistického testování hypotéz

Princip statistického testování hypotéz – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.

Princip statistického testování hypotéz je metoda, jak ověřit, zda data poskytují dostatek důkazů pro zamítnutí nějakého předpokladu (tzv. hypotézy) o rozdělení nebo parametrech náhodných veličin. Tento postup je základem pro rozhodování v mnoha oblastech statistiky, experimentů a datové analýzy.

  1. Formulace hypotéz:
    • Nulová hypotéza ($H_0$): výchozí tvrzení, které předpokládáme, že platí – např. „střední hodnota je rovna 0“, „data mají normální rozdělení“, „dva výběry pochází ze stejné populace“ atd.
    • Alternativní hypotéza ($H_1$): tvrzení, které se snažíme potvrdit – např. „střední hodnota se liší od 0“, „data nejsou normálně rozložena“, „dva výběry se liší“.
    • Příklad:
      • $H_0$: $\mu = 50$
      • $H_1$: $\mu \neq 50$
  2. Volba hladiny významnosti ($\alpha$):
    • Jedná se o pravděpodobnost chyby I. druhu – tj. že zamítneme $H_0$, i když je ve skutečnosti pravdivá.
    • Typicky se volí $\alpha = 0.05$ nebo $\alpha = 0.01$.
    • Například při $\alpha = 0.05$ připouštíme maximálně 5% pravděpodobnost, že učiníme chybný závěr ve prospěch $H_1$.
  3. Výběr testové statistiky:
    • Zvolíme vhodnou testovou statistiku v závislosti na typu dat a testované hypotéze.
      • Např. pro testování střední hodnoty normálně rozdělené veličiny použijeme t-test.
      • Pro rozptyl může být použit F-test.
      • Pro testy shody rozdělení použijeme např. $\chi^2$-test.
    • Testová statistika je funkce vzorku, jejíž rozdělení známe, pokud $H_0$ platí.
  4. Výpočet kritické hodnoty nebo p-hodnoty:
    • Kritická hodnota: hodnota testové statistiky, kterou porovnáme s vypočtenou hodnotou. Jestliže překročí tuto mez, zamítáme $H_0$.
    • p-hodnota: pravděpodobnost, že bychom při platnosti $H_0$ získali stejně nebo více extrémní hodnotu testové statistiky. Pokud:$$ \text{p-hodnota} < \alpha, $$
    • pak zamítáme $H_0$.
    • Poznámka: p-hodnota je velmi praktický způsob testování, protože přímo říká, jak „nepravděpodobná“ jsou data za předpokladu, že $H_0$ platí.
  5. Rozhodnutí:
    • Pokud p-hodnota < $\alpha$ nebo testová statistika je větší než kritická hodnota, zamítáme $H_0$.
    • Jinak $H_0$ nezamítáme – což ale neznamená, že ji potvrzujeme; pouze nemáme dostatek důkazů k jejímu zamítnutí.

Shrnutí principu: Testování hypotéz je proces, jak rozhodnout, zda jsou odchylky pozorované ve vzorku od očekávaných hodnot důkazem proti výchozímu tvrzení. Pomáhá vyhnout se náhodným závěrům na základě šumu v datech, a umožňuje učinit rozhodnutí s kvantifikovanou mírou nejistoty.

Testy střední hodnoty a rozptylu

Testy střední hodnoty:

  • Jednovýběrový t-test: Testuje hypotézu, zda střední hodnota jedné populace je rovna určité hodnotě. Používá se, pokud známe výběrový průměr a výběrový rozptyl a buď:
    • data pocházejí z normálního rozdělení, nebo
    • velikost výběru je dostatečně velká (např. $n > 30$, podle CLV).
    • Příklad: Zajímá nás, zda průměrná výška studentů přesahuje 175 cm.
  • Dvouvýběrový t-test: Testuje, zda se liší střední hodnoty dvou nezávislých výběrů. Používá se při porovnání dvou skupin.
    • Příklad: Průměrná výška studentů v ČR vs. SR.
  • Párový t-test: Testuje rozdíl středních hodnot dvou závislých výběrů, tj. každá hodnota v první skupině má přiřazenou dvojici v druhé skupině.
    • Příklad: Výška člověka před a po půlročním tréninku.

Testy rozptylu:

  • F-test: Slouží ke srovnání dvou rozptylů. Je citlivý na odchylky od normality.
    • Příklad: Testujeme, zda se rozptyl známek ve dvou třídách liší.
  • $\chi^2$-test rozptylu: Používá se k ověření, zda rozptyl náhodné veličiny je roven určité teoretické hodnotě.
    • Výpočet statistiky: $ \chi^2 = \frac{(n - 1) \cdot S^2}{\sigma_0^2} $
    • kde $S^2$ je výběrový rozptyl, $\sigma_0^2$ je hypotetická hodnota rozptylu a $n$ velikost výběru.

Porovnání dvou rozdělení

Porovnání dvou rozdělení:

  • Kolmogorov-Smirnovův test: Testuje, zda dvě empirické distribuční funkce se výrazně liší. Používá se u spojitých veličin. Citlivý k rozdílům ve tvaru rozdělení.
  • Mann-Whitneyho test: Neparametrický test rozdílu středních hodnot mezi dvěma nezávislými skupinami. Nepotřebuje předpoklad normality – vhodný pro pořadová nebo ne-normální data.
  • Wilcoxonův test: Neparametrický párový test – alternativní k párovému t-testu, když data nejsou normálně rozložena.

$\chi^2$-test dobré shody

Používá se pro ověření, zda četnosti pozorovaných dat odpovídají určitému teoretickému rozdělení (např. binomickému, Poissonovu, normálnímu). Vhodné např. pro kategorická data.

Výpočet testové statistiky: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ kde:

  • $O_i$ jsou pozorované četnosti,
  • $E_i$ jsou teoreticky očekávané četnosti.

Předpoklady:

  • Očekávané četnosti $E_i$ by měly být větší nebo rovny 5, aby byl výsledek testu spolehlivý (jinak se používají úpravy nebo sloučení kategorií).

Test nezávislosti v kontingenční tabulce

Test nezávislosti:

  • Používá se u dvou kategoriálních proměnných – např. pohlaví a preference typu produktu.
  • Kontingenční tabulka zachycuje četnosti kombinací hodnot obou proměnných.

Testová statistika: $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ kde:

  • $O_{ij}$ jsou pozorované četnosti v buňkách tabulky,
  • $E_{ij}$ jsou očekávané četnosti při nezávislosti proměnných: $ E_{ij} = \frac{r_i \cdot c_j}{n} $
  • kde $r_i$ je součet řádku, $c_j$ součet sloupce a $n$ je celkový počet pozorování.

Interpretace:

  • Malá hodnota $\chi^2$ znamená, že rozdíly mezi $O_{ij}$ a $E_{ij}$ jsou malé → proměnné jsou pravděpodobně nezávislé.
  • Velká hodnota $\chi^2$ vede k zamítnutí hypotézy nezávislosti.

Předpoklad: Očekávané četnosti v buňkách by měly být alespoň 5.

7. Markovovy řetězce

Markovovy řetězce – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců.

Základní pojmy a popis

Markovovy řetězce jsou stochastické procesy s konečným nebo spočetným počtem stavů, kde pravděpodobnost přechodu do dalšího stavu závisí pouze na aktuálním stavu (vlastnost Markova).

  • Přechodový diagram: Graf s uzly (stavy) a hranami (pravděpodobnosti přechodu).
  • Matice přechodu $ P(t) $: Matice velikosti $ n \times n $, kde $ p_{ij}(t) $ je pravděpodobnost přechodu ze stavu $ i $ do stavu $ j $ v čase $ t $.

Klasifikace stavů

Typ stavu Definice
Absorbující $p_{jj} = 1$ (po vstupu nelze opustit)

| Tranzientní | Existuje nenulová pravděpodobnost, že se nikdy nevrátíme do tohoto stavu | | Rekurentní | Stav je navštíven nekonečně často s pravděpodobností 1 |

Periodický Návrat do stavu je možný pouze v násobcích čísla $d_j$ (perioda)
Aperiodický Perioda $d_j = 1$

Rozložitelnost a asymptotika

  • Rozložitelnost (reducibilní řetězec): Pokud neexistuje cesta mezi některými stavy.
  • Irreducibilní řetězec: Všechny stavy jsou vzájemně dosažitelné.
  • Asymptotické chování: Pro irreducibilní, aperiodické a pozitivně rekurentní řetězce konverguje distribuce k stacionárnímu rozdělení $\pi$, které splňuje $\pi = \pi P$.

Přechodový diagram a matice

Příklad diagramu:

Matice přechodu

A B C
A 0.0 0.5 0.3
B 0.0 1.0 0.0
C 0.1 0.2 0.7
Navigation

Playground

QR Code
QR Code statnice:bakalar:b0b01pst (generated for current page)