Table of Contents

Způsoby popisu rozdělení náhodných veličin a vektorů. Odhady parametrů rozdělení. Základní statistické testy. Markovské řetězce a jejich asymptotické vlastnosti.

B0B01PST Webové stránky předmětu Helisova stránky předmětu

1. Definice pravděpodobnosti (Kolmogorovova)

Kolmogorovova definice pravděpodobnosti

$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$

Nezávislost náhodných jevů

Klasická (Laplaceova) definice pravděpodobnosti

$P(A) = \frac{|A|}{|\Omega|}$

Podmíněná pravděpodobnost

$$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{pouze pokud } P(B) > 0 $$

$$ P(A) = P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) $$

$$ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \dots \cap A_{n-1}) $$

$P(1,4,6,2) = P(1) \cdot P(4|1) \cdot P(6|1 \cap 4) \cdot P(2|1 \cap 4 \cap 6)$

$$ P(A|B) = P(A) \quad \text{a} \quad P(B|A) = P(B) $$

$$ P(A \cap B | C) = P(A|C) \cdot P(B|C) $$

Bayesova věta

$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$

$$ P(B) = \sum_{j=1}^{n} P(A_j) \cdot P(B|A_j) $$

$$ P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B|A_j)} $$

$$ P(A|B) = \frac{P(A) \cdot P(B|A)}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A)} $$

Náhodná veličina

Náhodná veličina je měřitelná funkce $X: \Omega \rightarrow \mathbb{R}$, která každému elementárnímu jevu $\omega \in \Omega$ přiřadí reálné číslo. Je definována na pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$. Měřitelnost znamená, že pro každý interval $I \subseteq \mathbb{R}$ je množina $\{\omega \in \Omega : X(\omega) \in I\} \in \mathcal{A}$, tj. lze jí přiřadit pravděpodobnost.

$$ F_X(t) = P(X \leq t) $$

$$ f_X(t) = \frac{dF_X(t)}{dt}, \quad f_X(t) \geq 0 $$

$$ P(a < X \le b) = F_X(b) - F_X(a) = \int_a^b f_X(t) \, dt $$

$$ p_X(t) = P(X = t) $$

Diskrétní náhodná veličina

Nabývá konečný nebo spočetný počet hodnot. Distribuční funkce je schodová, pravděpodobnost konkrétní hodnoty je dána pravděpodobnostní funkcí: $$ p(t) = P(X = t) = \sum_i p_i \delta(t - t_i) $$

Spojitá náhodná veličina

Nabývá nekonečně mnoho hodnot. Distribuční funkce je spojitá, ale pravděpodobnost, že veličina nabude konkrétní hodnoty, je vždy nulová: $$ P(X = t) = 0 \quad \text{pro všechna } t \in \mathbb{R} $$

$$ f_X(t) = \frac{dF_X(t)}{dt} $$

$$ F_X(t) = \int_{-\infty}^{t} f_X(u) \, du $$

Smíšená náhodná veličina

Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce obsahuje diskrétní schody i spojité části. Hustota:

$$ f(t) = \sum_i p_i \delta(t - t_i) + f_c(t) $$

kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.

Střední hodnota, rozptyl a směrodatná odchylka

Střední hodnota (očekávaná hodnota) náhodné veličiny $X$ je definována jako „vážený průměr“ hodnot, které může $X$ nabývat, kde váhou je pravděpodobnost výskytu těchto hodnot.

$$ E(X) = \int_{-\infty}^{\infty} t f(t) \, dt $$

$$ E(X) = \sum_{i} t_i p_i $$

Střední hodnota tedy představuje „průměrnou“ hodnotu, kterou bychom očekávali při velkém počtu opakování náhodného pokusu.

Poznámka: Lze ji také zapsat pomocí distribuční funkce: $$ E(X) = \int_{-\infty}^{\infty} x \, dF(x) $$ pokud integrál existuje. V diskrétním případě lze výpočet provést přes konvergentní řadu: $$ E(X) = \sum_{i=1}^{\infty} x_i \cdot p_i $$

Rozptyl (variance) náhodné veličiny $X$ popisuje, jak moc se hodnoty náhodné veličiny „rozptylují“ kolem její střední hodnoty. Je to očekávaná hodnota druhé mocniny odchylky od střední hodnoty:

$$ Var(X) = E((X - E(X))^2) $$

Tuto definici lze přepsat pomocí tzv. Steinerovy věty do ekvivalentního tvaru: $$ Var(X) = E(X^2) - (E(X))^2 $$ kde $E(X^2)$ je očekávaná hodnota druhé mocniny veličiny $X$.

Rozptyl měří míru „rozptýlení“ hodnot kolem průměru. Čím vyšší rozptyl, tím větší je variabilita dat.

Směrodatná odchylka (standard deviation) je druhá odmocnina rozptylu: $$ \sigma(X) = \sqrt{Var(X)} $$

Jedná se o často používanou míru variability, protože má stejné jednotky jako původní veličina (na rozdíl od rozptylu, který má jednotky druhé mocniny).

Moment náhodné veličiny $X$ je obecné rozšíření střední hodnoty a definuje se jako očekávaná hodnota $k$-té mocniny náhodné veličiny:

$$ M_k(X) = E(X^k) = \int_{-\infty}^{\infty} t^k f(t) \, dt $$

$$ M_k(X) = \sum_{i} t_i^k p_i $$

Momenty slouží k popisu tvaru rozdělení (např. šikmost, špičatost), přičemž:

Existují i tzv. centrální momenty, které mají tvar: $$ \mu_k = E((X - E(X))^k) $$ Například druhý centrální moment je právě rozptyl.

Základní typy rozdělení

Diskrétní rozdělení

Binomické rozdělení – popisuje počet úspěchů v $n$ nezávislých Bernoulliho pokusech, kde každý pokus má pravděpodobnost úspěchu $p$. Distribuční funkce je dána jako: $$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$$ Střední hodnota $EX = np$, rozptyl $varX = np(1-p)$.

Poissonovo rozdělení – popisuje počet událostí v pevném intervalu při konstantní intenzitě $\lambda$. Distribuční funkce je: $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$ Střední hodnota i rozptyl $EX = varX = \lambda$.

Geometrické rozdělení – popisuje počet neúspěchů před prvním úspěchem v sérii nezávislých Bernoulliho pokusů s pravděpodobností úspěchu $p$. Distribuční funkce je: $$ P(X = k) = p(1 - p)^{k}, \quad k = 0, 1, 2, \ldots$$ Střední hodnota $EX = \frac{1-p}{p}$, rozptyl $varX = \frac{1-p}{p^2}$. *(Pozn.: V některých definicích se udává počet pokusů do prvního úspěchu $(k=1,2,\ldots)$, materiály však explicitně uvádějí $k=0$).*

Alternativní (Bernoulliho) rozdělení - popisuje jediný pokus s pravděpodobností úspěchu $p$. Nabývá hodnot:

Rovnoměrné rozdělení – popisuje náhodnou veličinu nabývající hodnot $a, a+1, \ldots, b$ s rovnoměrnou pravděpodobností: $$ P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a + 1, \ldots, b$$

Hypergeometrické rozdělení

$$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad k = \max(0, n - (N - K)), \ldots, \min(K, n)$$ Střední hodnota $E(X) = n \frac{K}{N}$.

Spojitá rozdělení

Rovnoměrné rozdělení – popisuje náhodnou veličinu na intervalu $[a, b]$ s konstantní hustotou: $$ f(x) = \begin{cases} \frac{1}{b - a}, & a < x < b \\ 0, & \text{jinak} \end{cases}$$ Distribuční funkce: $$ F(x) = \begin{cases} 0, & x < a \\ \frac{x - a}{b - a}, & a \leq x < b \\ 1, & x \geq b \end{cases} $$ $E[X] = \frac{b-a}{2}$ $\text{Var}(X) = \frac{(b-a)^2}{12}$ Normální rozdělení – symetrické rozdělení se střední hodnotou $\mu$ a rozptylem $\sigma^2$. Hustota: $$ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ Distribuční funkce $\Phi(x)$ nemá uzavřený tvar. Speciální případ: N(0,1) s hustotou $f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$.

Exponenciální rozdělení – popisuje dobu mezi událostmi v Poissonově procesu s intenzitou $\lambda$: Hustota: $$ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$ Distribuční funkce: $$ F(x) = 1 - e^{-\lambda x}, \quad x \geq 0$$

2. Náhodné vektory a jejich popis

Náhodné vektory a jejich popis – nezávislost náhodných veličin, kovariance a korelace.

Náhodný vektor je $n$-rozměrný vektor $(X_1, X_2, \ldots, X_n)$, kde každá složka $X_i$ je náhodná veličina – měřitelná funkce definovaná na stejném pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$, která každému elementárnímu jevu přiřadí reálnou hodnotu.

Společná distribuční funkce (distribuční funkce náhodného vektoru) je definována jako: $$ F(x_1, x_2, \ldots, x_n) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n) $$

Pro spojitý náhodný vektor existuje společná hustota pravděpodobnosti $f(x_1, \ldots, x_n)$ taková, že: $$ F(x_1, \ldots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \ldots, t_n) \, dt_1 \cdots dt_n $$

Nezávislost náhodných veličin

Náhodné veličiny $X_1, X_2, \ldots, X_n$ jsou nezávislé, pokud pro všechny $x_1, x_2, \ldots, x_n$ platí: $$ F(x_1, x_2, \ldots, x_n) = F_1(x_1) \cdot F_2(x_2) \cdots F_n(x_n) $$ kde $F_i(x_i)$ je marginální distribuční funkce každé jednotlivé složky $X_i$.

$$ f(x_1, \ldots, x_n) = f_1(x_1) \cdot \ldots \cdot f_n(x_n) $$

Součet náhodných veličin – pokud jsou $X$ a $Y$ nezávislé, pak distribuční funkce jejich součtu $Z = X + Y$ vznikne tzv. konvolucí:

$$ P(Z = z) = \sum_{i} P(X = x_i) \cdot P(Y = z - x_i) $$

$$ f_Z(z) = \int_{-\infty}^{\infty} f_X(t) \cdot f_Y(z - t) \, dt $$

Příklady konvoluce rozdělení:

Kovariance a korelace

Kovariance je míra lineární závislosti dvou náhodných veličin $X$ a $Y$: $$ \text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y) $$

Vlastnosti kovariance:

Korelace (Pearsonův korelační koeficient) je normovaná kovariance, která měří sílu a směr lineární závislosti mezi veličinami: $$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y} $$

Kovarianční matice a korelační matice:

$$ E[X] = (E[X_1], E[X_2], \ldots, E[X_n])^T $$

$$ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1, X_2) & \cdots \\ Cov(X_2, X_1) & Var(X_2) & \cdots \\ \vdots & \vdots & \ddots \end{bmatrix} $$

3. Čebyševova nerovnost

Čebyševova nerovnost – centrální limitní věta.

Čebyševova nerovnost je matematická nerovnost, která říká, jak velká část pravděpodobnostní hmoty náhodné veličiny leží blízko její střední hodnoty. Je velmi obecná, protože nevyžaduje znalost konkrétního rozdělení – stačí znát pouze střední hodnotu a rozptyl.

Teoretické vzorce: Pro náhodnou veličinu $X$ s konečným rozptylem platí: $$ P(|X - E(X)| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}, \quad \text{pro každé } \varepsilon > 0 $$ kde

Myšlenka:

Čebyševova nerovnost udává horní odhad pravděpodobnosti, že se hodnota náhodné veličiny odchýlí od své střední hodnoty o více než $\varepsilon$. I když nerozumíme přesnému rozdělení, můžeme tímto způsobem říci, že většina hodnot leží „blízko průměru“.

Praktická ukázka:

Mějme náhodnou veličinu $X$ se střední hodnotou $E(X) = 50$ a rozptylem $\operatorname{Var}(X) = 25$. Chceme zjistit pravděpodobnost, že se $X$ odchýlí od 50 o více než 10: $$ P(|X - 50| \geq 10) \leq \frac{25}{10^2} = 0.25 $$

Interpretace: Nejvýše 25 % hodnot může být mimo interval $[40, 60]$. To znamená, že alespoň 75 % hodnot leží v tomto intervalu.

Grafické znázornění:

Vysvětlení: Červené oblasti znázorňují pravděpodobnost odchylky od $\mu$ o více než $\varepsilon$. Jejich plocha je shora omezena $\frac{\sigma^2}{\varepsilon^2}$.

Centrální limitní věta (CLV)

Centrální limitní věta (CLV) je základní výsledek pravděpodobnosti a statistiky, který říká, že součet (nebo průměr) mnoha nezávislých náhodných veličin má přibližně normální rozdělení – bez ohledu na původní rozdělení jednotlivých veličin.

Teoretický vzorec:
Nechť $X_1, X_2, \dots, X_n$ jsou nezávislé, stejně rozdělené náhodné veličiny se střední hodnotou $\mu$ a konečným rozptylem $\sigma^2$. Potom platí: $$ Z_n = \frac{\sum_{k=1}^n X_k - n\mu}{\sigma \sqrt{n}} \Rightarrow \mathcal{N}(0, 1) \quad \text{pro } n \to \infty $$

Jinými slovy, rozdělení $Z_n$ konverguje k normovanému normálnímu rozdělení (s průměrem 0 a směrodatnou odchylkou 1).

Pak pro $n \to \infty$ platí:
$$ \lim_{n \to \infty} P(Z_n \leq x) = \Phi(x), $$
kde $\Phi(x)$ je distribuční funkce normovaného normálního rozdělení $\mathcal{N}(0,1)$.

Myšlenka:
CLV ukazuje, že výběrový průměr (nebo součet) mnoha nezávislých veličin má přibližně normální rozdělení, i když původní data nejsou normální. To umožňuje používat normální rozdělení pro aproximace (např. v testování hypotéz).

Praktická ukázka:

Představme si, že házíme klasickou kostkou 100krát. Střední hodnota jednoho hodu je $\mu = 3.5$ a rozptyl je $\sigma^2 = \frac{35}{12} \approx 2.92$.

Chceme zjistit pravděpodobnost, že výběrový průměr všech hodů bude větší než 4.

1. Standardizace: $$ Z = \frac{4 - 3.5}{\sqrt{2.92 / 100}} \approx \frac{0.5}{0.171} \approx 2.93 $$

2. Použití tabulky normálního rozdělení: $$ P(\bar{X} > 4) = 1 - \Phi(2.93) \approx 1 - 0.9983 = 0.0017 $$

Interpretace: Pravděpodobnost, že výběrový průměr přesáhne 4, je velmi malá (přibližně 0.17 %), což dává smysl – je totiž málo pravděpodobné, že by padaly výhradně vysoké hodnoty.

Poznámka: Rychlost konvergence k normálnímu rozdělení je dána tzv. Berry-Essenovou nerovností – čím větší $n$, tím přesnější aproximace.

Grafické znázornění:

Vysvětlení: Modré sloupce znázorňují např. rozdělení hodu kostkou. Červená křivka ukazuje konvergenci výběrového průměru k normálnímu rozdělení s rostoucím $n$.

4. Základní pojmy statistiky

Základní pojmy statistiky – náhodný výběr, empirické rozdělení.

Náhodný výběr

Náhodný výběr je posloupnost $n$ nezávislých a stejně rozdělených náhodných veličin $X_1, X_2, \dots, X_n$ reprezentujících data z populace. Formálně: $$ \{X_i\}_{i=1}^n \quad \text{kde} \quad X_i \sim F \quad (\text{i.i.d.}) $$

Tento koncept znamená, že každá jednotlivá hodnota ve výběru má stejnou pravděpodobnostní distribuci jako ostatní a je na nich nezávislá.

Příklad: Měření výšky 50 náhodně vybraných studentů $\rightarrow X_i = \text{výška } i\text{-tého studenta}$ Každý student je vybrán náhodně, a tedy všechny výšky jsou považovány za i.i.d. realizace z určité distribuční funkce výšek ve studované populaci.

Empirické rozdělení

Empirické rozdělení aproximuje skutečné rozdělení populace pomocí dat z náhodného výběru.

$$ F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}} $$ kde $\mathbf{1}_{\{X_i \leq x\}} = 1$, pokud $X_i \leq x$, jinak $0$.

Tato funkce udává relativní četnost hodnot ve výběru, které jsou menší nebo rovny hodnotě $x$, a tedy slouží jako aproximace skutečné distribuční funkce.

Příklad: Pro výběr $\{1{,}5;\ 2{,}0;\ 3{,}5\}$ je $F_n(x)$ skoková funkce s třemi skoky o velikosti $\frac{1}{3}$, která stoupá vždy, když $x$ překročí jednu z hodnot výběru.

5. Obecné vlastnosti odhadů parametrů

Při odhadování neznámých parametrů základního souboru na základě pozorovaných dat z náhodného výběru se snažíme, aby naše odhady měly určité žádoucí vlastnosti. Tyto vlastnosti nám pomáhají posoudit kvalitu odhadu a vybrat ten nejlepší možný. Odhad je pravidlo nebo funkce, která na základě dat z výběru přiřazuje hodnotu určitému neznámému parametru.

Značení

Nejprve si zavedeme značení, které se v teorii odhadu běžně používá:

Například: Pokud odhadujeme střední hodnotu výšky v populaci, pak $\vartheta$ je neznámá střední výška, $\hat{\Theta}_n$ je výběrový průměr (náhodná veličina závislá na výběru) a $\hat{\vartheta}$ je konkrétní hodnota výběrového průměru vypočtená z dat.

Žádoucí vlastnosti bodových odhadů

Bodový odhad je funkce náhodného výběru, jejíž předpis nezávisí na odhadovaném parametru. Snažíme se, aby bodové odhady měly následující vlastnosti:

  1. Nestrannost (nevychýlenost)
    • Odhad $\hat{\Theta}_n$ se nazývá nestranný, pokud jeho střední hodnota je rovna skutečné hodnotě parametru $\vartheta^*$, tj. $ E[\hat{\Theta}_n] = \vartheta^* $
      • což znamená, že: $ E[\hat{\Theta}_n - \vartheta^*] = 0$
    • Pokud tato podmínka není splněna, říkáme, že odhad je vychýlený (má systematickou chybu).
    • Příklad: Výběrový průměr je nestranný odhad střední hodnoty normálního rozdělení.
  2. Asymptotická nestrannost
    • Odhad $\hat{\Theta}_n$ je asymptoticky nestranný, pokud se jeho střední hodnota blíží skutečné hodnotě parametru $\vartheta^*$ s rostoucím rozsahem výběru $n$, tj. $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^* $
    • To znamená, že odhad je sice pro malé $n$ vychýlený, ale bias se s rostoucím $n$ zmenšuje a nakonec zmizí.
    • Např. výběrový rozptyl s dělením $n$ místo $n-1$ je asymptoticky nestranný.
  3. Konzistence
    • Odhad $\hat{\Theta}_n$ je konzistentní, pokud s rostoucím rozsahem výběru $n$ konverguje v pravděpodobnosti k odhadovanému parametru $\vartheta^*$, tj.: $ \hat{\Theta}_n \xrightarrow{P} \vartheta^*$
    • To znamená, že:
      • Je asymptoticky nestranný: $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^*$
      • A má klesající rozptyl: $ \lim_{n \rightarrow \infty} D[\hat{\Theta}_n] = 0 $
    • Konzistence znamená, že s větším počtem dat bude náš odhad přesnější.
  4. Efektivita (účinnost)
    • Efektivní odhad je takový, který má co nejmenší střední kvadratickou chybu: $ E[(\hat{\Theta}_n - \vartheta^*)^2] $
    • Tuto chybu můžeme rozložit na: $D[\hat{\Theta}_n] + (E[\hat{\Theta}_n] - \vartheta^*)^2 $
    • Pro nestranné odhady tedy platí, že efektivita závisí pouze na jejich rozptylu.
    • Nejlepší nestranný odhad (MVUE – minimum variance unbiased estimator) má ze všech nestranných odhadů nejmenší rozptyl.
    • Pozor: může se stát, že některé vychýlené odhady jsou efektivnější než MVUE – mají menší celkovou chybu.
  5. Robustnost
    • Robustní odhad je odolný vůči šumu nebo odlehlým hodnotám (například extrémním datům v souboru).
    • Nemusí být nejefektivnější při ideálních podmínkách, ale je stabilnější v praxi, kde jsou data často zašuměná nebo obsahují chyby.
    • Přesná matematická definice robustnosti často neexistuje, ale prakticky se jedná o velmi důležitou vlastnost.
    • Příklad: Medián je robustnější než průměr, protože není ovlivněn extrémními hodnotami.

Odhady konkrétních parametrů

Metody odhadování parametrů

Existuje několik metod, jak na základě dat odhadnout neznámé parametry rozdělení. Nejčastěji používané jsou tyto dvě:

  1. Metoda momentů (MM)
    • Princip: Vycházíme z předpokladu, že teoretické momenty náhodné veličiny (např. střední hodnota, rozptyl atd.) závisí na parametrech rozdělení. Tyto teoretické momenty nahradíme jejich výběrovými odhady spočítanými z dat a vyřešíme rovnice, které takto vzniknou.
    • Cíl: Najít takové hodnoty parametrů, aby teoretické vlastnosti rozdělení (momenty) „odpovídaly“ těm vypočteným z dat
    • Postup (příklad pro dva parametry $\theta_1$ a $\theta_2$):
      • Sečteme data a spočítáme výběrové momenty:
      • $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 $$
      • Sestavíme rovnice z teoretických momentů $E[X]$, $E[X^2]$ (ty závisí na $\theta_1, \theta_2$) a položíme je rovné výběrovým momentům.
      • Řešíme soustavu rovnic a získáme odhady parametrů.
    • Výhody:
      • Poměrně jednoduchá metoda, často poskytuje uzavřené (analytické) řešení.
      • Zohledňuje všechna data.
      • Není potřeba znát přesnou formu pravděpodobnostní funkce.
    • Nevýhody:
      • Řešení nemusí existovat nebo může být nejednoznačné.
      • Odhady nemusí být nejpřesnější (např. ve smyslu rozptylu).
    • Poznámka:
      • Používá se např. tehdy, když je výpočetně náročné použít metodu maximální věrohodnosti.
  2. Metoda maximální věrohodnosti (MLE – Maximum Likelihood Estimation)
    • Princip: Hledáme takovou hodnotu parametru $\theta$, která maximalizuje pravděpodobnost pozorovaných dat. Jinými slovy: jaké nastavení parametrů by „nejlépe vysvětlovalo“ data, která jsme viděli?
    • Postup:
      • Sestrojíme věrohodnostní funkci $L(\theta)$:
        • Spojitý případ: $$ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) $$
        • Diskrétní případ: $$ L(\theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta) $$
      • Z logaritmu věrohodnostní funkce vytvoříme tzv. log-věrohodnost: $$ \ell(\theta) = \ln L(\theta) $$
        • Přechod na logaritmus je praktický – převádí součiny na součty, což zjednoduší derivování.
      • Najdeme extrém log-věrohodnosti:
        • Vypočteme derivaci podle $\theta$, položíme ji rovnu nule a řešíme: $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$
      • Výsledné řešení $\hat{\theta}$ je maximálně věrohodný odhad parametru.
    • Výhody:
      • Při splnění určitých podmínek poskytuje MLE odhady s dobrými vlastnostmi – jsou asymptoticky nestranné, efektivní a konzistentní.
      • Obvykle poskytuje přesnější výsledky než metoda momentů.
    • Nevýhody:
      • V některých případech může být složité nebo nemožné analyticky řešit rovnici pro maximum.
      • Výsledky mohou být citlivé na odlehlé hodnoty.
    • Poznámka:
      • V jednoduchých situacích (např. normální rozdělení) obě metody vedou ke stejným odhadům.
      • V praxi se metoda volí podle dostupnosti informací o rozdělení a výpočetní náročnosti.

Intervalové odhady (Intervaly spolehlivosti)

Na rozdíl od bodového odhadu, který poskytuje pouze jednu hodnotu pro neznámý parametr, intervalový odhad poskytuje interval, ve kterém se s určitou pravděpodobností nachází skutečná hodnota tohoto parametru. Tento přístup lépe vystihuje nejistotu spojenou s odhadem.

Intervalové odhady konkrétních parametrů

Odhad střední hodnoty se známým rozptylem pomocí kvantilů normálního rozdělení ($u$): Pokud známe rozptyl populace $\sigma^2$, použijeme normální rozdělení. Interval spolehlivosti pro střední hodnotu $\mu$ se pak určuje pomocí kvantilu $u$ z normálního rozdělení. Tento přístup je vhodný, když víme, že data pocházejí z normálního rozdělení a zároveň známe rozptyl.

Odhad střední hodnoty a rozptylu pomocí kvantilů $t$ a $\chi^2$: Pokud je rozptyl neznámý, pro odhad střední hodnoty použijeme Studentovo t-rozdělení, které zohledňuje nejistotu ve výběrovém rozptylu. Pro intervalový odhad rozptylu použijeme chí-kvadrát rozdělení – dolní a horní mez intervalu spočteme pomocí kvantilů z $\chi^2$.

Odhad střední hodnoty pomocí centrální limitní věty (CLV): Pokud výběr není z normálního rozdělení, ale máme dostatečně velký počet pozorování, použijeme CLV. Ta zaručuje, že výběrový průměr má přibližně normální rozdělení, takže můžeme použít normální kvantily $u$ i bez normality původního rozdělení.

Asymptotický intervalový odhad: Používá se v obecných případech, kdy neznáme přesné rozdělení výběru, ale máme velký rozsah $n$. Intervaly jsou pak založené na odhadech ze vzorku (např. výběrový rozptyl místo známého rozptylu) a přibližují skutečné pokrytí při velkém $n$.

Poznámka: Lze tímto způsobem odhadovat i rozptyly, i když závisí na střední hodnotě. Typicky například u Poissonova rozdělení, kde platí $\mu = \sigma^2$, nebo u alternativního rozdělení (Bernoulliho), kde je rozptyl určen parametrem $p$ a zároveň souvisí se střední hodnotou. V těchto případech se často využívají speciální odhady přizpůsobené danému typu rozdělení.

6. Princip statistického testování hypotéz

Princip statistického testování hypotéz – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.

Princip statistického testování hypotéz je metoda, jak ověřit, zda data poskytují dostatek důkazů pro zamítnutí nějakého předpokladu (tzv. hypotézy) o rozdělení nebo parametrech náhodných veličin. Tento postup je základem pro rozhodování v mnoha oblastech statistiky, experimentů a datové analýzy.

  1. Formulace hypotéz:
    • Nulová hypotéza ($H_0$): výchozí tvrzení, které předpokládáme, že platí – např. „střední hodnota je rovna 0“, „data mají normální rozdělení“, „dva výběry pochází ze stejné populace“ atd.
    • Alternativní hypotéza ($H_1$): tvrzení, které se snažíme potvrdit – např. „střední hodnota se liší od 0“, „data nejsou normálně rozložena“, „dva výběry se liší“.
    • Příklad:
      • $H_0$: $\mu = 50$
      • $H_1$: $\mu \neq 50$
  2. Volba hladiny významnosti ($\alpha$):
    • Jedná se o pravděpodobnost chyby I. druhu – tj. že zamítneme $H_0$, i když je ve skutečnosti pravdivá.
    • Typicky se volí $\alpha = 0.05$ nebo $\alpha = 0.01$.
    • Například při $\alpha = 0.05$ připouštíme maximálně 5% pravděpodobnost, že učiníme chybný závěr ve prospěch $H_1$.
  3. Výběr testové statistiky:
    • Zvolíme vhodnou testovou statistiku v závislosti na typu dat a testované hypotéze.
      • Např. pro testování střední hodnoty normálně rozdělené veličiny použijeme t-test.
      • Pro rozptyl může být použit F-test.
      • Pro testy shody rozdělení použijeme např. $\chi^2$-test.
    • Testová statistika je funkce vzorku, jejíž rozdělení známe, pokud $H_0$ platí.
  4. Výpočet kritické hodnoty nebo p-hodnoty:
    • Kritická hodnota: hodnota testové statistiky, kterou porovnáme s vypočtenou hodnotou. Jestliže překročí tuto mez, zamítáme $H_0$.
    • p-hodnota: pravděpodobnost, že bychom při platnosti $H_0$ získali stejně nebo více extrémní hodnotu testové statistiky. Pokud:$$ \text{p-hodnota} < \alpha, $$
    • pak zamítáme $H_0$.
    • Poznámka: p-hodnota je velmi praktický způsob testování, protože přímo říká, jak „nepravděpodobná“ jsou data za předpokladu, že $H_0$ platí.
  5. Rozhodnutí:
    • Pokud p-hodnota < $\alpha$ nebo testová statistika je větší než kritická hodnota, zamítáme $H_0$.
    • Jinak $H_0$ nezamítáme – což ale neznamená, že ji potvrzujeme; pouze nemáme dostatek důkazů k jejímu zamítnutí.

Shrnutí principu: Testování hypotéz je proces, jak rozhodnout, zda jsou odchylky pozorované ve vzorku od očekávaných hodnot důkazem proti výchozímu tvrzení. Pomáhá vyhnout se náhodným závěrům na základě šumu v datech, a umožňuje učinit rozhodnutí s kvantifikovanou mírou nejistoty.

Testy střední hodnoty a rozptylu

Testy střední hodnoty:

Testy rozptylu:

Porovnání dvou rozdělení

Porovnání dvou rozdělení:

$\chi^2$-test dobré shody

Používá se pro ověření, zda četnosti pozorovaných dat odpovídají určitému teoretickému rozdělení (např. binomickému, Poissonovu, normálnímu). Vhodné např. pro kategorická data.

Výpočet testové statistiky: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$ kde:

Předpoklady:

Test nezávislosti v kontingenční tabulce

Test nezávislosti:

Testová statistika: $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ kde:

Interpretace:

Předpoklad: Očekávané četnosti v buňkách by měly být alespoň 5.

7. Markovovy řetězce

Markovovy řetězce – modely náhodného vývoje systému v diskrétním čase, kde přechod do dalšího stavu závisí pouze na aktuálním stavu (tzv. *Markova vlastnost*).

Základní pojmy a popis

Markovův řetězec je posloupnost náhodných veličin $X_0, X_1, X_2, \ldots$, kde pro každý $n$ a všechny stavy $i_0, \dots, i_{n+1}$ platí: $$ P(X_{n+1} = i_{n+1} \mid X_n = i_n, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = i_{n+1} \mid X_n = i_n) $$ Tato rovnost říká, že vývoj závisí pouze na aktuálním stavu.

Pokud jsou pravděpodobnosti přechodu nezávislé na čase (tj. homogenní), pak označujeme: $$ p_{ij} = P(X_{n+1} = j \mid X_n = i) $$ a tyto pravděpodobnosti uspořádáme do matice přechodu $P = (p_{ij})$.

Součet pravděpodobností v každém řádku je roven 1: $$ \sum_{j} p_{ij} = 1 \quad \text{pro každé } i $$ $n$-tá mocnina matice $P^n$ udává pravděpodobnosti přechodu za $n$ kroků. Prvek $p_{ij}^{(n)}$ je pravděpodobnost, že se systém dostane ze stavu $i$ do stavu $j$ za právě $n$ kroků.

Přechodový diagram a matice

Přechodový diagram je grafická reprezentace Markovova řetězce. Umožňuje vizuálně sledovat, jak se systém může pohybovat mezi jednotlivými stavy a s jakou pravděpodobností.

Diagram se tedy chová jako mapa dynamiky systému — zobrazuje nejen směr možného vývoje, ale i jeho pravděpodobnost.

Matice přechodu: Tento diagram můžeme přepsat do matice přechodu $P$, kde řádky odpovídají výchozím stavům a sloupce cílovým stavům. Hodnota na pozici $p_{ij}$ je pravděpodobnost přechodu ze stavu $i$ do stavu $j$.

A B C
——-——-——-——-
A 0.0 0.5 0.5
B 0.0 1.0 0.0
C 0.1 0.2 0.7

Jak číst tuto matici:

Rozložitelnost a komponenty

Asymptotické chování a stacionární rozdělení

Pro ireducibilní, aperiodický a pozitivně rekurentní řetězec existuje stacionární rozdělení $\pi = (\pi_1, \ldots, \pi_n)$, které splňuje: $$ \pi = \pi P \quad \text{a} \quad \sum_{i=1}^{n} \pi_i = 1 $$

Konvergence a rozklad matice

Pro markovský řetězec s trvalými a přechodnými stavy lze matici přechodu přepsat jako blokovou matici: $$ P = \begin{bmatrix} D & 0 \\ R & Q \end{bmatrix} $$

Matice fundamentální $F = (I - Q)^{-1}$ a absorpční pravděpodobnosti: $$ M = F \cdot R = (I - Q)^{-1} R $$ vyjadřují pravděpodobnosti, že systém skončí v některém z trvalých stavů.

Asymptotické chování stavů