====== Způsoby popisu rozdělení náhodných veličin a vektorů. Odhady parametrů rozdělení. Základní statistické testy. Markovské řetězce a jejich asymptotické vlastnosti. ======
[[https://fel.cvut.cz/cz/education/bk/predmety/46/81/p4681506.html|B0B01PST]] [[https://cmp.felk.cvut.cz/~navara/stat/index.htm|Webové stránky předmětu]] [[https://math.fel.cvut.cz/en/people/heliskat/01pst2.html|Helisova stránky předmětu]]
* **Definice pravděpodobnosti (Kolmogorovova)** – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
* **Náhodné vektory a jejich popis** – nezávislost náhodných veličin, kovariance a korelace.
* **Čebyševova nerovnost** – centrální limitní věta.
* **Základní pojmy statistiky** – náhodný výběr, empirické rozdělení.
* **Obecné vlastnosti odhadů parametrů** – odhady střední hodnoty, rozptylu, směrodatné odchylky, momentů. Odhady parametrů metodou momentů a metodou maximální věrohodnosti. Intervalové odhady.
* **Princip statistického testování hypotéz** – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.
* **Markovovy řetězce** – základní pojmy a vlastnosti, popis přechodovým diagramem a maticí přechodu. Klasifikace stavů, periodicita, rozložitelnost. Asymptotické chování Markovových řetězců.
===== 1. Definice pravděpodobnosti (Kolmogorovova) =====
* Definice pravděpodobnosti (Kolmogorovova) – nezávislost náhodných jevů, podmíněná pravděpodobnost, Bayesova věta. Pojem náhodné veličiny, popis jejího rozdělení pomocí distribuční funkce, hustoty, pravděpodobnostní funkce. Střední hodnota, rozptyl, směrodatná odchylka, momenty náhodných veličin. Základní typy spojitých a diskrétních rozdělení.
* Pravděpodobnost je funkce, která popisuje budoucí pravdivost neznámých jevů. Z teorie vyvozujeme realitu – udává, jak moc očekáváme, že nastane určitý jev.
* Náhodný pokus – proces, jehož výsledek není předem jednoznačně určen, ale lze popsat množinou možných výsledků. Např. hod kostkou.
* Elementární jev – konkrétní výsledek náhodného pokusu.
* Jev – množina elementárních jevů, které sdílí určitou vlastnost. Např. „padla sudá“.
* Jistý jev – nastává vždy, nemožný jev – nikdy. Opačný jev – doplněk vzhledem k celku.
* Jevové pole – množina všech pozorovatelných jevů (např. exp Ω).
* Úplný systém jevů – kolekce navzájem neslučitelných jevů, jejichž sjednocení tvoří jistý jev. Součet jejich pravděpodobností je 1.
==== Kolmogorovova definice pravděpodobnosti ====
* Kolmogorovova definice pravděpodobnosti je založená na třech axiomech:
* **Axiom nezápornosti**: $\forall A \in \mathcal{A}: P(A) \geq 0$
* **Axiom normovanosti**: $P(\Omega) = 1$
* **Axiom σ-aditivity**: Pro neslučitelné jevy $A_1, A_2, \dots$, platí:
$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$
* Pravděpodobnostní prostor je trojice $(\Omega, \mathcal{A}, P)$, kde:
* $\Omega$ – neprázdná množina elementárních jevů
* $\mathcal{A}$ – σ-algebra podmnožin $\Omega$
* $P$ – pravděpodobnostní míra
* σ-algebra $\mathcal{A}$ splňuje:
* $\emptyset \in \mathcal{A}$
* $A \in \mathcal{A} \Rightarrow A^c \in \mathcal{A}$
* $A_1, A_2, \dots \in \mathcal{A} \Rightarrow \bigcup_{i=1}^{\infty} A_i \in \mathcal{A}$
* Borelova σ-algebra – nejmenší σ-algebra na $\mathbb{R}$ obsahující všechny otevřené intervaly. Obsahuje i uzavřené, polouzavřené a jejich spočetné sjednocení.
==== Nezávislost náhodných jevů ====
* Jevy $A$ a $B$ jsou **nezávislé**, pokud:
* $P(A \cap B) = P(A) \cdot P(B)$
* To znamená, že výskyt jednoho jevu nijak neovlivňuje výskyt druhého.
* Ekvivalentně: $P(A | B) = P(A)$ a $P(B | A) = P(B)$
* Důsledky:
* Pro nezávislé jevy platí také: $P(A \cup B) = P(A) + P(B) - P(A) \cdot P(B)$
* Nezávislost nelze zaměňovat se **neslučitelností** – neslučitelné jevy nemohou nastat současně: $P(A \cap B) = 0$.
* Dvojice jevů může být:
* **Neslučitelná a závislá** – např. „padla 1“ a „padla 6“
* **Nezávislá a slučitelná** – např. „padla sudá“ a „padla větší než 3“
* V praxi ověřujeme nezávislost pomocí výpočtu $P(A \cap B)$ a porovnáním s $P(A) \cdot P(B)$
==== Klasická (Laplaceova) definice pravděpodobnosti ====
* Náhodný pokus má $n$ různých stejně pravděpodobných výsledků.
* Pravděpodobnost jevu $A \subseteq \Omega$ je:
$P(A) = \frac{|A|}{|\Omega|}$
* Tento model je vhodný pouze pro konečné diskrétní prostory s rovnoměrnými rozděleními.
* Nevhodný pro spojité rozdělení nebo nekonečné množiny – zde se uplatňuje Kolmogorovův přístup.
==== Podmíněná pravděpodobnost ====
* **Podmíněná pravděpodobnost** je pravděpodobnost jevu $A$ za předpokladu, že nastal jev $B$. Značí se $P(A|B)$ a definuje se jako:
$$
P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{pouze pokud } P(B) > 0
$$
* Znamená to, že podmíněná pravděpodobnost výskytu $A$, pokud víme, že nastal $B$, je rovna pravděpodobnosti průniku obou jevů dělené pravděpodobností $B$.
* Tato definice odpovídá intuitivnímu chápání „pravděpodobnosti za předpokladu“. Upřesňuje, jak se mění pohled na pravděpodobnost, když víme, že se určitý jev již stal.
* Z podmíněné pravděpodobnosti vyplývá také užitečná identita (úplný zákon pravděpodobnosti):
$$
P(A) = P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c)
$$
* To znamená, že pravděpodobnost jevu $A$ lze rozdělit podle toho, zda nastal $B$ nebo jeho doplněk.
* **Řetězové pravidlo** (chain rule): Pravděpodobnost výskytu posloupnosti jevů lze zapsat jako součin podmíněných pravděpodobností:
$$
P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \dots \cap A_{n-1})
$$
* Například pro posloupnost hodů kostkou můžeme psát:
$P(1,4,6,2) = P(1) \cdot P(4|1) \cdot P(6|1 \cap 4) \cdot P(2|1 \cap 4 \cap 6)$
* **Nezávislost jevů a podmíněná pravděpodobnost**:
* Jevy $A$ a $B$ jsou **nezávislé**, právě když:
$$
P(A|B) = P(A) \quad \text{a} \quad P(B|A) = P(B)
$$
* Z toho plyne i definice pro průnik: $P(A \cap B) = P(A) \cdot P(B)$
* **Podmíněná nezávislost**:
* Jevy $A$ a $B$ jsou **podmíněně nezávislé** vzhledem k $C$, pokud:
$$
P(A \cap B | C) = P(A|C) \cdot P(B|C)
$$
* To znamená, že pokud víme, že nastal jev $C$, pak $A$ a $B$ jsou vůči sobě nezávislé.
==== Bayesova věta ====
* **Bayesova věta** je základní vztah v teorii pravděpodobnosti, který umožňuje *obrátit* podmíněné pravděpodobnosti. Z vyjádření pravděpodobnosti $P(B|A)$ získáme $P(A|B)$:
$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$
* pouze pokud P(B) > 0
* Tento vzorec umožňuje odhadnout pravděpodobnost jevu $A$ za předpokladu, že nastal $B$, na základě znalosti pravděpodobnosti $B$ za podmínky $A$ (tzv. likelihood) a apriorní pravděpodobnosti $A$.
* **Interpretace**:
* $P(A)$ – apriorní pravděpodobnost jevu $A$ (např. pravděpodobnost nemoci před testováním)
* $P(B|A)$ – pravděpodobnost pozorování $B$ za předpokladu $A$ (např. pozitivní test pokud je nemoc)
* $P(B)$ – celková pravděpodobnost jevu $B$ (např. celková pravděpodobnost pozitivního testu)
* $P(A|B)$ – aposteriorní pravděpodobnost (pravděpodobnost, že má pacient nemoc, když test vyšel pozitivně)
* **Rozšíření na více jevů – věta o úplné pravděpodobnosti a Bayesův vzorec**:
* Pokud máme úplný systém disjunktních jevů $A_1, A_2, ..., A_n$ (např. různé možné příčiny nějakého jevu), a známe pravděpodobnosti $P(A_i)$ a podmíněné pravděpodobnosti $P(B|A_i)$, pak:
$$ P(B) = \sum_{j=1}^{n} P(A_j) \cdot P(B|A_j) $$
* A Bayesova věta pro konkrétní $A_i$:
$$
P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{\sum_{j=1}^{n} P(A_j) \cdot P(B|A_j)}
$$
* **Praktický příklad – falešně pozitivní testy (FP), pravdivě pozitivní (TP), atd.**:
* Např. pravděpodobnost, že pacient má nemoc (A), když test (B) je pozitivní:
* $P(A)$ – pravděpodobnost, že má nemoc
* $P(B|A)$ – test odhalí nemoc (true positive rate)
* $P(B|\neg A)$ – test je falešně pozitivní (false positive rate)
* $P(\neg A)$ – nemá nemoc
* Pak:
$$
P(A|B) = \frac{P(A) \cdot P(B|A)}{P(A) \cdot P(B|A) + P(\neg A) \cdot P(B|\neg A)}
$$
* **Význam v praxi**:
* Základní nástroj v medicíně (diagnostika), strojovém učení (naivní Bayesův klasifikátor), rozhodování s neúplnými informacemi.
==== Náhodná veličina ====
Náhodná veličina je **měřitelná funkce** $X: \Omega \rightarrow \mathbb{R}$, která každému elementárnímu jevu $\omega \in \Omega$ přiřadí reálné číslo. Je definována na pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$. Měřitelnost znamená, že pro každý interval $I \subseteq \mathbb{R}$ je množina $\{\omega \in \Omega : X(\omega) \in I\} \in \mathcal{A}$, tj. lze jí přiřadit pravděpodobnost.
* **Distribuční funkce** náhodné veličiny $X$ je funkce:
$$
F_X(t) = P(X \leq t)
$$
* Je to neklesající, zprava spojitá funkce, začínající v 0 a konvergující k 1. Popisuje pravděpodobnost, že náhodná veličina $X$ nabude hodnoty menší nebo rovné $t$.
* **Hustota pravděpodobnosti** (pokud existuje) je derivací distribuční funkce:
$$
f_X(t) = \frac{dF_X(t)}{dt}, \quad f_X(t) \geq 0
$$
* Pravděpodobnost intervalu:
$$ P(a < X \le b) = F_X(b) - F_X(a) = \int_a^b f_X(t) \, dt $$
* Základní vlastnosti hustoty:
* $f_X(x) \ge 0$
* $\int_{-\infty}^{\infty} f_X(x) \, dx = 1$
* **Pravděpodobnostní funkce** (pro diskrétní náhodné veličiny - pravděpodobnost, že náhodná veličina $X$ nabude konkrétní hodnoty $t$):
$$ p_X(t) = P(X = t) $$
* **Pravděpodobnostní míra** $P_X$ určuje pravděpodobnost jevů náhodné veličiny $X$ a splňuje:
* $P_X(\mathbb{R}) = 1$
* $P_X(\emptyset) = 0$
* Pokud jsou množiny $B_i$ disjunktní, pak $P_X\left(\bigcup_i B_i\right) = \sum_i P_X(B_i)$
=== Diskrétní náhodná veličina ===
Nabývá konečný nebo spočetný počet hodnot. Distribuční funkce je **schodová**, pravděpodobnost konkrétní hodnoty je dána pravděpodobnostní funkcí:
$$
p(t) = P(X = t) = \sum_i p_i \delta(t - t_i)
$$
* kde $\delta$ je Diracova funkce.
* Platí $\sum_i p_i = 1$
* Pro libovolný interval: $P(a < X \le b) = \sum_{i: a < t_i \le b} p_i$
{{:statnice:bakalar:pasted:20250526-103518.png}}
=== Spojitá náhodná veličina ===
Nabývá nekonečně mnoho hodnot. Distribuční funkce je **spojitá**, ale pravděpodobnost, že veličina nabude konkrétní hodnoty, je vždy nulová:
$$
P(X = t) = 0 \quad \text{pro všechna } t \in \mathbb{R}
$$
* Hustota pravděpodobnosti je definována jako (ale pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty, je vždy 0.):
$$
f_X(t) = \frac{dF_X(t)}{dt}
$$
* A platí:
$$
F_X(t) = \int_{-\infty}^{t} f_X(u) \, du
$$
{{:statnice:bakalar:pasted:20250526-103420.png}}
=== Smíšená náhodná veličina ===
Nabývá jak diskrétních, tak spojitých hodnot. Distribuční funkce obsahuje **diskrétní schody** i **spojité části**. Hustota:
$$
f(t) = \sum_i p_i \delta(t - t_i) + f_c(t)
$$
kde $p_i$ jsou pravděpodobnosti diskrétních hodnot $t_i$ a $f_c(t)$ je hustota spojité části.
==== Střední hodnota, rozptyl a směrodatná odchylka ====
**Střední hodnota** (očekávaná hodnota) náhodné veličiny $X$ je definována jako „vážený průměr“ hodnot, které může $X$ nabývat, kde váhou je pravděpodobnost výskytu těchto hodnot.
* Pro **spojitou náhodnou veličinu** s hustotou pravděpodobnosti $f(t)$ platí:
$$
E(X) = \int_{-\infty}^{\infty} t f(t) \, dt
$$
* Pro **diskrétní náhodnou veličinu**, která nabývá hodnot $t_i$ s pravděpodobností $p_i$, je očekávaná hodnota dána součtem:
$$
E(X) = \sum_{i} t_i p_i
$$
Střední hodnota tedy představuje „průměrnou“ hodnotu, kterou bychom očekávali při velkém počtu opakování náhodného pokusu.
**Poznámka**: Lze ji také zapsat pomocí distribuční funkce:
$$
E(X) = \int_{-\infty}^{\infty} x \, dF(x)
$$
pokud integrál existuje. V diskrétním případě lze výpočet provést přes konvergentní řadu:
$$
E(X) = \sum_{i=1}^{\infty} x_i \cdot p_i
$$
**Rozptyl** (variance) náhodné veličiny $X$ popisuje, jak moc se hodnoty náhodné veličiny „rozptylují“ kolem její střední hodnoty. Je to očekávaná hodnota druhé mocniny odchylky od střední hodnoty:
$$
Var(X) = E((X - E(X))^2)
$$
Tuto definici lze přepsat pomocí tzv. Steinerovy věty do ekvivalentního tvaru:
$$
Var(X) = E(X^2) - (E(X))^2
$$
kde $E(X^2)$ je očekávaná hodnota druhé mocniny veličiny $X$.
Rozptyl měří míru „rozptýlení“ hodnot kolem průměru. Čím vyšší rozptyl, tím větší je variabilita dat.
**Směrodatná odchylka** (standard deviation) je druhá odmocnina rozptylu:
$$
\sigma(X) = \sqrt{Var(X)}
$$
Jedná se o často používanou míru variability, protože má stejné jednotky jako původní veličina (na rozdíl od rozptylu, který má jednotky druhé mocniny).
**Moment** náhodné veličiny $X$ je obecné rozšíření střední hodnoty a definuje se jako očekávaná hodnota $k$-té mocniny náhodné veličiny:
* Pro spojitou náhodnou veličinu:
$$
M_k(X) = E(X^k) = \int_{-\infty}^{\infty} t^k f(t) \, dt
$$
* Pro diskrétní náhodnou veličinu:
$$
M_k(X) = \sum_{i} t_i^k p_i
$$
Momenty slouží k popisu tvaru rozdělení (např. šikmost, špičatost), přičemž:
* $M_1(X)$ je střední hodnota,
* $M_2(X) - (M_1(X))^2$ je rozptyl,
* vyšší momenty popisují například „šikmost“ nebo „špičatost“ rozdělení.
Existují i tzv. **centrální momenty**, které mají tvar:
$$
\mu_k = E((X - E(X))^k)
$$
Například druhý centrální moment je právě rozptyl.
==== Základní typy rozdělení ====
=== Diskrétní rozdělení ===
**Binomické rozdělení** – popisuje počet úspěchů v $n$ nezávislých Bernoulliho pokusech, kde každý pokus má pravděpodobnost úspěchu $p$. Distribuční funkce je dána jako:
$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \ldots, n$$
Střední hodnota $EX = np$, rozptyl $varX = np(1-p)$.
**Poissonovo rozdělení** – popisuje počet událostí v pevném intervalu při konstantní intenzitě $\lambda$. Distribuční funkce je:
$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$
Střední hodnota i rozptyl $EX = varX = \lambda$.
**Geometrické rozdělení** – popisuje **počet neúspěchů před prvním úspěchem** v sérii nezávislých Bernoulliho pokusů s pravděpodobností úspěchu $p$. Distribuční funkce je:
$$
P(X = k) = p(1 - p)^{k}, \quad k = 0, 1, 2, \ldots$$
Střední hodnota $EX = \frac{1-p}{p}$, rozptyl $varX = \frac{1-p}{p^2}$.
*(Pozn.: V některých definicích se udává počet pokusů do prvního úspěchu $(k=1,2,\ldots)$, materiály však explicitně uvádějí $k=0$).*
**Alternativní (Bernoulliho) rozdělení** - popisuje **jediný pokus** s pravděpodobností úspěchu $p$. Nabývá hodnot:
* $X=1$ (úspěch) s $P(X=1)=p$
* $X=0$ (neúspěch) s $P(X=0)=1-p$
* Střední hodnota $EX=p$, rozptyl $varX=p(1-p)$.
* (Pozn.: Popis "počet pokusů do prvního úspěchu s různými $p_i$" neodpovídá Alt(p) v materiálech).*
**Rovnoměrné rozdělení** – popisuje náhodnou veličinu nabývající hodnot $a, a+1, \ldots, b$ s rovnoměrnou pravděpodobností:
$$
P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a + 1, \ldots, b$$
**Hypergeometrické rozdělení**
* popisuje počet úspěchů při $n$ náhodných výběrech bez vracení z populace $N$ s $K$ úspěšnými položkami:
$$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad k = \max(0, n - (N - K)), \ldots, \min(K, n)$$
Střední hodnota $E(X) = n \frac{K}{N}$.
=== Spojitá rozdělení ===
**Rovnoměrné rozdělení** – popisuje náhodnou veličinu na intervalu $[a, b]$ s konstantní hustotou:
$$
f(x) = \begin{cases}
\frac{1}{b - a}, & a < x < b \\
0, & \text{jinak}
\end{cases}$$
Distribuční funkce:
$$
F(x) = \begin{cases}
0, & x < a \\
\frac{x - a}{b - a}, & a \leq x < b \\
1, & x \geq b
\end{cases}
$$
$E[X] = \frac{b-a}{2}$
$\text{Var}(X) = \frac{(b-a)^2}{12}$
**Normální rozdělení** – symetrické rozdělení se střední hodnotou $\mu$ a rozptylem $\sigma^2$. Hustota:
$$
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
Distribuční funkce $\Phi(x)$ nemá uzavřený tvar. Speciální případ: **N(0,1)** s hustotou $f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$.
**Exponenciální rozdělení** – popisuje **dobu mezi událostmi v Poissonově procesu** s intenzitou $\lambda$:
Hustota:
$$
f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$
Distribuční funkce:
$$
F(x) = 1 - e^{-\lambda x}, \quad x \geq 0$$
===== 2. Náhodné vektory a jejich popis =====
**Náhodné vektory a jejich popis** – nezávislost náhodných veličin, kovariance a korelace.
**Náhodný vektor** je $n$-rozměrný vektor $(X_1, X_2, \ldots, X_n)$, kde každá složka $X_i$ je náhodná veličina – měřitelná funkce definovaná na stejném pravděpodobnostním prostoru $(\Omega, \mathcal{A}, P)$, která každému elementárnímu jevu přiřadí reálnou hodnotu.
* Náhodný vektor můžeme chápat buď jako množinu náhodných veličin zkoumaných současně, nebo jako jednu náhodnou veličinu zkoumanou na několika objektech.
* Jedná se o zobrazení z $\Omega$ do $\mathbb{R}^n$.
**Společná distribuční funkce** (distribuční funkce náhodného vektoru) je definována jako:
$$
F(x_1, x_2, \ldots, x_n) = P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n)
$$
* Tato funkce je:
* neklesající v každé proměnné,
* zprava spojitá,
* její limity jsou 0 v $-\infty$ a 1 v $+\infty$.
Pro **spojitý náhodný vektor** existuje společná hustota pravděpodobnosti $f(x_1, \ldots, x_n)$ taková, že:
$$
F(x_1, \ldots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \ldots, t_n) \, dt_1 \cdots dt_n
$$
==== Nezávislost náhodných veličin ====
Náhodné veličiny $X_1, X_2, \ldots, X_n$ jsou **nezávislé**, pokud pro všechny $x_1, x_2, \ldots, x_n$ platí:
$$
F(x_1, x_2, \ldots, x_n) = F_1(x_1) \cdot F_2(x_2) \cdots F_n(x_n)
$$
kde $F_i(x_i)$ je marginální distribuční funkce každé jednotlivé složky $X_i$.
* Pro **spojité** náhodné veličiny je nezávislost ekvivalentní s podmínkou:
$$
f(x_1, \ldots, x_n) = f_1(x_1) \cdot \ldots \cdot f_n(x_n)
$$
* Pokud náhodné veličiny nejsou nezávislé, může se jedna veličina ovlivňovat s jinou.
* Pro úplnou nezávislost všech $n$ veličin je třeba, aby byly nezávislé i všechny jejich kombinace.
**Součet náhodných veličin** – pokud jsou $X$ a $Y$ nezávislé, pak distribuční funkce jejich součtu $Z = X + Y$ vznikne tzv. **konvolucí**:
* Pro diskrétní veličiny:
$$
P(Z = z) = \sum_{i} P(X = x_i) \cdot P(Y = z - x_i)
$$
* Pro spojité veličiny:
$$
f_Z(z) = \int_{-\infty}^{\infty} f_X(t) \cdot f_Y(z - t) \, dt
$$
Příklady konvoluce rozdělení:
* $Alt(p) + Alt(p) = Bin(2, p)$
* $Bin(n_1, p) + Bin(n_2, p) = Bin(n_1 + n_2, p)$
* $Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)$
* $N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$
==== Kovariance a korelace ====
**Kovariance** je míra lineární závislosti dvou náhodných veličin $X$ a $Y$:
$$
\text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y)
$$
* Pokud $\text{Cov}(X, Y) > 0$, mezi $X$ a $Y$ existuje pozitivní lineární závislost.
* Pokud $\text{Cov}(X, Y) < 0$, závislost je negativní.
* Pokud $\text{Cov}(X, Y) = 0$, $X$ a $Y$ jsou lineárně nezávislé (ale nemusí být obecně nezávislé).
**Vlastnosti kovariance:**
* $\text{Cov}(X, X) = Var(X)$
* $\text{Cov}(X, Y) = \text{Cov}(Y, X)$
* $\text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y)$
* $Var(X + Y) = Var(X) + Var(Y) + 2\text{Cov}(X, Y)$
**Korelace** (Pearsonův korelační koeficient) je normovaná kovariance, která měří sílu a směr lineární závislosti mezi veličinami:
$$
\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}
$$
* $\rho(X, Y) \in [-1, 1]$
* $\rho = 1$ znamená úplnou pozitivní lineární závislost
* $\rho = -1$ znamená úplnou negativní lineární závislost
* $\rho = 0$ značí, že mezi veličinami není lineární závislost (ale může být nelineární)
**Kovarianční matice** a **korelační matice**:
* Pro náhodný vektor $X = (X_1, ..., X_n)^T$ se definuje střední hodnota vektoru:
$$
E[X] = (E[X_1], E[X_2], \ldots, E[X_n])^T
$$
* Kovariance mezi složkami tvoří **kovarianční matici**:
$$
\Sigma = \begin{bmatrix}
Var(X_1) & Cov(X_1, X_2) & \cdots \\
Cov(X_2, X_1) & Var(X_2) & \cdots \\
\vdots & \vdots & \ddots
\end{bmatrix}
$$
* Korelace tvoří **korelační matici**, kde jsou jednotlivé prvky korelačními koeficienty mezi dvojicemi složek.
===== 3. Čebyševova nerovnost =====
**Čebyševova nerovnost** – centrální limitní věta.
**Čebyševova nerovnost** je matematická nerovnost, která říká, jak velká část pravděpodobnostní hmoty náhodné veličiny leží blízko její střední hodnoty. Je velmi obecná, protože nevyžaduje znalost konkrétního rozdělení – stačí znát pouze střední hodnotu a rozptyl.
**Teoretické vzorce:**
Pro náhodnou veličinu $X$ s konečným rozptylem platí:
$$
P(|X - E(X)| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}, \quad \text{pro každé } \varepsilon > 0
$$
kde
* $E(X)$ je střední hodnota náhodné veličiny $X$
* $\operatorname{Var}(X)$ je rozptyl náhodné veličiny $X$
**Myšlenka:**
Čebyševova nerovnost udává **horní odhad pravděpodobnosti**, že se hodnota náhodné veličiny odchýlí od své střední hodnoty o více než $\varepsilon$. I když nerozumíme přesnému rozdělení, můžeme tímto způsobem říci, že většina hodnot leží „blízko průměru“.
* Využití: odhad pravděpodobnosti odlehlých hodnot (outliers) bez nutnosti znát konkrétní rozdělení.
**Praktická ukázka:**
Mějme náhodnou veličinu $X$ se střední hodnotou $E(X) = 50$ a rozptylem $\operatorname{Var}(X) = 25$. Chceme zjistit pravděpodobnost, že se $X$ odchýlí od 50 o více než 10:
$$
P(|X - 50| \geq 10) \leq \frac{25}{10^2} = 0.25
$$
**Interpretace:** Nejvýše 25 % hodnot může být mimo interval $[40, 60]$. To znamená, že alespoň 75 % hodnot leží v tomto intervalu.
**Grafické znázornění:**
\usepackage{amsmath}
\usepackage{pgfplots}
\usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta}
\begin{document}
\begin{tikzpicture}[scale=0.8]
% Osy
\draw[->] (0,0) -- (8,0) node[right] {$x$};
\draw[->] (0,0) -- (0,4) node[above] {$f(x)$};
% Střední hodnota
\draw[dashed] (4,0) -- (4,3.5) node[above] {$\mu$};
% Hustota (např. normální rozdělení)
\draw[domain=0:8, smooth, blue] plot (\x, {3*exp(-(\x-4)^2/2)});
% Interval μ ± ε
\draw[red] (2.5,0.1) -- (2.5,3) node[above left] {$\mu - \varepsilon$};
\draw[red] (5.5,0.1) -- (5.5,3) node[above right] {$\mu + \varepsilon$};
% Vybarvené ocasy
\fill[red!20, domain=0:2.5] (0,0) plot (\x, {3*exp(-(\x-4)^2/2)}) -- (2.5,0) -- cycle;
\fill[red!20, domain=5.5:8, samples=200] (5.5,0) -- plot (\x,{3*exp(-(\x-4)^2/2)}) -- (8,0) -- cycle;
% Popisky
\node at (1,1) {Oblast};
\node at (-2,0.5) {$P(|X-\mu| \geq \varepsilon)$};
\node[below] at (4,-0.2) {$\leq \frac{\sigma^2}{\varepsilon^2}$};
\end{tikzpicture}
\end{document}
//Vysvětlení:// Červené oblasti znázorňují pravděpodobnost odchylky od $\mu$ o více než $\varepsilon$. Jejich plocha je shora omezena $\frac{\sigma^2}{\varepsilon^2}$.
==== Centrální limitní věta (CLV) ====
**Centrální limitní věta (CLV)** je základní výsledek pravděpodobnosti a statistiky, který říká, že součet (nebo průměr) mnoha nezávislých náhodných veličin má přibližně normální rozdělení – bez ohledu na původní rozdělení jednotlivých veličin.
**Teoretický vzorec:**\\
Nechť $X_1, X_2, \dots, X_n$ jsou nezávislé, stejně rozdělené náhodné veličiny se střední hodnotou $\mu$ a konečným rozptylem $\sigma^2$. Potom platí:
$$
Z_n = \frac{\sum_{k=1}^n X_k - n\mu}{\sigma \sqrt{n}} \Rightarrow \mathcal{N}(0, 1) \quad \text{pro } n \to \infty
$$
Jinými slovy, rozdělení $Z_n$ konverguje k normovanému normálnímu rozdělení (s průměrem 0 a směrodatnou odchylkou 1).
Pak pro $n \to \infty$ platí:\\
$$ \lim_{n \to \infty} P(Z_n \leq x) = \Phi(x), $$\\
kde $\Phi(x)$ je distribuční funkce normovaného normálního rozdělení $\mathcal{N}(0,1)$.
**Myšlenka:**\\
CLV ukazuje, že **výběrový průměr** (nebo součet) mnoha nezávislých veličin má přibližně **normální rozdělení**, i když původní data nejsou normální. To umožňuje používat normální rozdělení pro aproximace (např. v testování hypotéz).
**Praktická ukázka:**
Představme si, že házíme klasickou kostkou 100krát. Střední hodnota jednoho hodu je $\mu = 3.5$ a rozptyl je $\sigma^2 = \frac{35}{12} \approx 2.92$.
Chceme zjistit pravděpodobnost, že výběrový průměr všech hodů bude větší než 4.
1. **Standardizace**:
$$
Z = \frac{4 - 3.5}{\sqrt{2.92 / 100}} \approx \frac{0.5}{0.171} \approx 2.93
$$
2. **Použití tabulky normálního rozdělení**:
$$
P(\bar{X} > 4) = 1 - \Phi(2.93) \approx 1 - 0.9983 = 0.0017
$$
**Interpretace:** Pravděpodobnost, že výběrový průměr přesáhne 4, je velmi malá (přibližně 0.17 %), což dává smysl – je totiž málo pravděpodobné, že by padaly výhradně vysoké hodnoty.
**Poznámka:** Rychlost konvergence k normálnímu rozdělení je dána tzv. **Berry-Essenovou nerovností** – čím větší $n$, tím přesnější aproximace.
**Grafické znázornění:**
\usepackage{amsmath}
\usepackage{pgfplots}
\usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta}
\begin{document}
\begin{tikzpicture}[yscale=1.7]
% Osy
\draw[->] (0,0) -- (8,0) node[right] {$x$};
\draw[->] (0,0) -- (0,4) node[above] {$f(x)$};
% Původní rozdělení (např. diskrétní)
\foreach \x/\y in {1/0.5, 2/1, 3/1.5, 4/1.5, 5/1, 6/0.5}
\draw[blue, thick] (\x,0) -- (\x,\y);
% Normální rozdělení pro n→∞
\draw[domain=0:8, smooth, red] plot (\x, {3.5*exp(-(\x-4)^2/1.5)});
% Šipka a popis
\draw[->, dotted, thick] (2,3.5) to[out=30,in=150] (6,3.5);
\node at (4,5) {$n \to \infty$};
\node[blue] at (1.5,1.8) {Původní rozdělení};
\node[red] at (6.5,2) {$\mathcal{N}(\mu, \sigma^2/n)$};
\end{tikzpicture}
\end{document}
//Vysvětlení:// Modré sloupce znázorňují např. rozdělení hodu kostkou. Červená křivka ukazuje konvergenci výběrového průměru k normálnímu rozdělení s rostoucím $n$.
===== 4. Základní pojmy statistiky =====
**Základní pojmy statistiky** – náhodný výběr, empirické rozdělení.
==== Náhodný výběr ====
**Náhodný výběr** je posloupnost $n$ nezávislých a stejně rozdělených náhodných veličin $X_1, X_2, \dots, X_n$ reprezentujících data z populace. Formálně:
$$
\{X_i\}_{i=1}^n \quad \text{kde} \quad X_i \sim F \quad (\text{i.i.d.})
$$
* $n$: rozsah výběru
* $F$: společná distribuční funkce populace
* i.i.d.: *independent and identically distributed* (nezávislé a stejně rozdělené)
Tento koncept znamená, že každá jednotlivá hodnota ve výběru má stejnou pravděpodobnostní distribuci jako ostatní a je na nich nezávislá.
**Příklad:**
Měření výšky 50 náhodně vybraných studentů
$\rightarrow X_i = \text{výška } i\text{-tého studenta}$
Každý student je vybrán náhodně, a tedy všechny výšky jsou považovány za i.i.d. realizace z určité distribuční funkce výšek ve studované populaci.
==== Empirické rozdělení ====
**Empirické rozdělení** aproximuje skutečné rozdělení populace pomocí dat z náhodného výběru.
* **Empirická distribuční funkce** $F_n(x)$:
$$
F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}}
$$
kde $\mathbf{1}_{\{X_i \leq x\}} = 1$, pokud $X_i \leq x$, jinak $0$.
* **Vlastnosti**:
* Skoková funkce s body nespojitosti v hodnotách $X_i$.
* Pro $n \to \infty$ platí $F_n(x) \to F(x)$ podle zákona velkých čísel.
Tato funkce udává relativní četnost hodnot ve výběru, které jsou menší nebo rovny hodnotě $x$, a tedy slouží jako aproximace skutečné distribuční funkce.
**Příklad:**
Pro výběr $\{1{,}5;\ 2{,}0;\ 3{,}5\}$ je $F_n(x)$ skoková funkce s třemi skoky o velikosti $\frac{1}{3}$, která stoupá vždy, když $x$ překročí jednu z hodnot výběru.
\usepackage{amsmath}
\usepackage{pgfplots}
\usetikzlibrary{automata, positioning, arrows, calc, cd, intersections,arrows.meta}
\begin{document}
\begin{tikzpicture}
\begin{axis}[
width=10cm, height=6cm,
axis lines=left,
xlabel={$x$}, ylabel={$F_n(x)$},
ymin=0, ymax=1.05,
ytick={0,1/3,2/3,1},
yticklabels={0,$\tfrac{1}{3}$,$\tfrac{2}{3}$,1},
ticklabel style={font=\small},
enlarge y limits={upper, value=0.05},
enlarge x limits=0.05,
domain=0:5,
samples=2,
]
% EDF steps
\addplot+[blue, thick, jump mark left]
coordinates {
(0,0) (1.5,0)
(1.5,1/3) (2.0,1/3)
(2.0,2/3) (3.5,2/3)
(3.5,1) (5,1)
};
% Dots at jumps
\addplot+[only marks, mark=*, mark size=1.5pt, blue]
coordinates {
(1.5,1/3) (2.0,1/3)
(2.0,2/3) (3.5,2/3) (3.5,1)
};
\end{axis}
\end{tikzpicture}
\end{document}
====== 5. Obecné vlastnosti odhadů parametrů ======
Při odhadování neznámých parametrů základního souboru na základě pozorovaných dat z náhodného výběru se snažíme, aby naše odhady měly určité žádoucí vlastnosti. Tyto vlastnosti nám pomáhají posoudit kvalitu odhadu a vybrat ten nejlepší možný. Odhad je pravidlo nebo funkce, která na základě dat z výběru přiřazuje hodnotu určitému neznámému parametru.
==== Značení ====
Nejprve si zavedeme značení, které se v teorii odhadu běžně používá:
* $\vartheta$: Jakákoli hodnota parametru (reálné číslo).
* $\vartheta^*$: Skutečná (správná) hodnota parametru (reálné číslo).
* $\hat{\Theta}_n$: Odhad parametru založený na náhodném výběru rozsahu $n$ (toto je náhodná veličina).
* $\hat{\vartheta}$, $\hat{\vartheta}_n$: Realizace odhadu, tj. konkrétní hodnota odhadu získaná z dat (reálné číslo).
Například:
Pokud odhadujeme střední hodnotu výšky v populaci, pak $\vartheta$ je neznámá střední výška, $\hat{\Theta}_n$ je výběrový průměr (náhodná veličina závislá na výběru) a $\hat{\vartheta}$ je konkrétní hodnota výběrového průměru vypočtená z dat.
==== Žádoucí vlastnosti bodových odhadů ====
Bodový odhad je funkce náhodného výběru, jejíž předpis nezávisí na odhadovaném parametru. Snažíme se, aby bodové odhady měly následující vlastnosti:
- **Nestrannost (nevychýlenost)**
* Odhad $\hat{\Theta}_n$ se nazývá nestranný, pokud jeho střední hodnota je rovna skutečné hodnotě parametru $\vartheta^*$, tj. $ E[\hat{\Theta}_n] = \vartheta^* $
* což znamená, že: $ E[\hat{\Theta}_n - \vartheta^*] = 0$
* Pokud tato podmínka není splněna, říkáme, že odhad je **vychýlený** (má systematickou chybu).
* Příklad: Výběrový průměr je nestranný odhad střední hodnoty normálního rozdělení.
- **Asymptotická nestrannost**
* Odhad $\hat{\Theta}_n$ je asymptoticky nestranný, pokud se jeho střední hodnota blíží skutečné hodnotě parametru $\vartheta^*$ s rostoucím rozsahem výběru $n$, tj. $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^* $
* To znamená, že odhad je sice pro malé $n$ vychýlený, ale bias se s rostoucím $n$ zmenšuje a nakonec zmizí.
* Např. výběrový rozptyl s dělením $n$ místo $n-1$ je asymptoticky nestranný.
- **Konzistence**
* Odhad $\hat{\Theta}_n$ je konzistentní, pokud s rostoucím rozsahem výběru $n$ konverguje v pravděpodobnosti k odhadovanému parametru $\vartheta^*$, tj.: $ \hat{\Theta}_n \xrightarrow{P} \vartheta^*$
* To znamená, že:
* Je asymptoticky nestranný: $ \lim_{n \rightarrow \infty} E[\hat{\Theta}_n] = \vartheta^*$
* A má klesající rozptyl: $ \lim_{n \rightarrow \infty} D[\hat{\Theta}_n] = 0 $
* Konzistence znamená, že s větším počtem dat bude náš odhad přesnější.
- **Efektivita (účinnost)**
* Efektivní odhad je takový, který má co nejmenší střední kvadratickou chybu: $ E[(\hat{\Theta}_n - \vartheta^*)^2] $
* Tuto chybu můžeme rozložit na: $D[\hat{\Theta}_n] + (E[\hat{\Theta}_n] - \vartheta^*)^2 $
* Pro **nestranné odhady** tedy platí, že efektivita závisí pouze na jejich rozptylu.
* **Nejlepší nestranný odhad** (MVUE – minimum variance unbiased estimator) má ze všech nestranných odhadů nejmenší rozptyl.
* Pozor: může se stát, že některé vychýlené odhady jsou efektivnější než MVUE – mají menší celkovou chybu.
- **Robustnost**
* Robustní odhad je odolný vůči šumu nebo odlehlým hodnotám (například extrémním datům v souboru).
* Nemusí být nejefektivnější při ideálních podmínkách, ale je stabilnější v praxi, kde jsou data často zašuměná nebo obsahují chyby.
* Přesná matematická definice robustnosti často neexistuje, ale prakticky se jedná o velmi důležitou vlastnost.
* Příklad: Medián je robustnější než průměr, protože není ovlivněn extrémními hodnotami.
==== Odhady konkrétních parametrů ====
* **Odhady střední hodnoty** ($\mu$):
* Výběrový průměr $ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i $
* je nestranným a konzistentním odhadem střední hodnoty $E[X]$.
* To znamená, že jeho střední hodnota je rovna skutečné střední hodnotě populace, a že s rostoucím počtem dat se přibližuje pravé hodnotě $\mu$.
* Příklad: Pokud měříme výšku 100 studentů, průměr těchto hodnot odhaduje průměrnou výšku celé populace studentů.
* **Odhady rozptylu** ($\sigma^2$):
* Výběrový rozptyl $ S^2_n = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X}_n)^2 $
* je nestranným a konzistentním odhadem rozptylu $D[X]$.
* Dělení $n-1$ místo $n$ zajišťuje nestrannost odhadu (tzv. Besselova korekce).
* Tento odhad popisuje, jak moc se jednotlivé hodnoty výběru rozptylují kolem výběrového průměru.
* **Odhady směrodatné odchylky** ($\sigma$):
* Výběrová směrodatná odchylka se definuje jako odmocnina výběrového rozptylu: $ S_n = \sqrt{S^2_n} $
* Je přirozeným odhadem směrodatné odchylky a udává, jak moc se hodnoty typicky liší od průměru v původních jednotkách.
* **Odhady momentů**:
* Pro odhad $k$-tého obecného momentu $E[X^k]$ použijeme výběrový moment: $ m_{X^k} = \frac{1}{n} \sum_{j=1}^{n} x_j^k $
* Tento moment slouží např. k odhadu tvaru rozdělení (šikmost, špičatost) podle toho, zda se jedná o 3., 4. atd. moment.
* Příklad: Výběrový druhý moment je základem pro výpočet rozptylu.
==== Metody odhadování parametrů ====
Existuje několik metod, jak na základě dat odhadnout neznámé parametry rozdělení. Nejčastěji používané jsou tyto dvě:
- **Metoda momentů (MM)**
* **Princip**: Vycházíme z předpokladu, že teoretické momenty náhodné veličiny (např. střední hodnota, rozptyl atd.) závisí na parametrech rozdělení. Tyto teoretické momenty nahradíme jejich výběrovými odhady spočítanými z dat a vyřešíme rovnice, které takto vzniknou.
* **Cíl**: Najít takové hodnoty parametrů, aby teoretické vlastnosti rozdělení (momenty) „odpovídaly“ těm vypočteným z dat
* **Postup (příklad pro dva parametry $\theta_1$ a $\theta_2$):**
* Sečteme data a spočítáme výběrové momenty:
* $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad m_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 $$
* Sestavíme rovnice z teoretických momentů $E[X]$, $E[X^2]$ (ty závisí na $\theta_1, \theta_2$) a položíme je rovné výběrovým momentům.
* Řešíme soustavu rovnic a získáme odhady parametrů.
* **Výhody**:
* Poměrně jednoduchá metoda, často poskytuje uzavřené (analytické) řešení.
* Zohledňuje všechna data.
* Není potřeba znát přesnou formu pravděpodobnostní funkce.
* **Nevýhody**:
* Řešení nemusí existovat nebo může být nejednoznačné.
* Odhady nemusí být nejpřesnější (např. ve smyslu rozptylu).
* **Poznámka**:
* Používá se např. tehdy, když je výpočetně náročné použít metodu maximální věrohodnosti.
- **Metoda maximální věrohodnosti (MLE – Maximum Likelihood Estimation)**
* **Princip**: Hledáme takovou hodnotu parametru $\theta$, která **maximalizuje pravděpodobnost pozorovaných dat**. Jinými slovy: jaké nastavení parametrů by „nejlépe vysvětlovalo“ data, která jsme viděli?
* **Postup:**
* Sestrojíme věrohodnostní funkci $L(\theta)$:
* Spojitý případ: $$ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) $$
* Diskrétní případ: $$ L(\theta) = \prod_{i=1}^{n} P(X_i = x_i; \theta) $$
* Z logaritmu věrohodnostní funkce vytvoříme tzv. **log-věrohodnost**: $$ \ell(\theta) = \ln L(\theta) $$
* Přechod na logaritmus je praktický – převádí součiny na součty, což zjednoduší derivování.
* Najdeme extrém log-věrohodnosti:
* Vypočteme derivaci podle $\theta$, položíme ji rovnu nule a řešíme: $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$
* Výsledné řešení $\hat{\theta}$ je maximálně věrohodný odhad parametru.
* **Výhody**:
* Při splnění určitých podmínek poskytuje MLE odhady s dobrými vlastnostmi – jsou asymptoticky nestranné, efektivní a konzistentní.
* Obvykle poskytuje přesnější výsledky než metoda momentů.
* **Nevýhody**:
* V některých případech může být složité nebo nemožné analyticky řešit rovnici pro maximum.
* Výsledky mohou být citlivé na odlehlé hodnoty.
* **Poznámka**:
* V jednoduchých situacích (např. normální rozdělení) obě metody vedou ke stejným odhadům.
* V praxi se metoda volí podle dostupnosti informací o rozdělení a výpočetní náročnosti.
==== Intervalové odhady (Intervaly spolehlivosti) ====
Na rozdíl od bodového odhadu, který poskytuje pouze jednu hodnotu pro neznámý parametr, intervalový odhad poskytuje **interval**, ve kterém se s určitou pravděpodobností nachází skutečná hodnota tohoto parametru. Tento přístup lépe vystihuje nejistotu spojenou s odhadem.
* **Definice**: $(1 - \alpha) \times 100\%$ **interval spolehlivosti** pro parametr $\vartheta$ je interval $(L, U)$ takový, že: $$ P(L < \vartheta^* < U) \geq 1 - \alpha $$
* kde:
* $L$ je dolní mez intervalu,
* $U$ je horní mez intervalu,
* $\vartheta^*$ je skutečná (neznámá) hodnota parametru.
* **Koeficient spolehlivosti** $(1 - \alpha)$ vyjadřuje pravděpodobnost, že interval pokrývá skutečnou hodnotu parametru. Například:
* Pro $95\%$ spolehlivost platí $\alpha = 0.05$.
* Pro $99\%$ spolehlivost platí $\alpha = 0.01$.
* **Hladina významnosti** $\alpha$ představuje pravděpodobnost, že skutečný parametr **leží mimo** interval (tj. že interval není „úspěšný“). Často se dělí na dvě části – pro dolní a horní mez (např. $\alpha/2$ a $\alpha/2$).
* Existují různé typy intervalových odhadů:
* **Oboustranný interval**: $$ I = (L, U) $$
* kde interval symetricky pokrývá oblast kolem bodového odhadu.
* **Dolní jednostranný interval**: $$ I = (L, \infty) $$
* **Horní jednostranný interval**: $$ I = (-\infty, U) $$
* **Symetrický oboustranný interval** je takový, kde pravděpodobnost, že parametr leží pod dolní mezí, i nad horní mezí, je stejná, tedy: $$ P(\vartheta^* < L) = P(\vartheta^* > U) = \frac{\alpha}{2} $$
* Abychom mohli interval spolehlivosti zkonstruovat, musíme znát **pravděpodobnostní rozdělení bodového odhadu** $\hat{\Theta}_n$, případně rozdělení vhodné statistiky, která z něj vychází (např. pomocí normálního nebo t-rozdělení).
=== Intervalové odhady konkrétních parametrů ===
**Odhad střední hodnoty se známým rozptylem pomocí kvantilů normálního rozdělení ($u$):**
Pokud známe rozptyl populace $\sigma^2$, použijeme normální rozdělení. Interval spolehlivosti pro střední hodnotu $\mu$ se pak určuje pomocí kvantilu $u$ z normálního rozdělení. Tento přístup je vhodný, když víme, že data pocházejí z normálního rozdělení **a zároveň známe rozptyl**.
**Odhad střední hodnoty a rozptylu pomocí kvantilů $t$ a $\chi^2$:**
Pokud je rozptyl neznámý, pro odhad střední hodnoty použijeme **Studentovo t-rozdělení**, které zohledňuje nejistotu ve výběrovém rozptylu. Pro intervalový odhad rozptylu použijeme **chí-kvadrát rozdělení** – dolní a horní mez intervalu spočteme pomocí kvantilů z $\chi^2$.
**Odhad střední hodnoty pomocí centrální limitní věty (CLV):**
Pokud výběr není z normálního rozdělení, ale máme dostatečně velký počet pozorování, použijeme CLV. Ta zaručuje, že výběrový průměr má přibližně normální rozdělení, takže můžeme použít normální kvantily $u$ i bez normality původního rozdělení.
**Asymptotický intervalový odhad:**
Používá se v obecných případech, kdy neznáme přesné rozdělení výběru, ale máme velký rozsah $n$. Intervaly jsou pak založené na odhadech ze vzorku (např. výběrový rozptyl místo známého rozptylu) a přibližují skutečné pokrytí při velkém $n$.
**Poznámka:**
Lze tímto způsobem odhadovat i rozptyly, i když závisí na střední hodnotě. Typicky například u **Poissonova rozdělení**, kde platí $\mu = \sigma^2$, nebo u **alternativního rozdělení** (Bernoulliho), kde je rozptyl určen parametrem $p$ a zároveň souvisí se střední hodnotou. V těchto případech se často využívají speciální odhady přizpůsobené danému typu rozdělení.
===== 6. Princip statistického testování hypotéz =====
**Princip statistického testování hypotéz** – testy střední hodnoty a rozptylu, porovnání dvou rozdělení, $\chi^2$-test dobré shody, test nezávislosti v kontingenční tabulce.
**Princip statistického testování hypotéz** je metoda, jak ověřit, zda data poskytují dostatek důkazů pro zamítnutí nějakého předpokladu (tzv. hypotézy) o rozdělení nebo parametrech náhodných veličin. Tento postup je základem pro rozhodování v mnoha oblastech statistiky, experimentů a datové analýzy.
- **Formulace hypotéz**:
* **Nulová hypotéza ($H_0$)**: výchozí tvrzení, které předpokládáme, že platí – např. „střední hodnota je rovna 0“, „data mají normální rozdělení“, „dva výběry pochází ze stejné populace“ atd.
* **Alternativní hypotéza ($H_1$)**: tvrzení, které se snažíme potvrdit – např. „střední hodnota se liší od 0“, „data nejsou normálně rozložena“, „dva výběry se liší“.
* Příklad:
* $H_0$: $\mu = 50$
* $H_1$: $\mu \neq 50$
- **Volba hladiny významnosti ($\alpha$)**:
* Jedná se o pravděpodobnost chyby I. druhu – tj. že **zamítneme $H_0$, i když je ve skutečnosti pravdivá**.
* Typicky se volí $\alpha = 0.05$ nebo $\alpha = 0.01$.
* Například při $\alpha = 0.05$ připouštíme maximálně 5% pravděpodobnost, že učiníme chybný závěr ve prospěch $H_1$.
- **Výběr testové statistiky**:
* Zvolíme vhodnou testovou statistiku v závislosti na typu dat a testované hypotéze.
* Např. pro testování střední hodnoty normálně rozdělené veličiny použijeme t-test.
* Pro rozptyl může být použit F-test.
* Pro testy shody rozdělení použijeme např. $\chi^2$-test.
* Testová statistika je funkce vzorku, jejíž rozdělení známe, pokud $H_0$ platí.
- **Výpočet kritické hodnoty nebo p-hodnoty**:
* **Kritická hodnota**: hodnota testové statistiky, kterou porovnáme s vypočtenou hodnotou. Jestliže překročí tuto mez, zamítáme $H_0$.
* **p-hodnota**: pravděpodobnost, že bychom při platnosti $H_0$ získali stejně nebo více extrémní hodnotu testové statistiky. Pokud:$$ \text{p-hodnota} < \alpha, $$
* pak zamítáme $H_0$.
* **Poznámka**: p-hodnota je velmi praktický způsob testování, protože přímo říká, jak „nepravděpodobná“ jsou data za předpokladu, že $H_0$ platí.
- **Rozhodnutí**:
* Pokud p-hodnota < $\alpha$ **nebo** testová statistika je větší než kritická hodnota, **zamítáme $H_0$**.
* Jinak **$H_0$ nezamítáme** – což ale neznamená, že ji potvrzujeme; pouze nemáme dostatek důkazů k jejímu zamítnutí.
**Shrnutí principu**:
Testování hypotéz je proces, jak rozhodnout, zda jsou odchylky pozorované ve vzorku od očekávaných hodnot důkazem proti výchozímu tvrzení. Pomáhá vyhnout se náhodným závěrům na základě šumu v datech, a umožňuje učinit rozhodnutí s kvantifikovanou mírou nejistoty.
==== Testy střední hodnoty a rozptylu ====
**Testy střední hodnoty**:
* **Jednovýběrový t-test**: Testuje hypotézu, zda střední hodnota jedné populace je rovna určité hodnotě. Používá se, pokud známe výběrový průměr a výběrový rozptyl a buď:
* data pocházejí z normálního rozdělení, nebo
* velikost výběru je dostatečně velká (např. $n > 30$, podle CLV).
* **Příklad**: Zajímá nás, zda průměrná výška studentů přesahuje 175 cm.
* **Dvouvýběrový t-test**: Testuje, zda se liší střední hodnoty dvou nezávislých výběrů. Používá se při porovnání dvou skupin.
* **Příklad**: Průměrná výška studentů v ČR vs. SR.
* **Párový t-test**: Testuje rozdíl středních hodnot dvou závislých výběrů, tj. každá hodnota v první skupině má přiřazenou dvojici v druhé skupině.
* **Příklad**: Výška člověka před a po půlročním tréninku.
**Testy rozptylu**:
* **F-test**: Slouží ke srovnání dvou rozptylů. Je citlivý na odchylky od normality.
* **Příklad**: Testujeme, zda se rozptyl známek ve dvou třídách liší.
* **$\chi^2$-test rozptylu**: Používá se k ověření, zda rozptyl náhodné veličiny je roven určité teoretické hodnotě.
* Výpočet statistiky: $ \chi^2 = \frac{(n - 1) \cdot S^2}{\sigma_0^2} $
* kde $S^2$ je výběrový rozptyl, $\sigma_0^2$ je hypotetická hodnota rozptylu a $n$ velikost výběru.
==== Porovnání dvou rozdělení ====
**Porovnání dvou rozdělení**:
* **Kolmogorov-Smirnovův test**: Testuje, zda dvě empirické distribuční funkce se výrazně liší. Používá se u spojitých veličin. Citlivý k rozdílům ve tvaru rozdělení.
* **Mann-Whitneyho test**: Neparametrický test rozdílu středních hodnot mezi dvěma nezávislými skupinami. Nepotřebuje předpoklad normality – vhodný pro pořadová nebo ne-normální data.
* **Wilcoxonův test**: Neparametrický párový test – alternativní k párovému t-testu, když data nejsou normálně rozložena.
==== $\chi^2$-test dobré shody ====
Používá se pro ověření, zda četnosti pozorovaných dat odpovídají určitému teoretickému rozdělení (např. binomickému, Poissonovu, normálnímu). Vhodné např. pro kategorická data.
**Výpočet testové statistiky**:
$$
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}
$$
kde:
* $O_i$ jsou pozorované četnosti,
* $E_i$ jsou teoreticky očekávané četnosti.
**Předpoklady**:
* Očekávané četnosti $E_i$ by měly být větší nebo rovny 5, aby byl výsledek testu spolehlivý (jinak se používají úpravy nebo sloučení kategorií).
==== Test nezávislosti v kontingenční tabulce ====
**Test nezávislosti**:
* Používá se u dvou kategoriálních proměnných – např. pohlaví a preference typu produktu.
* Kontingenční tabulka zachycuje četnosti kombinací hodnot obou proměnných.
**Testová statistika**:
$$
\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$
kde:
* $O_{ij}$ jsou pozorované četnosti v buňkách tabulky,
* $E_{ij}$ jsou očekávané četnosti při nezávislosti proměnných: $ E_{ij} = \frac{r_i \cdot c_j}{n} $
* kde $r_i$ je součet řádku, $c_j$ součet sloupce a $n$ je celkový počet pozorování.
**Interpretace**:
* Malá hodnota $\chi^2$ znamená, že rozdíly mezi $O_{ij}$ a $E_{ij}$ jsou malé → proměnné jsou pravděpodobně nezávislé.
* Velká hodnota $\chi^2$ vede k zamítnutí hypotézy nezávislosti.
**Předpoklad**: Očekávané četnosti v buňkách by měly být alespoň 5.
===== 7. Markovovy řetězce =====
**Markovovy řetězce** – modely náhodného vývoje systému v diskrétním čase, kde přechod do dalšího stavu závisí pouze na aktuálním stavu (tzv. *Markova vlastnost*).
==== Základní pojmy a popis ====
**Markovův řetězec** je posloupnost náhodných veličin $X_0, X_1, X_2, \ldots$, kde pro každý $n$ a všechny stavy $i_0, \dots, i_{n+1}$ platí:
$$
P(X_{n+1} = i_{n+1} \mid X_n = i_n, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = i_{n+1} \mid X_n = i_n)
$$
Tato rovnost říká, že vývoj závisí pouze na aktuálním stavu.
Pokud jsou pravděpodobnosti přechodu nezávislé na čase (tj. homogenní), pak označujeme:
$$
p_{ij} = P(X_{n+1} = j \mid X_n = i)
$$
a tyto pravděpodobnosti uspořádáme do **matice přechodu** $P = (p_{ij})$.
Součet pravděpodobností v každém řádku je roven 1:
$$
\sum_{j} p_{ij} = 1 \quad \text{pro každé } i
$$
$n$-tá mocnina matice $P^n$ udává pravděpodobnosti přechodu za $n$ kroků. Prvek $p_{ij}^{(n)}$ je pravděpodobnost, že se systém dostane ze stavu $i$ do stavu $j$ za právě $n$ kroků.
==== Přechodový diagram a matice ====
**Přechodový diagram** je grafická reprezentace Markovova řetězce. Umožňuje vizuálně sledovat, jak se systém může pohybovat mezi jednotlivými stavy a s jakou pravděpodobností.
* **Uzly** představují možné **stavy systému** (např. A, B, C).
* **Orientované hrany** značí **možné přechody** mezi stavy.
* **Čísla na hranách** udávají **pravděpodobnosti přechodu** z jednoho stavu do druhého.
Diagram se tedy chová jako mapa dynamiky systému — zobrazuje nejen směr možného vývoje, ale i jeho pravděpodobnost.
\usepackage{tikz}
\usetikzlibrary{matrix,arrows.meta,positioning}
\begin{document}
\begin{tikzpicture}
\node (A) at (0,0) {A};
\node (B) at (2,0) {B};
\node (C) at (4,0) {C};
\draw[->, >=latex] (A) to[bend left] node[above] {0.5} (B);
\draw[->, >=latex] (A) to[bend left] node[below] {0.5} (C);
\draw[->, >=latex] (B) to[loop above] node {1.0} (B);
\draw[->, >=latex] (C) to[bend left] node[above] {0.1} (A);
\draw[->, >=latex] (C) to[bend left] node[below] {0.2} (B);
\draw[->, >=latex] (C) to[loop above] node {0.7} (C);
\end{tikzpicture}
\end{document}
**Matice přechodu**: Tento diagram můžeme přepsat do **matice přechodu** $P$, kde řádky odpovídají výchozím stavům a sloupce cílovým stavům. Hodnota na pozici $p_{ij}$ je pravděpodobnost přechodu ze stavu $i$ do stavu $j$.
| | A | B | C |
|-------|-------|-------|-------|
| **A** | 0.0 | 0.5 | 0.5 |
| **B** | 0.0 | 1.0 | 0.0 |
| **C** | 0.1 | 0.2 | 0.7 |
**Jak číst tuto matici:**
* První řádek: Pokud jsme ve stavu **A**, máme 0% šanci zůstat v A, 50% šanci jít do B a 50% do C.
* Druhý řádek: Ze stavu **B** se nikam jinam nedostaneme, zůstáváme v B (s pravděpodobností 1).
* Třetí řádek: Ze stavu **C** máme 10% šanci jít do A, 20% do B a 70% zůstat v C.
==== Rozložitelnost a komponenty ====
* **Rozložitelný řetězec** (reducibilní): Ne všechny stavy jsou vzájemně dosažitelné. Existují skupiny stavů, mezi kterými není přechod.
* **Nerozložitelný řetězec** (irreducibilní): Každý stav je dosažitelný z každého jiného – tvoří jednu komunikující třídu.
* **Uzavřená množina stavů**: Jakmile se do této množiny dostaneme, nemůžeme ji opustit.
* **Komponenta**: Největší možná uzavřená množina, která neobsahuje menší uzavřenou podmnožinu.
==== Asymptotické chování a stacionární rozdělení ====
Pro ireducibilní, aperiodický a pozitivně rekurentní řetězec existuje **stacionární rozdělení** $\pi = (\pi_1, \ldots, \pi_n)$, které splňuje:
$$
\pi = \pi P \quad \text{a} \quad \sum_{i=1}^{n} \pi_i = 1
$$
* Toto rozdělení reprezentuje **dlouhodobé pravděpodobnosti** – tj. jaký podíl času systém stráví ve stavech v limitě $t \to \infty$.
* Lze ho nalézt jako **vlastní vektor** matice $P$ k vlastnímu číslu 1.
==== Konvergence a rozklad matice ====
Pro markovský řetězec s trvalými a přechodnými stavy lze matici přechodu přepsat jako blokovou matici:
$$
P = \begin{bmatrix}
D & 0 \\
R & Q
\end{bmatrix}
$$
* $D$: přechody mezi trvalými stavy
* $Q$: přechody mezi přechodnými stavy
* $R$: přechody z přechodných do trvalých
Matice **fundamentální** $F = (I - Q)^{-1}$ a **absorpční pravděpodobnosti**:
$$
M = F \cdot R = (I - Q)^{-1} R
$$
vyjadřují pravděpodobnosti, že systém skončí v některém z trvalých stavů.
==== Asymptotické chování stavů ====
* **Přechodný stav**: $\lim_{n \to \infty} p_{ii}^{(n)} = 0$
* **Trvalý nulový stav**: $\lim_{n \to \infty} p_{ii}^{(n)} = 0$
* **Trvalý nenulový, aperiodický**: $\lim_{n \to \infty} p_{ii}^{(n)} = \pi_i$
* **Periodický stav**: Limitní pravděpodobnosti oscilují v závislosti na periodě.