Metody matematické statistiky
Section outline
-
Podmínky pro udělení zápočtu: aktivní účast na cvičení (tj. průběžné řešení zadávaných úkolů) a vyřešení zápočtového úkolu (na konci semestru). Získání zápočtu je nutná podmínka pro přihlášení ke zkoušce.
-
Téma: náhodná veličina a její rozdělení, distribuční funkce a hustota, momenty.
Instrukce k samostudiu pro první týden:
1) Stáhněte si folie k přednášce a knihu "Základy analýzy dat ..." [ZAD] (k tomu je zapotřebí login a heslo, které se dozvíte na první přednášce).
2 - přednáška) Prostudujte si folie k prvnímu týdnu (můžete využít i video s komentářem) a přečtěte si kapitolu 6 v knize ZAD -- rozumíte textu i všem pojmům?
3 - cvičení) Vyřešte zadaný úkol a výsledek uložte buď do moodlu nebo na svoji webovou stránku (pak stačí dát do moodlu jen odkaz).
-
Téma: normální rozdělení, odhad.
Instrukce: Kromě videa a folií (týden 2) si prosím přečtěte str. 169 až 184 v [ZAD], kde je postupně vysvětlené, že:
1) potřebujeme mít rozmyšlené, co přesně odhadujeme (parametr zájmu, str. 169 v [ZAD]) -- často odhadujeme střední hodnotu,
2) na základě náhodného výběru zkonstruujeme bodový odhad -- dobrý odhad střední hodnoty je průměr,
3) na odhad se můžeme dívat jako na náhodnou veličinu (přestože pro skutečná data obvykle pozorujeme pouze jednu realizaci) a zkoumat tak jeho vlastnosti (sekce 7.3 a 7.4 v [ZAD]).
-
Téma: náhodný výběr, vlastnosti průměru a výběrového rozptylu, t-rozdělení, konfidenční intervaly.
Zadání: seznamte se s konfidenčními intervaly pro parametry normálního rozdělení podle folií pro třetí týden (komentář je ve videu) a podle sekcí 7.6, 7.7.2, 7.8, 7.9.2 a 7.9.3 z knihy [ZAD] (přeskočené sekce se mi zdají být v této chvíli trochu matoucí). Zajímavé a důležité je, že konfidenční interval pro střední hodnotu normálního rozdělení lze velice dobře použít i pro střední hodnotu (téměř) libovolného jiného rozdělení; to funguje díky centrální limitní větě (samozřejmě jen pokud jsou splněny její předpoklady, například konečný druhý moment).
-
Téma: konstrukce odhadů pomocí momentové metody a metody maximální věrohodnosti.
Zadání: seznamte se s momentovou metodou a metodou maximální věrohodnosti podle videa a folií, případné nejasnosti si nachystejte na každotýdenní páteční setkání.
-
Téma: testování hypotéz, p-hodnota, jednovýběrový t-test.
1/ Seznamte se se základními pojmy týkajícími se testování hypotéz (nulová a alternativní hypotézy, testová statistika, kritický obor, p-hodnota, apod.) --- viz video a sekce 8 až 8.7 v [ZAD].
2/ Rozmyslete si odvození jednovýběrového t-testu (video, sekce 8.11 v [ZAD]) a párového t-test (jednovýběrový t-test použití na rozdíly -- lze ale použít, pouze pokud jsou pozorování v párech!)
3/ Samozřejmě lze testovat stejnou hypotézu pomocí jiného testu (například Wilcoxonův test místo t-testu) nebo lze testovat hypotézy o jiných parametrech (viz testování hypotéz o rozptylu).
-
Téma: síla testu, testování hypotéz o shodě středních hodnot ve dvou nezávislých výběrech (dvouvýběrový t-test).
Instrukce: Seznamte se s dvouvýběrovým t-testem podle folií (a videa). Rozmyslete si rozdíl mezi párovým a dvouvýběrovým t-testem (můžete se podívat i na kapitoly 9 a 10 v [ZAD], kde jsou oba testy také podrobně popsané).
-
Téma: náhodné vektory (sdružené, podmíněné a marginální rozdělení), počítání s vektory středních hodnot a variančními maticemi.
Seznamte se se základními pojmy podle videa a wikipedie: https://en.wikipedia.org/wiki/Multivariate_random_variable (části 1: Probability distribution, 3: Expected value, 4: Covariance and cross-covariance a 10: Applications). Za dva týdny budeme náhodné vektory potřebovat při výkladu o regresních modelech (tak jak je to naznačené na wikipedii v části 10: Applications | Regression theory).
-
Téma: mnohorozměrná data, Mahalanobisova transformace, metoda hlavních komponent.
Rozmyslete si základní popisné statistiky (vektor průměrů, výběrová varianční matice) a grafická znázornění (matice scatterplotů, grafy s paralelními osami, hlavní komponenty) mnohorozměrných dat.
-
Téma: lineární regrese s jedním prediktorem.
1/ Seznamte se s lineárním regresním modelem podle kapitoly 10 v knize Statistická analýza závislostí s příklady v R (login a heslo jsou stejné jako u ostatních materiálů).
2/ Vyzkoušejte popsané metody například na datech "women", zkuste příkazy "data(women);plot(women);abline(lm(weight~height,data=women))" a porovnejte výsledný obrázek s výstupem příkazu "lm(weight~height,data=women)" a "summary(lm(weight~height,data=women))" -- rozmyslete si, která čísla jsou odhady regresních parametrů a jaký je jejich význam (další zajímavá čísla jsou odhady směrodatné odchylky těchto odhadů a testy nulovosti jednotlivých parametrů).
3/ Zkuste porovnat model přímky s modelem paraboly například pomocí: "plot(women);lines(fitted(lm(weight~height+I(height^2),data=women))~women$height,col="red")", rozmyslete si přitom význam všech čísel ve výstupu funkce "summary(lm(weight~height+I(height^2),data=women))".
Poznámka: výklad ve foliích sleduje spíše knihu [Karel Zvára: Regrese, Matfyzpress, 2008], kde můžete najít pečlivé odvození všech odhadů i testů pomocí přístupu, který se na lineární regresi dívá jako na "projekci závislé proměnné do lineárního prostoru generovaného sloupci matice vysvětlujících proměnných".
Domácí úkol bude následovat až příští týden, po výkladu o ověřování předpokladů.
-
Téma: ověřování předpokladů v regresi (rezidua).
1/ Seznamte se se základy ověřování předpokladů v lineárním regresním modelu podle videa (stručně) a podle kapitoly 11 v knize Statistická analýza závislostí s příklady v R (podrobněji).
2/ Ještě podrobněji (a více matematicky) je ověřování předpokladů rozebráno v knize [Zvára: Regrese, Matfyzpress], kterou lze doporučit pro hlubší studium. Kromě různých typů reziduí (pomocí kterých se ověřují například předpokladu o tvaru závislosti a konstantnosti rozptylu) jsou velice zajímavé i metody detekce vlivných pozorování (která mohou porušení předpokladů maskovat a se kterými se seznámíme za dva týdny).
-
Téma: vícenásobná regrese.
Seznamte se s vícenásobnou regresí (tj. s lineární regresí s více vysvětlujícími proměnnými) podle kapitoly 12 v knize Statistická analýza závislostí s příklady v R (login/heslo = multi/variate). Důležitá je především:
1/ Interpretace směrnic (tj. regresních koeficientů) na straně 230.
2/ Testy nulovosti jednotlivých regresních koeficientů (str. 234 nahoře) a test nulovosti všech regresních koeficientů (tj. test hypotézy, že střední hodnota závisle proměnné nezávisí na vysvětlujících proměnných, "Regresní analýza rozptylu" na str. 234). Důležité je vědět, kde se tyto testy najdou v tabulce shrnující výsledky regresní analýzy (příklad na str. 234 dole). Poznámka: snadno lze testovat i hypotézy o lineárních kombinacích regresních koeficientů (které nás také někdy zajímají) --- to je popsané např. ve foliích k přednášce.
3/ Ověřování předpokladů funguje podobně jako v jednoduché regresi (tj. obvykle pomocí reziduí), ale je komplikovanější kvůli většímu počtu vysvětlujících proměnných (které mezi sebou mohou navíc různě záviset). Rezidua mohou být navíc ovlivněna vlivnými pozorováními, se kterými se seznámíme příští týden.
4/ Zábavná je sekce 12.5 (kvalitativní prediktor v modelu), která pomocí nula-jedničkových proměnných (které kódují hodnoty faktorové/kvalitativní proměnné) umožňuje snadno odhadovat zajímavé modely -- to je užitečné hlavně ve spojitosti s interakcemi v sekci 12.7.2, kde je pak možné odhadovat více regresních přímek najednou (tj. v jednom regresním modelu) a jednoduše testovat např. jestli mají všechny přímky stejný sklon nebo jestli jsou všechny přímky shodné (pomocí testu nulovosti příslušných regresních koeficientů - viz také obrázek 12.9 na straně 256).
5/ Podívejte se znovu na data police.txt a prozkoumejte výstup příkazů model1<-lm(react~height*weight+pulse,data=police); print(model1); summary(model1) --- rozmyslete si přitom význam jednotlivých čísel v počítačovém výstupu (hvězdička v příkazu lm() přidá do modelu i interakci váhy a výšky). Grafy různých typů reziduí (a dalších charakteristik) nejsnadněji získáte použitím príkazu plot(model1).Výklad v knize [Zvára: Regrese, Matfzypress] obsahuje podrobná odvození i důkazy, ale je organizovaná jiným způsobem -- testování různých hypotéz a odhadování parametrů v lineární regresi je popsané v prvních dvou kapitolách, následuje několik příkladů (kapitola 4 a 6), ověřování předpokladů (kapitoly 7 až 9), praktické postupy použitelné při sestavování modelu (kapitola 10), klasické postupy pro řešení problémů způsobené korelovanými vysvětlujícími proměnnými (kapitola 11), modely pro nula-jedničkové závislé proměnné (kapitola 11) a nelineární regrese (kapitoly 13 až 15).
-
Téma: testování podmodelu, vlivná pozorování a multikolinearita.
1/ Seznamte se s různými charakteristikami určenými pro detekci vlivných pozorování (tj. pozorováními, která významně ovlivňují odhady různých charakteristik regresního modelu): stručný přehled najdete ve foliích na str. 151 až 153 a komentář na videu. Podrobnější popis je v knize Zvára: Regrese, sekce 8.3 a 8.4 (login a heslo stejné jako u předchozích materiálů) --- samozřejmě se nemusíte učit vzorečky, ale měli byste rozumět základním principům (které jsou zde založené na změnách způsobených vynecháním některého pozorování). Uvědomte si, že rezidua nejsou k detekci vlivných pozorování vhodná, protože vlivná pozorování příslušná rezidua obvykle výrazně snižují.
2/ Korelace mezi vysvětlujícími proměnnými (tj. multikolinearita) mohou výrazně zvyšovat rozptyl příslušných regresních odhadů (a to pak může způsobit například chybné nezamítnutí hypotézy o nulovosti příslušného regresního koeficientu): metody detekce multikolinearity jsou popsané na foliích 156 až 158. Stručný přehled nejčastějších praktických problémů a vybrané možnosti jejich řešení najdete na folii 159.
-
Téma: kontingenční tabulky a logistická regrese - základní metody statistické analýzy kategoriálních dat
1/ Test nezávislosti v kontingenční tabulce umožňuje jednoduše prokázat závislost mezi dvěma faktorovýmí (nominálními, kategorickými) proměnnými. Test je popsán na foliích 188 až 194 a vlastně si stačí uvědomit, že testová statistika jenom porovnává pozorované četnosti (X) s četnostmi, které očekáváme za předpokladu nezávislosti (E); nezávislost zde v podstatě znamená jenom to, že sdružená pravděpodobnost je součinem marginálních pravděpodobností, tj. "p_{ij}=p_i p_j".
2/ Zobecněním lineární regrese pro nula-jedničkové závislé proměnné je logistická regrese (viz folie 195 až 208). Stejně jako u lineární regrese jde o model pro střední hodnotu závisle proměnné (tato střední hodnota se rovná pravděpodobnosti úspěchu - viz definice alternativního rozdělení), ale kvůli omezení těchto středních hodnot do intervalu (0,1) je vztah mezi hledanou lineární kombinací sloupců matice vysvětlujících proměnných (X) a modelovanou střední hodnotou (tj. odpovídající podmíněnou pravděpodobností úspěchu) nelineárně transformován tzv. logistickou transformací (která umožňuje interpretovat regresní koeficienty jako logaritmické poměry šancí).
3/ Odhadnutý model logistické regrese umožňuje snadno spočítat odhad pravděpodobnosti úspěchu (například pravděpodobnosti úspěšného dokončení studia) při znalosti zvolených vysvětlujících proměnných (např. věk, pohlaví, apod.) --- tato metoda se tedy často a úspěšně používá pro klasifikaci (například klientů v bankách). V porovnání např. s neuronovými sítěmi je přitom hned vidět, jestli odhadnuté regresní koeficienty odpovídají našim očekáváním, tj. jestli jednotlivé vysvětlující proměnné pravděpodobnost úspěchu snižují nebo zvyšují.
Dva úkoly: Rozmyslete si počítačový výstup na folii 194 (test nezávislosti v kontingenční tabulce) a na folii 205 (logistická regrese: je vliv lwt na Birthwt statisticky signifikantní?)