Kurz: Metody matematické statistiky

Osnova sekce

Vybrat sekci Úvod

Sbalit Rozbalit
Úvod

Sbalit vše Rozbalit vše
Podmínky pro udělení zápočtu: aktivní účast na cvičení (tj. průběžné řešení zadávaných úkolů) a vyřešení zápočtového úkolu (na konci semestru). Získání zápočtu je nutná podmínka pro přihlášení ke zkoušce.
- Vybrat aktivitu Základy analýzy dat a statistického úsudku, s příklady v R
  
  Základy analýzy dat a statistického úsudku, s příklady v R URL
- Vybrat aktivitu Folie k přednášce
  
  Folie k přednášce URL
Vybrat sekci Týden 1

Sbalit Rozbalit
Týden 1
Téma: náhodná veličina a její rozdělení, distribuční funkce a hustota, momenty.

Instrukce k samostudiu pro první týden:

1) Stáhněte si folie k přednášce a knihu "Základy analýzy dat ..." [ZAD] (k tomu je zapotřebí login a heslo, které se dozvíte na první přednášce).

2 - přednáška) Prostudujte si folie k prvnímu týdnu (můžete využít i video s komentářem) a přečtěte si kapitolu 6 v knize ZAD -- rozumíte textu i všem pojmům?

3 - cvičení) Vyřešte zadaný úkol a výsledek uložte buď do moodlu nebo na svoji webovou stránku (pak stačí dát do moodlu jen odkaz).
- Vybrat aktivitu Komentář - týden 1
  
  Komentář - týden 1 URL
- Vybrat aktivitu Komentář - týden 1
  
  Komentář - týden 1 Soubor
- Vybrat aktivitu Domácí úkol: hustota a distribuční funkce
  
  Domácí úkol: hustota a distribuční funkce
Vybrat sekci Týden 2

Sbalit Rozbalit
Týden 2
Téma: normální rozdělení, odhad.

Instrukce: Kromě videa a folií (týden 2) si prosím přečtěte str. 169 až 184 v [ZAD], kde je postupně vysvětlené, že:

1) potřebujeme mít rozmyšlené, co přesně odhadujeme (parametr zájmu, str. 169 v [ZAD]) -- často odhadujeme střední hodnotu,

2) na základě náhodného výběru zkonstruujeme bodový odhad -- dobrý odhad střední hodnoty je průměr,

3) na odhad se můžeme dívat jako na náhodnou veličinu (přestože pro skutečná data obvykle pozorujeme pouze jednu realizaci) a zkoumat tak jeho vlastnosti (sekce 7.3 a 7.4 v [ZAD]).
- Vybrat aktivitu Zpřístupnění domácích úkolů
  
  Zpřístupnění domácích úkolů
- Vybrat aktivitu Komentář - odhady, konfidenční interval
  
  Komentář - odhady, konfidenční interval URL
- Vybrat aktivitu Domácí úkol: konfidenční interval pro pravděpodobnost úspěchu
  
  Domácí úkol: konfidenční interval pro pravděpodobnost úspěchu
Vybrat sekci Týden 3

Sbalit Rozbalit
Týden 3
Téma: náhodný výběr, vlastnosti průměru a výběrového rozptylu, t-rozdělení, konfidenční intervaly.

Zadání: seznamte se s konfidenčními intervaly pro parametry normálního rozdělení podle folií pro třetí týden (komentář je ve videu) a podle sekcí 7.6, 7.7.2, 7.8, 7.9.2 a 7.9.3 z knihy [ZAD] (přeskočené sekce se mi zdají být v této chvíli trochu matoucí). Zajímavé a důležité je, že konfidenční interval pro střední hodnotu normálního rozdělení lze velice dobře použít i pro střední hodnotu (téměř) libovolného jiného rozdělení; to funguje díky centrální limitní větě (samozřejmě jen pokud jsou splněny její předpoklady, například konečný druhý moment).
- Vybrat aktivitu Video: t-rozdělení, konfidenční interval pro střední hodnotu
  
  Video: t-rozdělení, konfidenční interval pro střední hodnotu URL
- Vybrat aktivitu Domácí úkol: konfidenční interval pro střední hodnotu
  
  Domácí úkol: konfidenční interval pro střední hodnotu
Vybrat sekci Týden 4

Sbalit Rozbalit
Týden 4
Téma: konstrukce odhadů pomocí momentové metody a metody maximální věrohodnosti.

Zadání: seznamte se s momentovou metodou a metodou maximální věrohodnosti podle videa a folií, případné nejasnosti si nachystejte na každotýdenní páteční setkání.
- Vybrat aktivitu Video: odhadování (místy trochu zašmodrchané)
  
  Video: odhadování (místy trochu zašmodrchané) URL
- Vybrat aktivitu Odhadování: momenty a věrohodnost
  
  Odhadování: momenty a věrohodnost Úkol
Vybrat sekci Týden 5

Sbalit Rozbalit
Týden 5
- Vybrat aktivitu Velikonoční čtení: konfidenční a jiné intervaly
  
  Velikonoční čtení: konfidenční a jiné intervaly URL
Vybrat sekci Týden 6

Sbalit Rozbalit
Týden 6
Téma: testování hypotéz, p-hodnota, jednovýběrový t-test.

1/ Seznamte se se základními pojmy týkajícími se testování hypotéz (nulová a alternativní hypotézy, testová statistika, kritický obor, p-hodnota, apod.) --- viz video a sekce 8 až 8.7 v [ZAD].

2/ Rozmyslete si odvození jednovýběrového t-testu (video, sekce 8.11 v [ZAD]) a párového t-test (jednovýběrový t-test použití na rozdíly -- lze ale použít, pouze pokud jsou pozorování v párech!)

3/ Samozřejmě lze testovat stejnou hypotézu pomocí jiného testu (například Wilcoxonův test místo t-testu) nebo lze testovat hypotézy o jiných parametrech (viz testování hypotéz o rozptylu).
- Vybrat aktivitu Video: testování hypotéz
  
  Video: testování hypotéz URL
- Vybrat aktivitu Data: vzorek na pneumatikách
  
  Data: vzorek na pneumatikách URL
- Vybrat aktivitu Domácí úkol: testování vzorku pneumatik
  
  Domácí úkol: testování vzorku pneumatik
Vybrat sekci Týden 7

Sbalit Rozbalit
Týden 7
Téma: síla testu, testování hypotéz o shodě středních hodnot ve dvou nezávislých výběrech (dvouvýběrový t-test).

Instrukce: Seznamte se s dvouvýběrovým t-testem podle folií (a videa). Rozmyslete si rozdíl mezi párovým a dvouvýběrovým t-testem (můžete se podívat i na kapitoly 9 a 10 v [ZAD], kde jsou oba testy také podrobně popsané).
- Vybrat aktivitu Video: síla testu, dvouvýběrový t-test
  
  Video: síla testu, dvouvýběrový t-test URL
- Vybrat aktivitu Domácí úkol: párové a dvouvýběrové testy
  
  Domácí úkol: párové a dvouvýběrové testy
Vybrat sekci Týden 8 (23.4.)

Sbalit Rozbalit
Týden 8 (23.4.)
Téma: náhodné vektory (sdružené, podmíněné a marginální rozdělení), počítání s vektory středních hodnot a variančními maticemi.

Seznamte se se základními pojmy podle videa a wikipedie: https://en.wikipedia.org/wiki/Multivariate_random_variable (části 1: Probability distribution, 3: Expected value, 4: Covariance and cross-covariance a 10: Applications). Za dva týdny budeme náhodné vektory potřebovat při výkladu o regresních modelech (tak jak je to naznačené na wikipedii v části 10: Applications | Regression theory).
- Vybrat aktivitu Video: náhodné vektory
  
  Video: náhodné vektory URL
- Vybrat aktivitu Domácí úkol: náhodné vektory, varianční matice
  
  Domácí úkol: náhodné vektory, varianční matice
Vybrat sekci Týden 9

Sbalit Rozbalit
Týden 9
Téma: mnohorozměrná data, Mahalanobisova transformace, metoda hlavních komponent.

Rozmyslete si základní popisné statistiky (vektor průměrů, výběrová varianční matice) a grafická znázornění (matice scatterplotů, grafy s paralelními osami, hlavní komponenty) mnohorozměrných dat.
- Vybrat aktivitu Video: datové matice
  
  Video: datové matice URL
- Vybrat aktivitu Data: policie
  
  Data: policie URL
- Vybrat aktivitu Domácí úkol: popis mnohorozměrných dat
  
  Domácí úkol: popis mnohorozměrných dat
- Vybrat aktivitu Video (zajímavost pro fyziky a informatiky): prastarý statistický hardware
  
  Video (zajímavost pro fyziky a informatiky): prastarý statistický hardware URL
- Vybrat aktivitu Video (zajímavost): starý statistický software
  
  Video (zajímavost): starý statistický software URL
Vybrat sekci Týden 10

Sbalit Rozbalit
Týden 10
Téma: lineární regrese s jedním prediktorem.

1/ Seznamte se s lineárním regresním modelem podle kapitoly 10 v knize Statistická analýza závislostí s příklady v R (login a heslo jsou stejné jako u ostatních materiálů).

2/ Vyzkoušejte popsané metody například na datech "women", zkuste příkazy "data(women);plot(women);abline(lm(weight~height,data=women))" a porovnejte výsledný obrázek s výstupem příkazu "lm(weight~height,data=women)" a "summary(lm(weight~height,data=women))" -- rozmyslete si, která čísla jsou odhady regresních parametrů a jaký je jejich význam (další zajímavá čísla jsou odhady směrodatné odchylky těchto odhadů a testy nulovosti jednotlivých parametrů).

3/ Zkuste porovnat model přímky s modelem paraboly například pomocí: "plot(women);lines(fitted(lm(weight~height+I(height^2),data=women))~women$height,col="red")", rozmyslete si přitom význam všech čísel ve výstupu funkce "summary(lm(weight~height+I(height^2),data=women))".

Poznámka: výklad ve foliích sleduje spíše knihu [Karel Zvára: Regrese, Matfyzpress, 2008], kde můžete najít pečlivé odvození všech odhadů i testů pomocí přístupu, který se na lineární regresi dívá jako na "projekci závislé proměnné do lineárního prostoru generovaného sloupci matice vysvětlujících proměnných".

Domácí úkol bude následovat až příští týden, po výkladu o ověřování předpokladů.
Vybrat sekci Týden 11

Sbalit Rozbalit
Týden 11
Téma: ověřování předpokladů v regresi (rezidua).

1/ Seznamte se se základy ověřování předpokladů v lineárním regresním modelu podle videa (stručně) a podle kapitoly 11 v knize Statistická analýza závislostí s příklady v R (podrobněji).

2/ Ještě podrobněji (a více matematicky) je ověřování předpokladů rozebráno v knize [Zvára: Regrese, Matfyzpress], kterou lze doporučit pro hlubší studium. Kromě různých typů reziduí (pomocí kterých se ověřují například předpokladu o tvaru závislosti a konstantnosti rozptylu) jsou velice zajímavé i metody detekce vlivných pozorování (která mohou porušení předpokladů maskovat a se kterými se seznámíme za dva týdny).
- Vybrat aktivitu Video: lineární regrese (předpoklady a jejich ověřování)
  
  Video: lineární regrese (předpoklady a jejich ověřování) URL
- Vybrat aktivitu Úkol: lineární regrese pro policii
  
  Úkol: lineární regrese pro policii
Vybrat sekci Týden 12

Sbalit Rozbalit
Týden 12
Téma: vícenásobná regrese.

Seznamte se s vícenásobnou regresí (tj. s lineární regresí s více vysvětlujícími proměnnými) podle kapitoly 12 v knize Statistická analýza závislostí s příklady v R (login/heslo = multi/variate). Důležitá je především:
1/ Interpretace směrnic (tj. regresních koeficientů) na straně 230.
2/ Testy nulovosti jednotlivých regresních koeficientů (str. 234 nahoře) a test nulovosti všech regresních koeficientů (tj. test hypotézy, že střední hodnota závisle proměnné nezávisí na vysvětlujících proměnných, "Regresní analýza rozptylu" na str. 234). Důležité je vědět, kde se tyto testy najdou v tabulce shrnující výsledky regresní analýzy (příklad na str. 234 dole). Poznámka: snadno lze testovat i hypotézy o lineárních kombinacích regresních koeficientů (které nás také někdy zajímají) --- to je popsané např. ve foliích k přednášce.
3/ Ověřování předpokladů funguje podobně jako v jednoduché regresi (tj. obvykle pomocí reziduí), ale je komplikovanější kvůli většímu počtu vysvětlujících proměnných (které mezi sebou mohou navíc různě záviset). Rezidua mohou být navíc ovlivněna vlivnými pozorováními, se kterými se seznámíme příští týden.
4/ Zábavná je sekce 12.5 (kvalitativní prediktor v modelu), která pomocí nula-jedničkových proměnných (které kódují hodnoty faktorové/kvalitativní proměnné) umožňuje snadno odhadovat zajímavé modely -- to je užitečné hlavně ve spojitosti s interakcemi v sekci 12.7.2, kde je pak možné odhadovat více regresních přímek najednou (tj. v jednom regresním modelu) a jednoduše testovat např. jestli mají všechny přímky stejný sklon nebo jestli jsou všechny přímky shodné (pomocí testu nulovosti příslušných regresních koeficientů - viz také obrázek 12.9 na straně 256).
5/ Podívejte se znovu na data police.txt a prozkoumejte výstup příkazů model1<-lm(react~height*weight+pulse,data=police); print(model1); summary(model1) --- rozmyslete si přitom význam jednotlivých čísel v počítačovém výstupu (hvězdička v příkazu lm() přidá do modelu i interakci váhy a výšky). Grafy různých typů reziduí (a dalších charakteristik) nejsnadněji získáte použitím príkazu plot(model1).

Výklad v knize [Zvára: Regrese, Matfzypress] obsahuje podrobná odvození i důkazy, ale je organizovaná jiným způsobem -- testování různých hypotéz a odhadování parametrů v lineární regresi je popsané v prvních dvou kapitolách, následuje několik příkladů (kapitola 4 a 6), ověřování předpokladů (kapitoly 7 až 9), praktické postupy použitelné při sestavování modelu (kapitola 10), klasické postupy pro řešení problémů způsobené korelovanými vysvětlujícími proměnnými (kapitola 11), modely pro nula-jedničkové závislé proměnné (kapitola 11) a nelineární regrese (kapitoly 13 až 15).
- Vybrat aktivitu Video: mnohonásobná regrese
  
  Video: mnohonásobná regrese URL
Vybrat sekci Týden 13

Sbalit Rozbalit
Týden 13
Téma: testování podmodelu, vlivná pozorování a multikolinearita.

1/ Seznamte se s různými charakteristikami určenými pro detekci vlivných pozorování (tj. pozorováními, která významně ovlivňují odhady různých charakteristik regresního modelu): stručný přehled najdete ve foliích na str. 151 až 153 a komentář na videu. Podrobnější popis je v knize Zvára: Regrese, sekce 8.3 a 8.4 (login a heslo stejné jako u předchozích materiálů) --- samozřejmě se nemusíte učit vzorečky, ale měli byste rozumět základním principům (které jsou zde založené na změnách způsobených vynecháním některého pozorování). Uvědomte si, že rezidua nejsou k detekci vlivných pozorování vhodná, protože vlivná pozorování příslušná rezidua obvykle výrazně snižují.

2/ Korelace mezi vysvětlujícími proměnnými (tj. multikolinearita) mohou výrazně zvyšovat rozptyl příslušných regresních odhadů (a to pak může způsobit například chybné nezamítnutí hypotézy o nulovosti příslušného regresního koeficientu): metody detekce multikolinearity jsou popsané na foliích 156 až 158. Stručný přehled nejčastějších praktických problémů a vybrané možnosti jejich řešení najdete na folii 159.
- Vybrat aktivitu Video: vlivná pozorování, multikolinearita, testování parametrů a podmodelu
  
  Video: vlivná pozorování, multikolinearita, testování parametrů a podmodelu URL
- Vybrat aktivitu Regresní model pro reakční dobu
  
  Regresní model pro reakční dobu Úkol
Vybrat sekci Týden 14

Sbalit Rozbalit
Týden 14
Téma: kontingenční tabulky a logistická regrese - základní metody statistické analýzy kategoriálních dat

1/ Test nezávislosti v kontingenční tabulce umožňuje jednoduše prokázat závislost mezi dvěma faktorovýmí (nominálními, kategorickými) proměnnými. Test je popsán na foliích 188 až 194 a vlastně si stačí uvědomit, že testová statistika jenom porovnává pozorované četnosti (X) s četnostmi, které očekáváme za předpokladu nezávislosti (E); nezávislost zde v podstatě znamená jenom to, že sdružená pravděpodobnost je součinem marginálních pravděpodobností, tj. "p_{ij}=p_i p_j".

2/ Zobecněním lineární regrese pro nula-jedničkové závislé proměnné je logistická regrese (viz folie 195 až 208). Stejně jako u lineární regrese jde o model pro střední hodnotu závisle proměnné (tato střední hodnota se rovná pravděpodobnosti úspěchu - viz definice alternativního rozdělení), ale kvůli omezení těchto středních hodnot do intervalu (0,1) je vztah mezi hledanou lineární kombinací sloupců matice vysvětlujících proměnných (X) a modelovanou střední hodnotou (tj. odpovídající podmíněnou pravděpodobností úspěchu) nelineárně transformován tzv. logistickou transformací (která umožňuje interpretovat regresní koeficienty jako logaritmické poměry šancí).

3/ Odhadnutý model logistické regrese umožňuje snadno spočítat odhad pravděpodobnosti úspěchu (například pravděpodobnosti úspěšného dokončení studia) při znalosti zvolených vysvětlujících proměnných (např. věk, pohlaví, apod.) --- tato metoda se tedy často a úspěšně používá pro klasifikaci (například klientů v bankách). V porovnání např. s neuronovými sítěmi je přitom hned vidět, jestli odhadnuté regresní koeficienty odpovídají našim očekáváním, tj. jestli jednotlivé vysvětlující proměnné pravděpodobnost úspěchu snižují nebo zvyšují.

Dva úkoly: Rozmyslete si počítačový výstup na folii 194 (test nezávislosti v kontingenční tabulce) a na folii 205 (logistická regrese: je vliv lwt na Birthwt statisticky signifikantní?)