Mnohorozměrná analýza
Section outline
-
Výuka bude zahájena v úterý 2.3. v 15:40 setkáním a úmluvou na ZOOMu.
-
Knihu lze nalézt na portálu e-knih, při připojení přes univerzitu je kniha volně přístupná na https://link.springer.com/book/10.1007%2F978-3-662-45171-7
-
Data lze stáhnout ve formátu ZIP, ale praktičtější a jednodušší je nainstalovat si knihovnu SMSdata pomocí následujících příkazů:
Linux, Mac: install.packages(pkgs="http://www.karlin.mff.cuni.cz/~hlavka/sms2/SMSdata_1.0.tar.gz", repos=NULL, type="source")
Windows: download.file("http://www.karlin.mff.cuni.cz/~hlavka/sms2/SMSdata_1.0.zip","SMSdata.zip"); install.packages(pkgs="SMSdata.zip",repos=NULL, type="source")
-
Přednáška: mnohorozměrná data, grafické metody, popisná statistika.
Přednáška bude zahájena podle rozvrhu (v úterý 2.3. v 15:40) krátkým setkáním na ZOOMu.
Úkoly na první týden (samostudium):
1/ seznámit se s kapitolou 1 v knize HS [Haerdle, Simar: Applied Multivariate Statistical Analysis],
2/ připomenout si základní pojmy týkající se maticové algebry (zhruba podle kapitoly 2 v HS).
Kromě HS budeme používat i knihy MKB [Mardia, Kent, Bibby: Multivariate Analysis, Academic Press], MASS [Venables, Ripley: Modern Applied Statistics with S, Springer] a BCMR [Bouveyron et al: Model-based Clustering and Classification for Data Science] --- ty bohužel nejsou přístupné přes univerzitní "portál e-knih", ale můžete si je už teď zkusit někde vypůjčit.
V dalších týdnech plánuji nahrávat stručná videa doplněná instrukcemi k samostudiu podle zadané literatury. V případě potřeby lze domluvit i konzultace přes ZOOM.
------------------------------------------------------------------------------------------------------------
Cvičení: mnohorozměrná data, vizualizace pomoci grafických nástrojů v R
Cvičenie k bude zahájené podľa rozvrhu, t.j. v utorok, 02.03.2021 (podľa rozvrhu od 9:00 v posluchárni K11).
Vzhľadom k pandemickej situácii začne výuka v režime online: každy týždeň (až kým to situácia nedovolí)
bude na mojej webovej stránke zverejnený výukovy skript (HTML Markdown) s aktuálnou látkou určenou pre daný týždeň.Úlohou študentov je zverejnený HTML Markdown samostatne prejsť pomocou programu R, pochopiť implementáciu použitých metód v programe R, porozumieť príkazom a vypracovať jednotlivé úlohy zadané v skripte.
Na nepravidelnej báze - t.j., cca raz za 2-3 týždne (a kedykoľvek na explicitne vyžiadanie) bude k dispozícii online ZOOM sekcia
určená pre dotazky/komentáre/otázky/problémy zo strany študentov. -
Téma: matice, vlastní čísla a vlastní vektory, kvadratické formy
Instrukce: Zopakujte si základní pojmy z maticové algebry pomocí kapitoly 2 v knize HS, shrnutí nejdůležitějších vlastností vlastních čísel a vektorů najdete i ve videu.
Téma: náhodné vektory, podmíněná a marginální rozdělení.
Instrukce: Připomeňte si základní vlastnosti náhodných vektorů zhruba podle sekcí 2.1 a 2.2 v MKB nebo podle sekcí 4.1 a 4.2 v HS, krátký komentář k foliím najdete i ve videu o náhodných vektorech.
ZOOM v úterý v 15:40: diskuse o domácích úkolech (odkaz bude rozeslán emailem ze SISu)
-
Téma: mnohorozměrné normální rozdělení.
Seznamte se se základními vlastnostmi mnohorozměrného normálního rozdělení (folie, [MKB 3.1, 3.2] nebo [HS, 5.1]):
1) Marginální i podmíněná rozdělení jsou (mnohorozměrná) normální, výpočet parametrů podmíněného rozdělení (zejména podmíněné střední hodnoty) souvisí s lineární regresí.
2) Nulová kovariance odpovídá nezávislosti.
3) Lineární transformace mají opět mnohorozměrné normální rozdělení.
-
Téma: datové matice, Wishartovo a Hotellingovo rozdělení, testování hypotéz o střední hodnotě (jednovýběrový a dvouvýběrový test).
Instrukce: Seznamte se s Wishartovým a Hotellingovým rozdělením a rozmyslete si odvození testů o mnohorozměrné střední hodnotě (viz video a folie, sekce 3.3 až 3.6 v [MKB]); v R jsou tyto mnohorozměrné testy implementované například ve funkci HotellingsT2Test() v knihovně DescTools.
Samostatně se seznamte s Wilksovým lambda definovaným v sekci 3.7 v [MKB], které se často objevuje při testování poměrem věrohodností (viz komentář za definicí 3.7.1).
-
Téma: maximální věrohodnost, testy poměrem věrohodností.
Instrukce:
1/ Seznamte se s první částí folií pro ``Week 5'', tj. s metodou maximální věrohodnosti a jejím použitím na odhadování parametrů mnohorozměrného normálního rozdělení (maticová algebra ze začátku kapitoly 5 ve foliích - tj. např. derivování determinantu - se využívá při derivování logaritmické věrohodnostní funkce). Uvědomte si, že uvedená logaritmická věrohodnost (folie 148 a vzorec (4.1.9) v [MKB]) bude následně velmi důležitá i při testování hypotéz (zejména přio odvozování testů poměrem věrohodností).
2/ Jako doplňující materiál si pozorně přečtěte kapitolu 4 z knihy MKB (část 4.3 je vhodná spíš pro doplnění kontextu a nemusíte ji studovat tak podrobně).
3/ K testování hypotéz si přečtěte sekci 5.1 a 5.2.1 v [MKB]. Odvození dalších testů o parametrech mnohorozměrného normálního rozdělení (jednovýběrových i k-výběrových) najdete v sekci 5.3. V této chvíli jde hlavně o princip, k testování poměrem věrohodností se podle potřeby ještě budeme vracet (při testování hypotéz souvisejících s některými mnohorozměrnými metodami).
-
Téma: metoda hlavních komponent: odvození a teoretické vlastnosti.
Seznamte se s teoretickým základem (odvozením) metody hlavních komponent podle videa a sekce 8.2.1 v [MKB] (pracuje se zde s náhodnými vektory a jejich teoretickými variančními maticemi). Přečtěte si také sekci 8.6, kde se pojednává o časté interpretaci hlavních komponent.
Praktickým použitím metody hlavních komponent (s odhady založenými na výběrové varianční matici -- viz [MKB] od sekce 8.2.2) se budeme zabývat přístí týden.
-
Téma: metoda hlavních komponent: praktické použití, interpretace.
Instrukce: Seznamte se s metodou hlavních komponent. To nejdůležitější by mělo být řečeno ve videu, případné nejasnosti můžete konzultovat i s kapitolou "Principal Components Analysis" v [HS] --- zde si určitě přečtěte alespoň úvodní stránku a příklad 10.6 (Example 10.6, použití hlavních komponent na French Food Data). V [MKB] si přečtěte hezký příklad interpretace hlavních komponent v příkladu 8.2.6.
Na výběrové hlavní komponenty (odhadnuté z výběrové varianční nebo korelační matice) se můžeme dívat jako na odhad skutečných hlavních komponent (spočítaných z teoretické varianční nebo korelační matice): v [MKB] můžete v sekci 8.3 najít odvození asymptotického rozdělení výběrových vlastních čísel a vlastních vektorů za předpokladu normality (Theorem 8.3.3), v sekci 8.4.3 je pak popsán test hypotézy, kterou lze interpretovat jako "nezajímavost posledních k hlavních komponent".
-
Téma: faktorová analýza: odhady parametrů, testování souvisejících hypotéz, metoda varimax.
Instrukce: Seznamte se s faktorovou analýzou podle videa, folií a kapitoly 12 v [HS] a rozmyslete si význam všech nově definovaných pojmů. Dávejte si pozor, kdy se mluví o náhodných vektorech a kdy o datových maticích a rozmyslete si nejednoznačnost řešení zejména vůči změně měřítka (díky tomu stačí zkoumat korelační matice) a rotacím (což v jistých mezích dovoluje změnit interpretaci faktorů). Rozmyslete si rozdíly oproti metodě hlavních komponent.
Pokuste se získat přístup ke knize Venables, Ripley: Modern Applied Statistics with S [MASS] (dá se vypůjčit v knihovně nebo najít a stáhnout pomocí scholar.google.com -- mně se to podařilo například na https://www.pacificclimate.org/~wernera/RIntermediate/RAdvanced/modern_applied_statistics_with_s_192.pdf) a přečtěte si sekci 11.3 (Factor Analysis), kde jsou okomentované i souvislosti s hlavními a nezávislými komponentami.
-
Téma: matice vzdáleností, mnohorozměrné škálování.
1/ Seznamte se s různými vzdálenostmi a mírami podobnosti mezi pozorováními (řádky datové matice) podle knihy MKB, sekce 13.4. Vzdálenosti mezi řádky datové matice lze v R snadno spočítat (na číselné vektory nejsnadněji pomocí funkce dist()).
2/ Opačný postup, tedy určení konfigurace bodů, která odpovídá zadané matici vzdáleností najdete v kapitole 17 v HS nebo v sekcích 14.1 až 14.6 v MKB. Výklad v obou knihách je podobný a cílem je postupně objasnit:
2a/ Postup pro určení, zda může zadaná symetrická matice obsahovat Euklidovské vzdálenosti mezi nějakými body (to se nejsnadněji ukáže tak, že se pokusíme nalézt množinu bodů, která těmto vzdálenostem odpovídá).
2b/ V obou knihách je pro hledání "konfigurace bodů, které odpovídají zadané matici euklidovských vzdáleností" uveden stejný postup založený na vlastních číslech a vlastních vektorech matice "B" -- vzhledem k nejednoznačnosti řešení vede metoda mnohorozměrného škálování (multidimensional scaling) na hlavní komponenty hledaných dat. V R lze použít funkci cmdscale().
2c/ Pro neeuklidovské matice vzdáleností lze použít funkci isoMDS(), která předpokládá, že zadané vzdálenosti jsou pouze rostoucí transformací euklidovských vzdálenosti hledaných bodů a řešení (vhodnou konfiguraci bodů v p-rozměrném euklidovském prostoru) hledá pomocí iterativního Shepard-Kruskalova algoritmu.
-
Téma: shluková analýza, hierarchické metody.
Seznamte se se shlukovou analýzou podle videa (okomentované folie týkající se především aglomerativních algoritmů) a zejména podle sekce 11.2 v knize [MASS] (kde jsou s nadhledem okomentované i další algoritmy, například "kmeans" nebo "mclust").
-
Téma: diskriminační analýza.
1/ Přečtěte si pozorně sekci 12.1 "Discriminant Analysis" v kapitole "Classification" [MASS]: všimněte si, že dvě zásadní metody jsou "Fisherova LDA" a "přístup založený na věrohodnosti" (zde stručně popsán pro normální rozdělení). Zajímavé je, že obě metody mohou vést ke stejnému řešení (pro dvě skupiny a normální rozdělení se stejnou varianční maticí). Fisherova LDA a ML/Bayesovská věrohodnostní pravidla jsou podrobně popsané i v knize [HS] (kapitola "Discriminant Analysis"), ale zde se mi výklad zdá být o něco rozvláčnější a autoři méně vysvětlují souvislosti s jinými metodami.
2/ Rozmyslete si i obsah sekce 12.2 "Classification Theory" v [MASS] (zejména pravděpodobnosti chybné klasifikace) a podívat se můžete i na sekce 12.3 až 12.7 (zde se komentují hlavně metody typu černých skříněk, např. SVM nebo neuronové sítě).
3/ Na metody založené na věrohodnosti a na Bayesovském přístupu navážeme přístí týden výkladem o metodách založených na směsových modelech.
-
Téma: směsové modely (moderní přístup ke shlukování a diskriminaci).
Tento týden budeme používat knihu Bouveyron, Celeux, Murphy, Raftery: Model-based Clustering and Classification for Data Science, Cambridge University Press, 2019 [BCMR19].
Instrukce:
1/ Přečtěte si prvních 22 stránek z knihy [BCMR19].
2/ Rozmyslete si, které příklady (v sekci 1.3) vedou na shlukování a které na diskriminační analýzu. Které příklady už umíte vyřešit pomocí klasických metod (tj. pomocí posledních tří přednášek)?
3/ Rozmyslete si souvislosti modelů z tabulky 2.1 s mnohorozměrným normálním rozdělením a s metodou hlavních komponent (která by zde musela být použitá zvlášť na každou "mixture component"). Rozumíte odvození počtu parametrů v tabulce 2.2?Kniha se dále zabývá odhadováním parametrů (nejčastěji pomocí iterativního EM algoritmu, se kterým se můžete seznámit i na wikipedii; volba počátečních hodnot je přitom obvykle založena na "obyčejných" shlukovacích algoritmech z předminulého týdne), metodami volby počtu shluků (pomocí vhodných kritérií), odlehlými pozorováními, klasifikací (která je ve směsových modelech přímočará) a dalšími typy dat (např. sítěmi nebo textovými, funkcionálními a obrazovými pozorováními).
Pro zajímavost: odhady parametrů založené na Bayesovském přístupu (metodách MCMC) jsou implementované například v knihovně mixAK (https://cran.r-project.org/web/packages/mixAK/index.html).
-
Téma: kanonické korelace, korespondenční analýza, SIR.
1/ Kanonické korelace. Seznamte se s metodou kanonických korelací (která umožňuje zkoumat závislosti mezi dvěma náhodnými vektory) podle kapitoly 16 v knize [HS]. Rozmyslete si pojmy `kanonické korelační vektory' (koeficienty hledaných lineárních kombinací), `kanonické korelační proměnné' (výsledné lineární kombinace maximalizující korelaci) a `kanonické korelační koeficienty' a rozmyslete si větu 16.2. V R se podívejte na nápovědu k funkci cancor() v knihovně stats, spusťte příklad a zkuste interpretovat výsledky.
2/ Korespondenční analýza zkoumá závislosti mezi řádky a sloupci v kontingenční tabulce. Metoda je založená na SVD rozkladu testové statistiky chí-kvadrát testu nezávislosti - viz vzorec (15.11) v [HS]. Nemusíte procházet všechna odvození, ale rozmyslete si alespoň význam získaných vektorů r_k a s_k a jejich vztah k výchozí kontingenční tabulce: Co znázorňují body na obrázcích 15.1 a 15.2 v [HS]? V R se podívejte na nápovědu k funkci ca() v knihovně ca, spusťte příklad `haireye' a zkuste interpretovat výsledky (tato knihovna ale používá jinou standardizaci a tak výsledky nemusí přesně odpovídat vzorcům uvedeným v [HS:AMSA]).
3/ Sliced inverse regression hledá lineární kombinace vysvětlujících proměnných, které `nejlépe' vysvětlují zvolenou závisle proměnnou (i při nelineární závislosti a použití neparametrických regresních odhadů). Základní popis najdete v [HS, 20.3], ale v této chvíli nejspíš stačí vědět, že podobné metody existují a jsou implementované ve funkci dr() v knihovně dr (dimension reduction). Rozmyslete si, proč by tato metoda měla v praxi fungovat lépe, než někdy doporučovaná regrese na hlavních komponentách. -
Téma: kopula a hloubka dat, jádrové odhady hustoty a metoda projection pursuit.
1/ Hloubka dat se pokouší zobecnit pojem kvantilu (který je základem při testování i konstrukci konfidenčních intervalů, ale je přirozeně definován pouze pro jednorozměrné náhodné veličiny) i pro mnohorozměrná rozdělení. Hezký úvod do tématu najdete v přehledovém (popularizačním) článku doc. Hlubinky (stačí si přečíst str. 97 až 125, tj. sekce 1 až 3).
2/ Zajímavé projekce mnohorozměrných dat umožňuje prozkoumat knihovna tourr --- na tyto metody se lze dívat jako na zobecnění metody hlavních komponent (hledané projekce zde pouze maximalizují jiné `míry zajímavosti'). Zkuste knihovnu tourr nainstalovat, spusťte a rozmyslete si příklady na str. 3.
3/ Ve foliích dále najdete základní informace o kopulích (které flexibilně modelují závislosti mezi náhodnými veličinami) a o analýze směrových dat (kde pozorování leží například na povrchu kružnice nebo jednotkové koule).