Курс: Mnohorozměrná analýza

Mnohorozměrná analýza

Свернуть всё Развернуть всё

Select activity Oznámení

Oznámení Форум
Select activity Folie k přednášce.

Folie k přednášce. Гиперссылка
Select activity Portál e-knih: Haerdle, Simar: Applied Multivariate Statistical Analysis

Portál e-knih: Haerdle, Simar: Applied Multivariate Statistical Analysis Гиперссылка

Knihu lze nalézt na portálu e-knih, při připojení přes univerzitu je kniha volně přístupná na https://link.springer.com/book/10.1007%2F978-3-662-45171-7
Select activity Datové soubory

Datové soubory Гиперссылка

Data lze stáhnout ve formátu ZIP, ale praktičtější a jednodušší je nainstalovat si knihovnu SMSdata pomocí následujících příkazů:
Linux, Mac: install.packages(pkgs="http://www.karlin.mff.cuni.cz/~hlavka/sms2/SMSdata_1.0.tar.gz", repos=NULL, type="source")
Windows: download.file("http://www.karlin.mff.cuni.cz/~hlavka/sms2/SMSdata_1.0.zip","SMSdata.zip"); install.packages(pkgs="SMSdata.zip",repos=NULL, type="source")
Select activity Podmienky pro zápočet

Podmienky pro zápočet Файл
Select activity Domácí úkoly

Domácí úkoly Рабочая тетрадь

Týden 1 (2.3.)

Přednáška: mnohorozměrná data, grafické metody, popisná statistika.

Přednáška bude zahájena podle rozvrhu (v úterý 2.3. v 15:40) krátkým setkáním na ZOOMu.

Úkoly na první týden (samostudium):

1/ seznámit se s kapitolou 1 v knize HS [Haerdle, Simar: Applied Multivariate Statistical Analysis],

2/ připomenout si základní pojmy týkající se maticové algebry (zhruba podle kapitoly 2 v HS).

Kromě HS budeme používat i knihy MKB [Mardia, Kent, Bibby: Multivariate Analysis, Academic Press], MASS [Venables, Ripley: Modern Applied Statistics with S, Springer] a BCMR [Bouveyron et al: Model-based Clustering and Classification for Data Science] --- ty bohužel nejsou přístupné přes univerzitní "portál e-knih", ale můžete si je už teď zkusit někde vypůjčit.

V dalších týdnech plánuji nahrávat stručná videa doplněná instrukcemi k samostudiu podle zadané literatury. V případě potřeby lze domluvit i konzultace přes ZOOM.

------------------------------------------------------------------------------------------------------------

Cvičení: mnohorozměrná data, vizualizace pomoci grafických nástrojů v R

Cvičenie k bude zahájené podľa rozvrhu, t.j. v utorok, 02.03.2021 (podľa rozvrhu od 9:00 v posluchárni K11).
Vzhľadom k pandemickej situácii začne výuka v režime online: každy týždeň (až kým to situácia nedovolí)
bude na mojej webovej stránke zverejnený výukovy skript (HTML Markdown) s aktuálnou látkou určenou pre daný týždeň.

Úlohou študentov je zverejnený HTML Markdown samostatne prejsť pomocou programu R, pochopiť implementáciu použitých metód v programe R, porozumieť príkazom a vypracovať jednotlivé úlohy zadané v skripte.

Na nepravidelnej báze - t.j., cca raz za 2-3 týždne (a kedykoľvek na explicitne vyžiadanie) bude k dispozícii online ZOOM sekcia
určená pre dotazky/komentáre/otázky/problémy zo strany študentov.

Select activity HTML Markdown | Vizualizácia mnohorozmerných dat v programe R

HTML Markdown | Vizualizácia mnohorozmerných dat v programe R Гиперссылка
Select activity Fórum pro dotazy/otázky

Fórum pro dotazy/otázky Форум

Týden 2 (9.3.)

Téma: matice, vlastní čísla a vlastní vektory, kvadratické formy

Instrukce: Zopakujte si základní pojmy z maticové algebry pomocí kapitoly 2 v knize HS, shrnutí nejdůležitějších vlastností vlastních čísel a vektorů najdete i ve videu.

Téma: náhodné vektory, podmíněná a marginální rozdělení.

Instrukce: Připomeňte si základní vlastnosti náhodných vektorů zhruba podle sekcí 2.1 a 2.2 v MKB nebo podle sekcí 4.1 a 4.2 v HS, krátký komentář k foliím najdete i ve videu o náhodných vektorech.

ZOOM v úterý v 15:40: diskuse o domácích úkolech (odkaz bude rozeslán emailem ze SISu)

Select activity Video: vlastní čísla a vlastní vektory

Video: vlastní čísla a vlastní vektory Гиперссылка
Select activity Video: náhodné vektory

Video: náhodné vektory Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: náhodné vektory, združené, marginálne a podmienené rozdelnia
Select activity HTML Markdown ) Náhodné vektory, združené, marginálne a podmienené rozdelenia

HTML Markdown ) Náhodné vektory, združené, marginálne a podmienené rozdelenia Гиперссылка
Select activity Fórum pro dotazy/otázky

Fórum pro dotazy/otázky Форум

Týden 3 (16.3.)

Téma: mnohorozměrné normální rozdělení.

Seznamte se se základními vlastnostmi mnohorozměrného normálního rozdělení (folie, [MKB 3.1, 3.2] nebo [HS, 5.1]):

1) Marginální i podmíněná rozdělení jsou (mnohorozměrná) normální, výpočet parametrů podmíněného rozdělení (zejména podmíněné střední hodnoty) souvisí s lineární regresí.

2) Nulová kovariance odpovídá nezávislosti.

3) Lineární transformace mají opět mnohorozměrné normální rozdělení.

Select activity Video: mnohorozměrné normální rozdělení

Video: mnohorozměrné normální rozdělení Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: mnohorozmerné normálne rozdelenia: združené, marginálne a podmienené;
Select activity HTML Markdown | Mnohorozmerné normálne rozdelenia: združené, marginálne a podmienené

HTML Markdown | Mnohorozmerné normálne rozdelenia: združené, marginálne a podmienené Гиперссылка
Select activity Fórum pro dotazy/otázky

Fórum pro dotazy/otázky Форум

Týden 4 (23.3.)

Téma: datové matice, Wishartovo a Hotellingovo rozdělení, testování hypotéz o střední hodnotě (jednovýběrový a dvouvýběrový test).

Instrukce: Seznamte se s Wishartovým a Hotellingovým rozdělením a rozmyslete si odvození testů o mnohorozměrné střední hodnotě (viz video a folie, sekce 3.3 až 3.6 v [MKB]); v R jsou tyto mnohorozměrné testy implementované například ve funkci HotellingsT2Test() v knihovně DescTools.

Samostatně se seznamte s Wilksovým lambda definovaným v sekci 3.7 v [MKB], které se často objevuje při testování poměrem věrohodností (viz komentář za definicí 3.7.1).

Select activity Video: normální datové matice, testy o mnohorozměrné střední hodnotě

Video: normální datové matice, testy o mnohorozměrné střední hodnotě Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Wishartovo, Hotellingovo a Wilk Lambda rozdělení;
Select activity HTML Markdown | Wishartove, Hotellingove a Wilk Lambda rozdelenie

HTML Markdown | Wishartove, Hotellingove a Wilk Lambda rozdelenie Гиперссылка

Týden 5 (30.3.)

Téma: maximální věrohodnost, testy poměrem věrohodností.

Instrukce:

1/ Seznamte se s první částí folií pro ``Week 5'', tj. s metodou maximální věrohodnosti a jejím použitím na odhadování parametrů mnohorozměrného normálního rozdělení (maticová algebra ze začátku kapitoly 5 ve foliích - tj. např. derivování determinantu - se využívá při derivování logaritmické věrohodnostní funkce). Uvědomte si, že uvedená logaritmická věrohodnost (folie 148 a vzorec (4.1.9) v [MKB]) bude následně velmi důležitá i při testování hypotéz (zejména přio odvozování testů poměrem věrohodností).

2/ Jako doplňující materiál si pozorně přečtěte kapitolu 4 z knihy MKB (část 4.3 je vhodná spíš pro doplnění kontextu a nemusíte ji studovat tak podrobně).

3/ K testování hypotéz si přečtěte sekci 5.1 a 5.2.1 v [MKB]. Odvození dalších testů o parametrech mnohorozměrného normálního rozdělení (jednovýběrových i k-výběrových) najdete v sekci 5.3. V této chvíli jde hlavně o princip, k testování poměrem věrohodností se podle potřeby ještě budeme vracet (při testování hypotéz souvisejících s některými mnohorozměrnými metodami).

Select activity Věrohodnost: odhady a testování

Věrohodnost: odhady a testování Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Metóda maximálnej vierohodnosti pre mnohorozmerný parameter, testy pomerom vierohodnosti;
Select activity HTML Markdown | Metóda maximálnej vierohodnosti pre mnohorozmerný parameter

HTML Markdown | Metóda maximálnej vierohodnosti pre mnohorozmerný parameter Гиперссылка
Select activity Teoretické cvičenia / riečenie vybraných príkladov

Teoretické cvičenia / riečenie vybraných príkladov Файл

Týden 6 (6.4.)

Téma: metoda hlavních komponent: odvození a teoretické vlastnosti.

Seznamte se s teoretickým základem (odvozením) metody hlavních komponent podle videa a sekce 8.2.1 v [MKB] (pracuje se zde s náhodnými vektory a jejich teoretickými variančními maticemi). Přečtěte si také sekci 8.6, kde se pojednává o časté interpretaci hlavních komponent.

Praktickým použitím metody hlavních komponent (s odhady založenými na výběrové varianční matici -- viz [MKB] od sekce 8.2.2) se budeme zabývat přístí týden.

Select activity Video: hlavní komponenty (teoretický úvod)

Video: hlavní komponenty (teoretický úvod) Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Metóda hlavných komponent / teoretické aspekty
Select activity HTML Markdown | Metóda hlavných komponent

HTML Markdown | Metóda hlavných komponent Гиперссылка

Týden 7 (13.4.)

Téma: metoda hlavních komponent: praktické použití, interpretace.

Instrukce: Seznamte se s metodou hlavních komponent. To nejdůležitější by mělo být řečeno ve videu, případné nejasnosti můžete konzultovat i s kapitolou "Principal Components Analysis" v [HS] --- zde si určitě přečtěte alespoň úvodní stránku a příklad 10.6 (Example 10.6, použití hlavních komponent na French Food Data). V [MKB] si přečtěte hezký příklad interpretace hlavních komponent v příkladu 8.2.6.

Na výběrové hlavní komponenty (odhadnuté z výběrové varianční nebo korelační matice) se můžeme dívat jako na odhad skutečných hlavních komponent (spočítaných z teoretické varianční nebo korelační matice): v [MKB] můžete v sekci 8.3 najít odvození asymptotického rozdělení výběrových vlastních čísel a vlastních vektorů za předpokladu normality (Theorem 8.3.3), v sekci 8.4.3 je pak popsán test hypotézy, kterou lze interpretovat jako "nezajímavost posledních k hlavních komponent".

Select activity Video: hlavní komponenty (prakticky)

Video: hlavní komponenty (prakticky) Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Metóda hlavných komponent / aplikačné aspekty
Select activity HTML Markdown | Metóda hlavných komponent / aplikačná časť

HTML Markdown | Metóda hlavných komponent / aplikačná časť Гиперссылка

Týden 8 (20.4.)

Téma: faktorová analýza: odhady parametrů, testování souvisejících hypotéz, metoda varimax.

Instrukce: Seznamte se s faktorovou analýzou podle videa, folií a kapitoly 12 v [HS] a rozmyslete si význam všech nově definovaných pojmů. Dávejte si pozor, kdy se mluví o náhodných vektorech a kdy o datových maticích a rozmyslete si nejednoznačnost řešení zejména vůči změně měřítka (díky tomu stačí zkoumat korelační matice) a rotacím (což v jistých mezích dovoluje změnit interpretaci faktorů). Rozmyslete si rozdíly oproti metodě hlavních komponent.

Pokuste se získat přístup ke knize Venables, Ripley: Modern Applied Statistics with S [MASS] (dá se vypůjčit v knihovně nebo najít a stáhnout pomocí scholar.google.com -- mně se to podařilo například na https://www.pacificclimate.org/~wernera/RIntermediate/RAdvanced/modern_applied_statistics_with_s_192.pdf) a přečtěte si sekci 11.3 (Factor Analysis), kde jsou okomentované i souvislosti s hlavními a nezávislými komponentami.

Select activity Video: faktorová analýza

Video: faktorová analýza Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Faktorová analýza (teoretické aspekty, aplikácia v R a použitie v štatistických modeloch)
Select activity HTML Markdown | Faktorová analýza

HTML Markdown | Faktorová analýza Гиперссылка

Týden 9 (27.4.)

Téma: matice vzdáleností, mnohorozměrné škálování.

1/ Seznamte se s různými vzdálenostmi a mírami podobnosti mezi pozorováními (řádky datové matice) podle knihy MKB, sekce 13.4. Vzdálenosti mezi řádky datové matice lze v R snadno spočítat (na číselné vektory nejsnadněji pomocí funkce dist()).

2/ Opačný postup, tedy určení konfigurace bodů, která odpovídá zadané matici vzdáleností najdete v kapitole 17 v HS nebo v sekcích 14.1 až 14.6 v MKB. Výklad v obou knihách je podobný a cílem je postupně objasnit:

2a/ Postup pro určení, zda může zadaná symetrická matice obsahovat Euklidovské vzdálenosti mezi nějakými body (to se nejsnadněji ukáže tak, že se pokusíme nalézt množinu bodů, která těmto vzdálenostem odpovídá).

2b/ V obou knihách je pro hledání "konfigurace bodů, které odpovídají zadané matici euklidovských vzdáleností" uveden stejný postup založený na vlastních číslech a vlastních vektorech matice "B" -- vzhledem k nejednoznačnosti řešení vede metoda mnohorozměrného škálování (multidimensional scaling) na hlavní komponenty hledaných dat. V R lze použít funkci cmdscale().

2c/ Pro neeuklidovské matice vzdáleností lze použít funkci isoMDS(), která předpokládá, že zadané vzdálenosti jsou pouze rostoucí transformací euklidovských vzdálenosti hledaných bodů a řešení (vhodnou konfiguraci bodů v p-rozměrném euklidovském prostoru) hledá pomocí iterativního Shepard-Kruskalova algoritmu.

Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Matice vzdialenosti a metoda mnohorozmerného škálovania (metrická MDS a nemetrická MDS)
Select activity HTML Markdown | Matice vzdialenosti, metricka a nemetricka MDS

HTML Markdown | Matice vzdialenosti, metricka a nemetricka MDS Гиперссылка

Týden 10 (4.5.)

Téma: shluková analýza, hierarchické metody.

Seznamte se se shlukovou analýzou podle videa (okomentované folie týkající se především aglomerativních algoritmů) a zejména podle sekce 11.2 v knize [MASS] (kde jsou s nadhledem okomentované i další algoritmy, například "kmeans" nebo "mclust").

Select activity Video: shluková analýza

Video: shluková analýza Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Zhluková analýza, hierarchické a nehierarchické algoritmy, K-means
Select activity HTML Markdown | Zhluková analýza

HTML Markdown | Zhluková analýza Гиперссылка

Týden 11 (11.5.)

Téma: diskriminační analýza.

1/ Přečtěte si pozorně sekci 12.1 "Discriminant Analysis" v kapitole "Classification" [MASS]: všimněte si, že dvě zásadní metody jsou "Fisherova LDA" a "přístup založený na věrohodnosti" (zde stručně popsán pro normální rozdělení). Zajímavé je, že obě metody mohou vést ke stejnému řešení (pro dvě skupiny a normální rozdělení se stejnou varianční maticí). Fisherova LDA a ML/Bayesovská věrohodnostní pravidla jsou podrobně popsané i v knize [HS] (kapitola "Discriminant Analysis"), ale zde se mi výklad zdá být o něco rozvláčnější a autoři méně vysvětlují souvislosti s jinými metodami.

2/ Rozmyslete si i obsah sekce 12.2 "Classification Theory" v [MASS] (zejména pravděpodobnosti chybné klasifikace) a podívat se můžete i na sekce 12.3 až 12.7 (zde se komentují hlavně metody typu černých skříněk, např. SVM nebo neuronové sítě).

3/ Na metody založené na věrohodnosti a na Bayesovském přístupu navážeme přístí týden výkladem o metodách založených na směsových modelech.

Select activity Video: diskriminační analýza (stručný úvod)

Video: diskriminační analýza (stručný úvod) Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Diskriminačná analýza a niektoré alternatívne prístupy ku klasifikácii
Select activity HTML Markdown

HTML Markdown Гиперссылка

Týden 12 (18.5.)

Téma: směsové modely (moderní přístup ke shlukování a diskriminaci).

Tento týden budeme používat knihu Bouveyron, Celeux, Murphy, Raftery: Model-based Clustering and Classification for Data Science, Cambridge University Press, 2019 [BCMR19].

Instrukce:

1/ Přečtěte si prvních 22 stránek z knihy [BCMR19].
2/ Rozmyslete si, které příklady (v sekci 1.3) vedou na shlukování a které na diskriminační analýzu. Které příklady už umíte vyřešit pomocí klasických metod (tj. pomocí posledních tří přednášek)?
3/ Rozmyslete si souvislosti modelů z tabulky 2.1 s mnohorozměrným normálním rozdělením a s metodou hlavních komponent (která by zde musela být použitá zvlášť na každou "mixture component"). Rozumíte odvození počtu parametrů v tabulce 2.2?

Kniha se dále zabývá odhadováním parametrů (nejčastěji pomocí iterativního EM algoritmu, se kterým se můžete seznámit i na wikipedii; volba počátečních hodnot je přitom obvykle založena na "obyčejných" shlukovacích algoritmech z předminulého týdne), metodami volby počtu shluků (pomocí vhodných kritérií), odlehlými pozorováními, klasifikací (která je ve směsových modelech přímočará) a dalšími typy dat (např. sítěmi nebo textovými, funkcionálními a obrazovými pozorováními).

Pro zajímavost: odhady parametrů založené na Bayesovském přístupu (metodách MCMC) jsou implementované například v knihovně mixAK (https://cran.r-project.org/web/packages/mixAK/index.html).

Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Zmesové (mixture) modely
Select activity HTML Markdown

HTML Markdown Гиперссылка

Týden 13 (25.5.)

Téma: kanonické korelace, korespondenční analýza, SIR.

1/ Kanonické korelace. Seznamte se s metodou kanonických korelací (která umožňuje zkoumat závislosti mezi dvěma náhodnými vektory) podle kapitoly 16 v knize [HS]. Rozmyslete si pojmy `kanonické korelační vektory' (koeficienty hledaných lineárních kombinací), `kanonické korelační proměnné' (výsledné lineární kombinace maximalizující korelaci) a `kanonické korelační koeficienty' a rozmyslete si větu 16.2. V R se podívejte na nápovědu k funkci cancor() v knihovně stats, spusťte příklad a zkuste interpretovat výsledky.
2/ Korespondenční analýza zkoumá závislosti mezi řádky a sloupci v kontingenční tabulce. Metoda je založená na SVD rozkladu testové statistiky chí-kvadrát testu nezávislosti - viz vzorec (15.11) v [HS]. Nemusíte procházet všechna odvození, ale rozmyslete si alespoň význam získaných vektorů r_k a s_k a jejich vztah k výchozí kontingenční tabulce: Co znázorňují body na obrázcích 15.1 a 15.2 v [HS]? V R se podívejte na nápovědu k funkci ca() v knihovně ca, spusťte příklad `haireye' a zkuste interpretovat výsledky (tato knihovna ale používá jinou standardizaci a tak výsledky nemusí přesně odpovídat vzorcům uvedeným v [HS:AMSA]).
3/ Sliced inverse regression hledá lineární kombinace vysvětlujících proměnných, které `nejlépe' vysvětlují zvolenou závisle proměnnou (i při nelineární závislosti a použití neparametrických regresních odhadů). Základní popis najdete v [HS, 20.3], ale v této chvíli nejspíš stačí vědět, že podobné metody existují a jsou implementované ve funkci dr() v knihovně dr (dimension reduction). Rozmyslete si, proč by tato metoda měla v praxi fungovat lépe, než někdy doporučovaná regrese na hlavních komponentách.

Select activity Video: decomposition of dependencies

Video: decomposition of dependencies Гиперссылка
Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Metóda kanonických korelácii, redundančná analýza, korespondenčná analýza
Select activity HMTL Markdown

HMTL Markdown Гиперссылка

Týden 14 (1.6.)

Téma: kopula a hloubka dat, jádrové odhady hustoty a metoda projection pursuit.

1/ Hloubka dat se pokouší zobecnit pojem kvantilu (který je základem při testování i konstrukci konfidenčních intervalů, ale je přirozeně definován pouze pro jednorozměrné náhodné veličiny) i pro mnohorozměrná rozdělení. Hezký úvod do tématu najdete v přehledovém (popularizačním) článku doc. Hlubinky (stačí si přečíst str. 97 až 125, tj. sekce 1 až 3).
2/ Zajímavé projekce mnohorozměrných dat umožňuje prozkoumat knihovna tourr --- na tyto metody se lze dívat jako na zobecnění metody hlavních komponent (hledané projekce zde pouze maximalizují jiné `míry zajímavosti'). Zkuste knihovnu tourr nainstalovat, spusťte a rozmyslete si příklady na str. 3.
3/ Ve foliích dále najdete základní informace o kopulích (které flexibilně modelují závislosti mezi náhodnými veličinami) a o analýze směrových dat (kde pozorování leží například na povrchu kružnice nebo jednotkové koule).

Select activity --------------------------------------------------...

------------------------------------------------------------------------------------------------------------

Cvičení: Finalizácia parciálnych úloh zadávaných v priebehu semestra

Pre účely zápočtu je v prípade potreby (t.j. na základe emailu zaslaného na índividuálnej báze)
nutné doplniť požadované opravy jednotlivých úloh, implementovať konkrétne pripomienky,
resp. zodpovedať dodatočné otázky. Celkové kvalitné vypracovanie parciálnych úloh je hlavným a nutným faktorom pre udelenie zápočtu.

Section outline