Section outline

  • Výuka bude zahájena v úterý 2.3. v 15:40 setkáním a úmluvou na ZOOMu.

  • Přednáška: mnohorozměrná data, grafické metody, popisná statistika.

    Přednáška bude zahájena podle rozvrhu (v úterý 2.3. v 15:40) krátkým setkáním na ZOOMu.

    Úkoly na první týden (samostudium):

    1/ seznámit se s kapitolou 1 v knize HS [Haerdle, Simar: Applied Multivariate Statistical Analysis],

    2/ připomenout si základní pojmy týkající se maticové algebry (zhruba podle kapitoly 2 v HS).

    Kromě HS budeme používat i knihy MKB [Mardia, Kent, Bibby: Multivariate Analysis, Academic Press], MASS [Venables, Ripley: Modern Applied Statistics with S, Springer] a BCMR [Bouveyron et al: Model-based Clustering and Classification for Data Science] --- ty bohužel nejsou přístupné přes univerzitní "portál e-knih", ale můžete si je už teď zkusit někde vypůjčit.

    V dalších týdnech plánuji nahrávat stručná videa doplněná instrukcemi k samostudiu podle zadané literatury. V případě potřeby lze domluvit i konzultace přes ZOOM.

    ------------------------------------------------------------------------------------------------------------

    Cvičení: mnohorozměrná data, vizualizace pomoci grafických nástrojů v R

    Cvičenie k bude zahájené podľa rozvrhu, t.j. v utorok, 02.03.2021 (podľa rozvrhu od 9:00 v posluchárni K11). 
    Vzhľadom k pandemickej situácii začne výuka v režime online: každy týždeň (až kým to situácia nedovolí) 
    bude na mojej webovej stránke zverejnený výukovy skript (HTML Markdown) s aktuálnou látkou určenou pre daný týždeň. 

    Úlohou študentov je zverejnený HTML Markdown samostatne prejsť pomocou programu R, pochopiť implementáciu použitých metód v programe R, porozumieť príkazom a vypracovať jednotlivé úlohy zadané v skripte.

    Na nepravidelnej báze - t.j., cca raz za 2-3 týždne (a kedykoľvek na explicitne vyžiadanie) bude k dispozícii online ZOOM sekcia 
    určená pre dotazky/komentáre/otázky/problémy zo strany študentov. 

  • Téma: matice, vlastní čísla a vlastní vektory, kvadratické formy

    Instrukce: Zopakujte si základní pojmy z maticové algebry pomocí kapitoly 2 v knize HS, shrnutí nejdůležitějších vlastností vlastních čísel a vektorů najdete i ve videu.

    Téma: náhodné vektory, podmíněná a marginální rozdělení.

    Instrukce: Připomeňte si základní vlastnosti náhodných vektorů zhruba podle sekcí 2.1 a 2.2 v MKB nebo podle sekcí 4.1 a 4.2 v HS, krátký komentář k foliím najdete i ve videu o náhodných vektorech.

    ZOOM v úterý v 15:40: diskuse o domácích úkolech (odkaz bude rozeslán emailem ze SISu)

  • Téma: mnohorozměrné normální rozdělení.

    Seznamte se se základními vlastnostmi mnohorozměrného normálního rozdělení (folie, [MKB 3.1, 3.2] nebo [HS, 5.1]):

    1) Marginální i podmíněná rozdělení jsou (mnohorozměrná) normální, výpočet parametrů podmíněného rozdělení (zejména podmíněné střední hodnoty) souvisí s lineární regresí.

    2) Nulová kovariance odpovídá nezávislosti.

    3) Lineární transformace mají opět mnohorozměrné normální rozdělení.

  • Téma: datové matice, Wishartovo a Hotellingovo rozdělení, testování hypotéz o střední hodnotě (jednovýběrový a dvouvýběrový test).

    Instrukce: Seznamte se s Wishartovým a Hotellingovým rozdělením a rozmyslete si odvození testů o mnohorozměrné střední hodnotě (viz video a folie, sekce 3.3 až 3.6 v [MKB]); v R jsou tyto mnohorozměrné testy implementované například ve funkci HotellingsT2Test() v knihovně DescTools.

    Samostatně se seznamte s Wilksovým lambda definovaným v sekci 3.7 v [MKB], které se často objevuje při testování poměrem věrohodností (viz komentář za definicí 3.7.1).

  • Téma: maximální věrohodnost, testy poměrem věrohodností. 

    Instrukce: 

    1/ Seznamte se s první částí folií pro ``Week 5'', tj. s metodou maximální věrohodnosti a jejím použitím na odhadování parametrů mnohorozměrného normálního rozdělení (maticová algebra ze začátku kapitoly 5 ve foliích - tj. např. derivování determinantu - se využívá při derivování logaritmické věrohodnostní funkce). Uvědomte si, že uvedená logaritmická věrohodnost (folie 148 a vzorec (4.1.9) v [MKB]) bude následně velmi důležitá i při testování hypotéz (zejména přio odvozování testů poměrem věrohodností). 

    2/ Jako doplňující materiál si pozorně přečtěte  kapitolu 4 z knihy MKB (část 4.3 je vhodná spíš pro doplnění kontextu a nemusíte ji studovat tak podrobně).

    3/ K testování hypotéz si přečtěte sekci 5.1 a 5.2.1 v [MKB]. Odvození dalších testů o parametrech mnohorozměrného normálního rozdělení (jednovýběrových i k-výběrových) najdete v sekci 5.3. V této chvíli jde hlavně o princip, k testování poměrem věrohodností se podle potřeby ještě budeme vracet (při testování hypotéz souvisejících s některými mnohorozměrnými metodami).

  • Téma: metoda hlavních komponent: odvození a teoretické vlastnosti.

    Seznamte se s teoretickým základem (odvozením) metody hlavních komponent podle videa a sekce 8.2.1 v [MKB] (pracuje se zde s náhodnými vektory a jejich teoretickými variančními maticemi). Přečtěte si také sekci 8.6, kde se pojednává o časté interpretaci hlavních komponent.

    Praktickým použitím metody hlavních komponent (s odhady založenými na výběrové varianční matici -- viz [MKB] od sekce 8.2.2) se budeme zabývat přístí týden.

  • Téma: metoda hlavních komponent: praktické použití, interpretace.

    Instrukce: Seznamte se s metodou hlavních komponent. To nejdůležitější by mělo být řečeno ve videu, případné nejasnosti můžete konzultovat i s kapitolou "Principal Components Analysis" v [HS] --- zde si určitě přečtěte alespoň úvodní stránku a příklad 10.6 (Example 10.6, použití hlavních komponent na French Food Data). V [MKB] si přečtěte hezký příklad interpretace hlavních komponent v příkladu 8.2.6.

    Na výběrové hlavní komponenty (odhadnuté z výběrové varianční nebo korelační matice) se můžeme dívat jako na odhad skutečných hlavních komponent (spočítaných z teoretické varianční nebo korelační matice): v [MKB] můžete v sekci 8.3 najít odvození asymptotického rozdělení výběrových vlastních čísel a vlastních vektorů za předpokladu normality (Theorem 8.3.3), v sekci 8.4.3 je pak popsán test hypotézy, kterou lze interpretovat jako "nezajímavost posledních k hlavních komponent".

  • Téma: faktorová analýza: odhady parametrů, testování souvisejících hypotéz, metoda varimax.

    Instrukce: Seznamte se s faktorovou analýzou podle videa, folií a kapitoly 12 v [HS] a rozmyslete si význam všech nově definovaných pojmů. Dávejte si pozor, kdy se mluví o náhodných vektorech a kdy o datových maticích a rozmyslete si nejednoznačnost řešení zejména vůči změně měřítka (díky tomu stačí zkoumat korelační matice) a rotacím (což v jistých mezích dovoluje změnit interpretaci faktorů). Rozmyslete si rozdíly oproti metodě hlavních komponent.

    Pokuste se získat přístup ke knize Venables, Ripley: Modern Applied Statistics with S [MASS] (dá se vypůjčit v knihovně nebo najít a stáhnout pomocí scholar.google.com -- mně se to podařilo například na  https://www.pacificclimate.org/~wernera/RIntermediate/RAdvanced/modern_applied_statistics_with_s_192.pdf) a přečtěte si sekci 11.3 (Factor Analysis), kde jsou okomentované i souvislosti s hlavními a nezávislými komponentami.

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Faktorová analýza (teoretické aspekty, aplikácia v R a použitie v štatistických modeloch)

  • Téma: matice vzdáleností, mnohorozměrné škálování.

    1/ Seznamte se s různými vzdálenostmi a mírami podobnosti mezi pozorováními (řádky datové matice) podle knihy MKB, sekce 13.4. Vzdálenosti mezi řádky datové matice lze v R snadno spočítat (na číselné vektory nejsnadněji pomocí funkce dist()).

    2/ Opačný postup, tedy určení konfigurace bodů, která odpovídá zadané matici vzdáleností najdete v kapitole 17 v HS nebo v sekcích 14.1 až 14.6 v MKB. Výklad v obou knihách je podobný a cílem je postupně objasnit:

    2a/ Postup pro určení, zda může zadaná symetrická matice obsahovat Euklidovské vzdálenosti mezi nějakými body (to se nejsnadněji ukáže tak, že se pokusíme nalézt množinu bodů, která těmto vzdálenostem odpovídá).

    2b/ V obou knihách je pro hledání "konfigurace bodů, které odpovídají zadané matici euklidovských vzdáleností" uveden stejný postup založený na vlastních číslech a vlastních vektorech matice "B" -- vzhledem k nejednoznačnosti řešení vede metoda mnohorozměrného škálování (multidimensional scaling) na hlavní komponenty hledaných dat. V R lze použít funkci cmdscale().

    2c/ Pro neeuklidovské matice vzdáleností lze použít funkci isoMDS(), která předpokládá, že zadané vzdálenosti jsou pouze rostoucí transformací euklidovských vzdálenosti hledaných bodů a řešení (vhodnou konfiguraci bodů v p-rozměrném euklidovském prostoru) hledá pomocí iterativního Shepard-Kruskalova algoritmu.

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Matice vzdialenosti a metoda mnohorozmerného škálovania (metrická MDS a nemetrická MDS)

  • Téma: shluková analýza, hierarchické metody.

    Seznamte se se shlukovou analýzou podle videa (okomentované folie týkající se především aglomerativních algoritmů) a zejména podle sekce 11.2 v knize [MASS] (kde jsou s nadhledem okomentované i další algoritmy, například "kmeans" nebo "mclust"). 

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Zhluková analýza, hierarchické a nehierarchické algoritmy, K-means

  • Téma: diskriminační analýza.

    1/ Přečtěte si pozorně sekci 12.1 "Discriminant Analysis" v kapitole "Classification" [MASS]: všimněte si, že dvě zásadní metody jsou "Fisherova LDA" a "přístup založený na věrohodnosti" (zde stručně popsán pro normální rozdělení). Zajímavé je, že obě metody mohou vést ke stejnému řešení (pro dvě skupiny a normální rozdělení se stejnou varianční maticí). Fisherova LDA a ML/Bayesovská věrohodnostní pravidla jsou podrobně popsané i v knize [HS] (kapitola "Discriminant Analysis"), ale zde se mi výklad zdá být o něco rozvláčnější a autoři méně vysvětlují souvislosti s jinými metodami.

    2/ Rozmyslete si i obsah sekce 12.2 "Classification Theory" v [MASS] (zejména pravděpodobnosti chybné klasifikace) a podívat se můžete i na sekce 12.3 až 12.7 (zde se komentují hlavně metody typu černých skříněk, např. SVM nebo neuronové sítě).

    3/ Na metody založené na věrohodnosti a na Bayesovském přístupu navážeme přístí týden výkladem o metodách založených na směsových modelech.

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Diskriminačná analýza a niektoré alternatívne prístupy ku klasifikácii

  • Téma: směsové modely (moderní přístup ke shlukování a diskriminaci).

    Tento týden budeme používat knihu Bouveyron, Celeux, Murphy, Raftery: Model-based Clustering and Classification for Data Science, Cambridge University Press, 2019 [BCMR19].

    Instrukce:

    1/ Přečtěte si prvních 22 stránek z knihy [BCMR19].
    2/ Rozmyslete si, které příklady (v sekci 1.3) vedou na shlukování a které na diskriminační analýzu. Které příklady už umíte vyřešit pomocí klasických metod (tj. pomocí posledních tří přednášek)?
    3/ Rozmyslete si souvislosti modelů z tabulky 2.1 s mnohorozměrným normálním rozdělením a s metodou hlavních komponent (která by zde musela být použitá zvlášť na každou "mixture component"). Rozumíte odvození počtu parametrů v tabulce 2.2?

    Kniha se dále zabývá odhadováním parametrů (nejčastěji pomocí iterativního EM algoritmu, se kterým se můžete seznámit i na wikipedii; volba počátečních hodnot je přitom obvykle založena na "obyčejných" shlukovacích algoritmech z předminulého týdne), metodami volby počtu shluků (pomocí vhodných kritérií), odlehlými pozorováními, klasifikací (která je ve směsových modelech přímočará) a dalšími typy dat (např. sítěmi nebo textovými, funkcionálními a obrazovými pozorováními).

    Pro zajímavost: odhady parametrů založené na Bayesovském přístupu (metodách MCMC) jsou implementované například v knihovně mixAK (https://cran.r-project.org/web/packages/mixAK/index.html).

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Zmesové (mixture) modely

  • Téma: kanonické korelace, korespondenční analýza, SIR.

    1/ Kanonické korelace. Seznamte se s metodou kanonických korelací (která umožňuje zkoumat závislosti mezi dvěma náhodnými vektory) podle kapitoly 16 v knize [HS]. Rozmyslete si pojmy `kanonické korelační vektory' (koeficienty hledaných lineárních kombinací), `kanonické korelační proměnné' (výsledné lineární kombinace maximalizující korelaci) a `kanonické korelační koeficienty' a rozmyslete si větu 16.2. V R se podívejte na nápovědu k funkci cancor() v knihovně stats, spusťte příklad a zkuste interpretovat výsledky.
    2/ Korespondenční analýza zkoumá závislosti mezi řádky a sloupci v kontingenční tabulce. Metoda je založená na SVD rozkladu testové statistiky chí-kvadrát testu nezávislosti - viz vzorec (15.11) v [HS]. Nemusíte procházet všechna odvození, ale rozmyslete si alespoň význam získaných vektorů r_k a s_k a jejich vztah k výchozí kontingenční tabulce: Co znázorňují body na obrázcích 15.1 a 15.2 v [HS]? V R se podívejte na nápovědu k funkci ca() v knihovně ca, spusťte příklad `haireye' a zkuste interpretovat výsledky (tato knihovna ale používá jinou standardizaci a tak výsledky nemusí přesně odpovídat vzorcům uvedeným v [HS:AMSA]).
    3/ Sliced inverse regression hledá lineární kombinace vysvětlujících proměnných, které `nejlépe' vysvětlují zvolenou závisle proměnnou (i při nelineární závislosti a použití neparametrických regresních odhadů). Základní popis najdete v [HS, 20.3], ale v této chvíli nejspíš stačí vědět, že podobné metody existují a jsou implementované ve funkci dr() v knihovně dr (dimension reduction). Rozmyslete si, proč by tato metoda měla v praxi fungovat lépe, než někdy doporučovaná regrese na hlavních komponentách.

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Metóda kanonických korelácii, redundančná analýza, korespondenčná analýza

  • Téma: kopula a hloubka dat, jádrové odhady hustoty a metoda projection pursuit.

    1/ Hloubka dat se pokouší zobecnit pojem kvantilu (který je základem při testování i konstrukci konfidenčních intervalů, ale je přirozeně definován pouze pro jednorozměrné náhodné veličiny) i pro mnohorozměrná rozdělení. Hezký úvod do tématu najdete v přehledovém (popularizačním) článku doc. Hlubinky (stačí si přečíst str. 97 až 125, tj. sekce 1 až 3).
    2/ Zajímavé projekce mnohorozměrných dat umožňuje prozkoumat knihovna tourr --- na tyto metody se lze dívat jako na zobecnění metody hlavních komponent (hledané projekce zde pouze maximalizují jiné `míry zajímavosti'). Zkuste knihovnu tourr nainstalovat, spusťte a rozmyslete si příklady na str. 3.
    3/ Ve foliích dále najdete základní informace o kopulích (které flexibilně modelují závislosti mezi náhodnými veličinami) a o analýze směrových dat (kde pozorování leží například na povrchu kružnice nebo jednotkové koule).

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Finalizácia parciálnych úloh zadávaných v priebehu semestra

      Pre účely zápočtu je v prípade potreby (t.j. na základe emailu zaslaného na índividuálnej báze)
      nutné doplniť požadované opravy jednotlivých úloh, implementovať konkrétne pripomienky,
      resp. zodpovedať dodatočné otázky. Celkové kvalitné vypracovanie parciálnych úloh je hlavným a nutným faktorom pre udelenie zápočtu.