Týden 12 (18.5.)
Osnova sekce
-
Téma: směsové modely (moderní přístup ke shlukování a diskriminaci).
Tento týden budeme používat knihu Bouveyron, Celeux, Murphy, Raftery: Model-based Clustering and Classification for Data Science, Cambridge University Press, 2019 [BCMR19].
Instrukce:
1/ Přečtěte si prvních 22 stránek z knihy [BCMR19].
2/ Rozmyslete si, které příklady (v sekci 1.3) vedou na shlukování a které na diskriminační analýzu. Které příklady už umíte vyřešit pomocí klasických metod (tj. pomocí posledních tří přednášek)?
3/ Rozmyslete si souvislosti modelů z tabulky 2.1 s mnohorozměrným normálním rozdělením a s metodou hlavních komponent (která by zde musela být použitá zvlášť na každou "mixture component"). Rozumíte odvození počtu parametrů v tabulce 2.2?Kniha se dále zabývá odhadováním parametrů (nejčastěji pomocí iterativního EM algoritmu, se kterým se můžete seznámit i na wikipedii; volba počátečních hodnot je přitom obvykle založena na "obyčejných" shlukovacích algoritmech z předminulého týdne), metodami volby počtu shluků (pomocí vhodných kritérií), odlehlými pozorováními, klasifikací (která je ve směsových modelech přímočará) a dalšími typy dat (např. sítěmi nebo textovými, funkcionálními a obrazovými pozorováními).
Pro zajímavost: odhady parametrů založené na Bayesovském přístupu (metodách MCMC) jsou implementované například v knihovně mixAK (https://cran.r-project.org/web/packages/mixAK/index.html).