Osnova sekce

  • Téma: směsové modely (moderní přístup ke shlukování a diskriminaci).

    Tento týden budeme používat knihu Bouveyron, Celeux, Murphy, Raftery: Model-based Clustering and Classification for Data Science, Cambridge University Press, 2019 [BCMR19].

    Instrukce:

    1/ Přečtěte si prvních 22 stránek z knihy [BCMR19].
    2/ Rozmyslete si, které příklady (v sekci 1.3) vedou na shlukování a které na diskriminační analýzu. Které příklady už umíte vyřešit pomocí klasických metod (tj. pomocí posledních tří přednášek)?
    3/ Rozmyslete si souvislosti modelů z tabulky 2.1 s mnohorozměrným normálním rozdělením a s metodou hlavních komponent (která by zde musela být použitá zvlášť na každou "mixture component"). Rozumíte odvození počtu parametrů v tabulce 2.2?

    Kniha se dále zabývá odhadováním parametrů (nejčastěji pomocí iterativního EM algoritmu, se kterým se můžete seznámit i na wikipedii; volba počátečních hodnot je přitom obvykle založena na "obyčejných" shlukovacích algoritmech z předminulého týdne), metodami volby počtu shluků (pomocí vhodných kritérií), odlehlými pozorováními, klasifikací (která je ve směsových modelech přímočará) a dalšími typy dat (např. sítěmi nebo textovými, funkcionálními a obrazovými pozorováními).

    Pro zajímavost: odhady parametrů založené na Bayesovském přístupu (metodách MCMC) jsou implementované například v knihovně mixAK (https://cran.r-project.org/web/packages/mixAK/index.html).

    • ------------------------------------------------------------------------------------------------------------

      Cvičení: Zmesové (mixture) modely