Týden 9 (27.4.)
Osnova sekce
-
Téma: matice vzdáleností, mnohorozměrné škálování.
1/ Seznamte se s různými vzdálenostmi a mírami podobnosti mezi pozorováními (řádky datové matice) podle knihy MKB, sekce 13.4. Vzdálenosti mezi řádky datové matice lze v R snadno spočítat (na číselné vektory nejsnadněji pomocí funkce dist()).
2/ Opačný postup, tedy určení konfigurace bodů, která odpovídá zadané matici vzdáleností najdete v kapitole 17 v HS nebo v sekcích 14.1 až 14.6 v MKB. Výklad v obou knihách je podobný a cílem je postupně objasnit:
2a/ Postup pro určení, zda může zadaná symetrická matice obsahovat Euklidovské vzdálenosti mezi nějakými body (to se nejsnadněji ukáže tak, že se pokusíme nalézt množinu bodů, která těmto vzdálenostem odpovídá).
2b/ V obou knihách je pro hledání "konfigurace bodů, které odpovídají zadané matici euklidovských vzdáleností" uveden stejný postup založený na vlastních číslech a vlastních vektorech matice "B" -- vzhledem k nejednoznačnosti řešení vede metoda mnohorozměrného škálování (multidimensional scaling) na hlavní komponenty hledaných dat. V R lze použít funkci cmdscale().
2c/ Pro neeuklidovské matice vzdáleností lze použít funkci isoMDS(), která předpokládá, že zadané vzdálenosti jsou pouze rostoucí transformací euklidovských vzdálenosti hledaných bodů a řešení (vhodnou konfiguraci bodů v p-rozměrném euklidovském prostoru) hledá pomocí iterativního Shepard-Kruskalova algoritmu.