Osnova sekce

  • Téma: kontingenční tabulky a logistická regrese - základní metody statistické analýzy kategoriálních dat

    1/ Test nezávislosti v kontingenční tabulce umožňuje jednoduše prokázat závislost mezi dvěma faktorovýmí (nominálními, kategorickými) proměnnými. Test je popsán na foliích 188 až 194 a vlastně si stačí uvědomit, že testová statistika jenom porovnává pozorované četnosti (X) s četnostmi, které očekáváme za předpokladu nezávislosti (E); nezávislost zde v podstatě znamená jenom to, že sdružená pravděpodobnost je součinem marginálních pravděpodobností, tj. "p_{ij}=p_i p_j".

    2/ Zobecněním lineární regrese pro nula-jedničkové závislé proměnné je logistická regrese (viz folie 195 až 208). Stejně jako u lineární regrese jde o model pro střední hodnotu závisle proměnné (tato střední hodnota se rovná pravděpodobnosti úspěchu - viz definice alternativního rozdělení), ale kvůli omezení těchto středních hodnot do intervalu (0,1) je vztah mezi hledanou lineární kombinací sloupců matice vysvětlujících proměnných (X) a modelovanou střední hodnotou (tj. odpovídající podmíněnou pravděpodobností úspěchu) nelineárně transformován tzv. logistickou transformací (která umožňuje interpretovat regresní koeficienty jako logaritmické poměry šancí).

    3/ Odhadnutý model logistické regrese umožňuje snadno spočítat odhad pravděpodobnosti úspěchu (například pravděpodobnosti úspěšného dokončení studia) při znalosti zvolených vysvětlujících proměnných (např. věk, pohlaví, apod.) --- tato metoda se tedy často a úspěšně používá pro klasifikaci (například klientů v bankách). V porovnání např. s neuronovými sítěmi je přitom hned vidět, jestli odhadnuté regresní koeficienty odpovídají našim očekáváním, tj. jestli jednotlivé vysvětlující proměnné pravděpodobnost úspěchu snižují nebo zvyšují.

    Dva úkoly: Rozmyslete si počítačový výstup na folii 194 (test nezávislosti v kontingenční tabulce) a na folii 205 (logistická regrese: je vliv lwt na Birthwt statisticky signifikantní?)