Porovnávanie modelov

Re: Porovnávanie modelov

autor Arnošt Komárek -
Počet odpovědí: 0

Asi vás zklamu, ale kromě log-věrohodnosti (deviance) nemám příliš co dalšího doporučit pro obecné porovnávání modelů. Ještě jak jsem říkal (na posledním konaném cvičení), obecně (i mimo GLM) se deviance často definuje jako -2*log(L), kde L je maximalizovaná věrohodnost. Tuto "moji" devianci pak můžete používat i pro porovnání modelů s různými rozděleními (log(L) je srovnatelná i připoužití různých rozdělení). Od deviance z přednášky se to pak liší jenom o aditivní konstantu vyplývající z volby "saturovaného" modelu pro tu kterou situaci. Za standardizovou metriku z těch deviancí lze pak do jisté míry považovat "p-hodnotu" spočítanou z chi2 rozdělení a rozdílu deviancí (jako byste dělal devianční/LR test), i kdyby se striktně řečeno nejednalo o dvojici model-podmodel. Zde se jenom musíte smířit s tím, že tuto "p-hodnotu" rozumně nespočítáte, pokud srovnáváte 2 modely se stejným počtem parametrů  (chi2 rozdělení s 0 stupni volnosti je Dirac v nule (tj. skoro jistě nula)).

Z "mojí" deviance jsou ještě odvozena nejrůznější informační kritéria (AIC, BIC, ...), ale i ta bych bral spíš hodně orientačně. Oni se snaží do nějaké míry vzít v potaz "složitost" modelu (počet parametrů), ale není to nějak super úspěšná strategie. Existují též další přístupy založené na ohodnocení predikční schopnosti modelu (sem patří vámi zmiňované pseudo R2), ale většinou to je zavedeno vždy jenom pro konkrétní třídu GLM. Hodně toho existuje pro logistickou regresi, neboť ta je poměrně dost používaná (též) pro predikování (viz kredit skóring). Nicméně (stejně jako u lineárního modelu), když nechci predikovat, tak mi je nějaké R2 (či cokoliv jiného, co hodnotí kvalitu predikce) úplně ukradené. V souhrnu, zatím všechny úlohy ode mne se predikcí nezabývaly. Doporučoval bych tedy využívat postupy založené na (semi)testování podmodelů, tj. srovnávání (srovnatelných) deviancí, případně přes p-hodnoty spočítané jako v deviančním testu, vše při zapojení "znalosti problematiky".

Konečně k těm reziduím. Ano, máte pravdu, pro každou rodinu rozdělení jsou definované jinak. A v podstatě pokud z nich uděláte nějakou souhrnnou statistiku, dostanete zase nějakou obdobu deviance (při použití čtverců deviančních reziduí přímo devianci podle přednášky).