Predikcie v probléme 3

Predikcie v probléme 3

от Tomáš Jurica -
Количество ответов: 2

Dobrý večer,

pri opravovaní môjho reportu, ste ma upozornil, že si mám dávať pozor na diskusií ohľadne predikcií, pretože v probléme tri, resp. pri problémoch podobného charakteru, predpovedáme skôr šance (ako nejaké 0 a 1).  

Teraz uvažujme, že máme finálny model = t.j máme v modely nejakú transformáciu tabaku, alcoholu a veku a všetky premenné sú signifikantné a ,,fitujeme'' šance, avšak ak sa pozrieme na fitované hodnoty(berme teraz model log ods = beta* X), tak skáču okolo 0, čo môže znamenať,že tie sample pravdepodobnosti sú cca rovnaké. Ako sa pristupuje potom v takomto prípade ? Resp. ako sa intepretujú výsledky takéhoto modelu ? Náš model dokázal nájsť nejaký ,,pattern'' v dátach, avšak vyzerá to tak, že uvažované premenné v modely nič nevysvetľujú. V tomto prípade sa len povie, že ani jedna z uvažovaných premenných teda nezvyšuje šance na rakovinu, resp. žiadna z premenných v modely vôbec nesúvisia s rakovinou ?  Toto je len čisto ilustratívny príklad, a len ma zaujíma, že ako sa v tomto prípade v praxi, že ako sa postupuje v takomto prípade. Ďakujem vopred za odpoveď.

В ответ на Tomáš Jurica

Re: Predikcie v probléme 3

от Arnošt Komárek -

S daty problému 3 jde o to, že nemůžete predikovat vůbec nic, ani pravděpodobnosti, ani šance (které jsou 1:1 funkcí pravděpodobností). Teď nejde o to, jak vypadá model, který nějak parametrizuje šance či pravděpodobnosti (log(odds) = log(p/(1-p)) = lineární prediktor). Jde o design (case-control), pomocí něhož byla získána data. Oproti populaci (pro kterou byste chtěl predikovat) máte totiž v datech "špatný" poměr rakoviny (v datech jich je mnohem víc než v populaci). V důsledku toho absolutní člen modelu nemá nic společného s pravděpodobností/šancí referenčního pacienta v populaci. Jak je uvedeno v zadání, s case-control daty můžete na druhou stranu bez problémů odhadovat VLIV jednotlivých faktorů na rakovinu, tj. můžete odhadovat, co udělá změna faktoru se změnou pravděpodobnosti/šance na rakovinu. Jedno možné vyhodnocení vlivu je potom odds ratio, tj. podíl dvou šancí (kde se intercepty vyruší). S ohledem na tvar logistické regrese potom ta odds ratia dávají přímo exp. z regresních koeficientů, resp. exp. z příslušné změny lineárního prediktoru.

K druhému odstavci dotazu bude další odpověď za chvíli.

 

В ответ на Tomáš Jurica

Re: Predikcie v probléme 3

от Arnošt Komárek -

K druhému odstavci. Úplně nevím, co myslíte tím skákáním kolem nuly. Fakt je ten, že průměr modelem odhadnutých pravděpodobností (mean(fitted(model)) je roven proporci rakovin v datech, což je u nás cca 20 %. Nyní trochu oklika. S našimi daty sice nemůžeme vyrábět predikční model (nejsme schopni odhadnout absolutní člen, který by odpovídal příslušné populaci), ale při posuzování kvality modelu se můžeme dívat, jak dobře by model predikoval rakovinu v hypotetické populaci, ve které proporce rakovin odpovídá proporci rakovin v datech, což je zde cca 20 %. Veličina alá R^2, která by posuzovala "těsnost modelu" okolo dat by zde odpovídala zjišťování, jak moc dobře jsou faktory zahrnuté v modelu schopny odlišit rakoviny od nerakovin. V ideálním případě (alá R^2 = 1) by lidé s rakovinou měli odhadnuté pravděpodobnosti blízké 1 a lidé bez rakoviny blízké 0, resp. by existovala hranice pro odh. pravděpodobnosti, která by jednoznačně odlišila rakoviny a nerakoviny. Pokud by tato hranice byla 0,65, pak všichni s rakovinou by měli odh. pravděpodobnost > 0,65 a všichni bez rakoviny < 0,65. Na tomto principu potom fungují skutečné predikční modely (např. diagnostika choroby nebo kredit skoring v bance - model je ale odhadnut nad "správnou" populací, tj. se "správným" absolutním členem). Vzhledem k tomu, že v našich datech je cca 80 % nerakovin, není překvapivé (a u "správného" modelu i žádoucí), že velká část odhadnutých pravděpodobností (medián modelem odhadnutých pravděpodobností je cca 0,10) je blízko nule.Tedy pozor, u logistické regrese se (pro predikci) ideální model pozná tak, že (1 - p)100% vyrovnaných hodnot je blízká 0 a p100% vyrovnaných hodnot blízká 1, kde p je proporce jedniček v datech.