Osnova sekce

  • Cílem lineární regresní analýzy je zjistit, jak moc (=jaké množství rozptylu v procentech) nezávisle proměnná vysvětluje proměnnou závislou. Pokud např. máme údaje o známce z matematiky u většího počtu žáků a také jejich dosažený skór v inteligenčním testu, můžeme díky lineární regresi zjistit, že známka z matematiky vysvětluje do značné míry (v procentech) i skór v IQ testech. Čistě jen díky známce z matematiky pak můžeme do určité míry odhadnout i IQ dalších žáků z podobné populace (věkem apod.), aniž by tito žáci museli podstoupit IQ testování. K tomu se používá výpočet lineární regresní analýzy, který lze zapsat regresní rovnicí  (Y = b0 + b1.x) a znázornit regresní přímkou. Její směr naznačuje přímou nebo nepřímou úměrnost mezi oběma proměnnými. Princip regresní analýzy je velmi srozumitelně vysvětlený na níže uvedeném videu Petra Soukupa (Přednáška 11 [2. část] Lineární regresní analýza). Je v něm zároveň ukázka tohoto výpočtu v Excelu. DŮLEŽITÁ ČÁST JE OD 4. MINUTY. Jde cca o 55 resp. 52 minut:

    Zájemci o tutéž přednášku se stejným výpočtem v JASP na ni najdou odkaz na druhém snímku v níže uvedené příloze v PDF (tato přednáška je v angličtině, ale analyzuje stejná data jako výše uvedené video).

    Pokud vycházíme pouze z jedné nezávisle proměnné, je výpočet lineární regrese v podstatě totožný s výpočtem korelačního koeficientu - přesněji řečeno s výpočtem koeficientu determinace (R2), který z korelačního koeficientu vychází (R2 = r2 . 100). 

    Do regresní analýzy však můžeme zahrnout i více než jednu nezávisle proměnnou. Tím se pak přibližujeme víc běžné sociální realitě, v níž také předpokládáme, že jeden jev vzniká v důsledku většího počtu různých činitelů (např. citová deprivace v důsledku odmítání nebo nepřítomnosti obou rodičů a zároveň při absenci dalších citově angažovaných osob - prarodičů, starších sourozenců apod.). Závisle proměnná musí být proměnnou spojitou/kardinální. Všechny nezávisle proměnné musí být také buď spojité/kardinální, anebo dichotomní/binární (tj. takové, které mají pouze dvě varianty odpovědi - např. "ANO" nebo "NE", "muž" nebo "žena", "onemocněl" nebo "neonemocněl" apod.). Ukázku výpočtu vícenásobné regresní analýzy provedenou v JASP najdete v níže uvedené první příloze v PDF. Najdete v ní také uvedené základní podmínky pro kontrolu dat pro tento výpočet. 

    - Vzhledem k tomu, že data v ukázce níže v prvním PDF souboru nesplňují požadavky pro volbu tohoto výpočtu, najdete na konci PDF prezentace stejný výpočet provedený v logistické binární regresi. (Důvodem je, že data nezávisle proměnné nejsou kardinální a závisle proměnná nemá normální rozdělení dle Gaussovy křivky. Proto jsem obě tyto proměnné převedla na proměnné dichotomní). V logistické binární regresi musí být závisle proměnná dichotomní. V logistické binární regresi vycházejí výsledky našeho příkladu podobně jako v předchozí lineární regresi, pouze se silnějšími významnostmi. Více se lze s tímto typem výpočtu seznámit v knize: Rabušic, Soukup, Mareš: Statistická analýza sociálněvědních dat (prostřednictvím SPSS). Výsledky obou typů regresních analýz lze zobrazit i graficky (viz předposlední snímek v PDF prezentaci).

    Ve druhé příloze v PDF najdete základní teoretické údaje k výpočtu lineární regresní analýzy z výše uvedeného videa a z videa o výpočtu v JASP (které je k dispozici na Youtube v angličtině).