Adv. Regr. Models : Splajny s menším rozsahem

Dobrý den,

moje otázka se týká splajnů. Pokud je u pozorovaného maxima vysvětlující proměnné málo dalších pozorovaných hodnot, dává smysl zvolit pravý krajní uzel fitovaného splajnu ještě „před“ tímto maximem? Překvapilo mě, že funkce bs() nepřiřadí hodnotám mimo bázi samé nuly. Co se děje s těmito pozorováními při fitování modelu? Je správný postup odstranit pozorování mimo bázi a až pak fitovat model?

Děkuji za odpověď

Re: Splajny s menším rozsahem

autor Arnošt Komárek - středa, 29. dubna 2020, 11.25

Nejprve k druhé části otázky: "Překvapilo mě, že funkce bs() nepřiřadí hodnotám mimo bázi samé nuly. Co se děje s těmito pozorováními při fitování modelu? Je správný postup odstranit pozorování mimo bázi a až pak fitovat model? "

Věc se má tak, že funkce 'bs' "nějak" konstruuje splinovou bázi i mimo interval mezi krajními uzly. Přiznávám, že sám nevím, jak přesně je to zde konstruováno, musel bych pátrat... Čistě pokusně zjišťuji, že hodnoty bazických splinů mimo interval mezi krajními uzly jsou též záporné. Pokud to takto necháte, všechny tyto hodnoty se objeví v matici modelu a odhadujete funkci, která je dána jako lineární kombinace něčeho, kde v tuto chvíli nevíme čeho a tedy ani nevíme, zda to dává smysl.

Další aspekt, o kterém určitě víte je, že pokud mám v krajních intervalech (resp. v kterémkoliv intervalu mezi dvěma uzly) málo pozorování, příslušné splinové koeficienty jsou odhadovány s velkou chybou se všemi důsledky z toho plynoucími. Tohle se pak mj. projeví na konfidenčních pásech, pokud je člověk kreslí, viz např. moje obrázky v řešení úlohy s rakovinou jícnu. Znalý "čtenář" potom ví, že v místech se širokým pásem musí brát odhadnutou funkci s "větší rezervou" než v místech, kde je pás úzký. Zejména je nebezpečné se v místech širokého pásu vyjadřovat ke změnám typu "zde to klesá a tady už to začíná růst". Obecně je tedy poměrně k ničemu odhadovat něco v oblastech, kde nemám data, odhad bude stejně tak špatný (směr. chyba atd.), že bude bezcenný. A zde se dostávám k první části otázky. Pokud si řeknete, že nemá cenu odhadovat chování funkce času za časem t = 15, potom bude rozumné volit krajní uzel 15 a potom ale i vyřadit pozorování s časem >15 s odůvodněním, že jsou již mimo oblast našeho zájmu. Pokud je tam necháme, tak i kdybychom zjistili, co vlastně funkce 'bs' dělá mimo krajní uzle, budeme zase jenom (s velkou chybou) odhadovat jakousi funkci v místech, kde nás nezajímá.