vícenásobná lineární regrese je metoda, kterou můžeme použít k pochopení vztahu mezi dvěma nebo více vysvětlujícími proměnnými a proměnnou odezvy.
tento tutoriál vysvětluje, jak provádět více lineární regrese v Excelu.
Poznámka: Pokud máte pouze jednu vysvětlující proměnnou, měli byste místo toho provést jednoduchou lineární regresi.,
Příklad: Vícenásobné Lineární Regrese v aplikaci Excel
Předpokládejme, že chceme vědět, jestli počet hodin strávených studiem a počet přípravných zkoušek má vliv na skóre, které student obdrží na určité vysoké škole přijímací zkoušky.
prozkoumat tento vztah, můžeme provádět vícenásobné lineární regrese pomocí hodin studoval a přípravu zkoušky přijata jako vysvětlující proměnné a zkoušky skóre jako závisle proměnná.
proveďte následující kroky v aplikaci Excel, abyste provedli vícenásobnou lineární regresi.
Krok 1: Zadejte data.,
Zadejte tyto údaje za počet hodin studoval, přípravu zkoušky přijata, a zkouška skóre obdržel pro 20 studentů:
Krok 2: Provést vícenásobné lineární regrese.
podél horní pásky v aplikaci Excel přejděte na kartu Data a klikněte na analýzu dat. Pokud tuto možnost nevidíte,musíte nejprve nainstalovat bezplatný nástroj pro analýzu.
po kliknutí na analýzu dat se objeví nové okno. Vyberte regresi a klikněte na OK.,
pro vstupní rozsah Y vyplňte pole hodnot proměnné odezvy. Pro rozsah vstupu X vyplňte pole hodnot pro dvě vysvětlující proměnné. Zaškrtněte políčko vedle štítků, aby Excel věděl, že jsme do vstupních rozsahů zahrnuli názvy proměnných. Pro výstupní rozsah vyberte buňku, kde chcete zobrazit výstup regrese. Poté klikněte na OK.
následující výstup se automaticky objeví:
Krok 3: Interpretovat výstup.,
zde je návod, jak interpretovat nejdůležitější čísla ve výstupu:
R čtverec: 0.734. Toto je známé jako koeficient stanovení. Je to podíl rozptylu v proměnné odezvy, který lze vysvětlit vysvětlujícími proměnnými. V tomto příkladu lze 73, 4% změny skóre zkoušky vysvětlit počtem studovaných hodin a počtem přijatých přípravných zkoušek.
standardní chyba: 5.366. Jedná se o průměrnou vzdálenost, kterou pozorované hodnoty spadají z regresní linie. V tomto příkladu pozorované hodnoty klesají v průměru o 5.,366 jednotek z regresní linie.
F: 23.46. Toto je celková statistika F pro regresní model, vypočtená jako regrese MS / zbytková MS.
význam F: 0.0000. Toto je hodnota p spojená s celkovou statistikou F. Říká nám, zda je regresní model jako celek statisticky významný. Jinými slovy, říká nám, zda obě vysvětlující proměnné dohromady mají statisticky významné spojení s proměnnou odezvy. V tomto případě je hodnota p menší než 0.,05, což naznačuje, že vysvětlující proměnné hodiny studované a přípravné zkoušky přijaté dohromady mají statisticky významnou souvislost se skóre zkoušky.
p-hodnoty. Jednotlivé hodnoty p nám říkají, zda je či není každá vysvětlující proměnná statisticky významná. Můžeme vidět, že hodiny studoval je statisticky významný (p = 0.00), zatímco přípravu zkoušky přijato (p = 0.52) není statisticky signifciant na α = 0,05. Vzhledem k tomu, že přijímané přípravné zkoušky nejsou statisticky významné, můžeme nakonec rozhodnout o jejich odstranění z modelu.,
koeficienty: koeficienty pro každou vysvětlující proměnnou nám říkají průměrnou očekávanou změnu proměnné odezvy za předpokladu, že druhá vysvětlující proměnná zůstane konstantní. Například, za každou další hodinu strávil studiem, průměrná zkoušku skóre se očekává zvýšení o 5.56, za předpokladu, že přípravu zkoušky přijato zůstává konstantní.
Tady je další způsob, jak přemýšlet o tom: Pokud student a a student B se stejné množství prep zkoušky, ale student studium po dobu jedné hodiny více, pak student se očekává, že vydělat skóre, které je 5.56 bodů vyšší než student B.,
interpretujeme koeficient pro průnik znamená, že očekává, že zkoušku skóre pro studenta, který studium nula hodin a trvá žádné zkoušky prep je 67.67.
Odhadovaná regresní rovnice: můžeme použít koeficienty z výstupu modelu vytvořit následující odhadované regresní rovnici:
zkouška skóre = 67.67 + 5.56*(hodiny) – 0.60*(prep zkoušky)
můžeme použít tento odhadovaná regresní rovnice pro výpočet očekávané zkoušku skóre pro studenta, na základě počtu hodin studia a počet přípravu zkoušky berou., Například, student, který studium po dobu tří hodin a trvá jeden prep se očekává, že obdrží skóre 83.75:
zkouška skóre = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
Mějte na paměti, že proto, přípravu zkoušky přijato nebylo statisticky významné (p = 0.52), může rozhodnout, že jej odstranit, protože to nepřidává žádné zlepšení celkového modelu. V tomto případě bychom mohli provádět jednoduchou lineární regresi pouze pomocí hodin studovaných jako vysvětlující proměnná.
výsledky této jednoduché lineární regresní analýzy naleznete zde.