meervoudige lineaire regressie is een methode die we kunnen gebruiken om de relatie tussen twee of meer verklarende variabelen en een responsvariabele te begrijpen.
deze tutorial legt uit hoe u meerdere lineaire regressie kunt uitvoeren in Excel.
Opmerking: Als u slechts één verklarende variabele hebt, moet u in plaats daarvan eenvoudige lineaire regressie uitvoeren.,
voorbeeld: meerdere lineaire regressie in Excel
stel dat we willen weten of het aantal studieuren en het aantal PrEP examens dat wordt afgenomen van invloed zijn op de score die een student ontvangt op een bepaald toelatingsexamen voor de universiteit.
om deze relatie te verkennen, kunnen we meerdere lineaire regressie uitvoeren met behulp van uren bestudeerd en prep examens genomen als verklarende variabelen en examen score als een respons variabele.
Voer de volgende stappen uit in Excel om een meervoudige lineaire regressie uit te voeren.
Stap 1: Voer de gegevens in.,
Voer de volgende gegevens in voor het aantal bestudeerde uren, afgenomen PrEP-examens en ontvangen examenscore voor 20 studenten:
Stap 2: Voer meerdere lineaire regressie uit.
ga langs het bovenste lint in Excel naar het tabblad Data en klik op Data-analyse. Als u deze optie niet ziet, moet u eerst de gratis Analysis ToolPak installeren.
zodra u op Data-analyse klikt, verschijnt er een nieuw venster. Selecteer regressie en klik op OK.,
voor invoer Y-bereik, vul de reeks waarden in voor de responsvariabele. Voor Input X bereik, vul de array van waarden voor de twee verklarende variabelen. Vink het vakje naast Labels aan zodat Excel weet dat we de namen van de variabelen in de invoerbereiken hebben opgenomen. Selecteer voor het uitvoerbereik een cel waarin u de uitvoer van de regressie wilt weergeven. Dan klikken OK.
De volgende uitvoer verschijnt automatisch:
Stap 3: interpreteer de uitvoer.,
Hier is hoe de meest relevante getallen in de uitvoer te interpreteren:
R vierkant: 0,734. Dit staat bekend als de determinatiecoëfficiënt. Het is de verhouding van de variantie in de responsvariabele die kan worden verklaard door de verklarende variabelen. In dit voorbeeld kan 73,4% van de variatie in de examenscores worden verklaard door het aantal bestudeerde uren en het aantal PrEP examens genomen.
standaardfout: 5.366. Dit is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit voorbeeld dalen de waargenomen waarden gemiddeld met 5.,366 eenheden van de regressielijn.
F: 23.46. Dit is de totale F-statistiek Voor het regressiemodel, berekend als regressie MS / resterende MS
significantie F: 0,0000. Dit is de p-waarde geassocieerd met de totale F-statistiek. Het vertelt ons of het regressiemodel als geheel statistisch significant is. Met andere woorden, het vertelt ons of de twee verklarende variabelen samen een statistisch significante associatie hebben met de responsvariabele. In dit geval is de p-waarde kleiner dan 0.,05, wat aangeeft dat de verklarende variabelen uren bestudeerd en prep examens genomen gecombineerd hebben een statistisch significante associatie met examenscore.
P-waarden. De individuele p-waarden vertellen ons of elke verklarende variabele statistisch significant is. We kunnen zien dat de bestudeerde uren statistisch significant zijn (p = 0,00) terwijl PrEP examens afgenomen (p = 0,52) statistisch niet significant zijn bij α = 0,05. Omdat PrEP examens genomen is niet statistisch significant, kunnen we uiteindelijk beslissen om het te verwijderen uit het model.,
coëfficiënten: de coëfficiënten voor elke verklarende variabele geven ons de gemiddelde verwachte verandering in de responsvariabele, ervan uitgaande dat de andere verklarende variabele constant blijft. Bijvoorbeeld, voor elke extra uur besteed studeren, De gemiddelde examenscore wordt verwacht te stijgen met 5,56, ervan uitgaande dat prep examens genomen constant blijft.
Hier is een andere manier om hierover na te denken: als student A en student B hetzelfde aantal PrEP examens afleggen, maar student A een uur langer studeert, dan wordt verwacht dat student A een score verdient die 5,56 punten hoger is dan student B.,
we interpreteren de coëfficiënt voor de intercept om te betekenen dat de verwachte examenscore voor een student die nul uur studeert en nul PrEP examens aflegt 67,67 is.
geschatte regressievergelijking: we kunnen de coëfficiënten uit de output van het model gebruiken om de volgende geschatte regressievergelijking te maken:
exam score = 67,67 + 5,56*(uren) – 0,60*(PrEP examens)
We kunnen deze Geschatte regressievergelijking gebruiken om de verwachte examenscore voor een student te berekenen, gebaseerd op het aantal uren dat ze studeren en het aantal prep examens dat ze afleggen., Een student die bijvoorbeeld drie uur studeert en één PrEP-examen aflegt, krijgt een score van 83,75:
examenscore = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
houd in gedachten dat omdat de PrEP-examens die werden afgenomen statistisch niet significant waren (p = 0,52), we kunnen besluiten om het te verwijderen omdat het geen verbetering toevoegt aan het algemene model. In dit geval kunnen we eenvoudige lineaire regressie uit te voeren met behulp van alleen uren bestudeerd als de verklarende variabele.
de resultaten van deze eenvoudige lineaire regressieanalyse zijn hier te vinden.