Multiple lineare Regression ist eine Methode, die wir verwenden können, um die Beziehung zwischen zwei oder mehr erklärenden Variablen und einer Antwortvariablen zu verstehen.
Dieses Tutorial erklärt, wie mehrere lineare Regression in Excel durchzuführen.
Hinweis: Wenn Sie nur eine erklärende Variable haben, sollten Sie stattdessen eine einfache lineare Regression durchführen.,
Beispiel: Multiple lineare Regression in Excel
Angenommen, wir möchten wissen, ob die Anzahl der Studienstunden und die Anzahl der Vorbereitungsprüfungen die Punktzahl beeinflussen, die ein Student bei einer bestimmten Aufnahmeprüfung erhält.
Um diese Beziehung zu untersuchen, können wir mehrere lineare Regression mit Stunden untersucht und Vorbereitungsprüfungen als erklärende Variablen und Prüfungsergebnis als Antwortvariable genommen durchführen.
Führen Sie die folgenden Schritte in Excel durch, um eine mehrfache lineare Regression durchzuführen.
Schritt 1: Geben Sie die Daten ein.,
Geben Sie die folgenden Daten für die Anzahl der untersuchten Stunden, Vorbereitungsprüfungen und Prüfungsergebnisse für 20 Schüler ein:
Schritt 2: Mehrere lineare Regression durchführen.
Gehen Sie im oberen Menüband in Excel zur Registerkarte Daten und klicken Sie auf Datenanalyse. Wenn Sie diese Option nicht sehen, müssen Sie zuerst den kostenlosen Analyse-ToolPak installieren.
Sobald Sie auf Datenanalyse klicken, erscheint ein neues Fenster. Wählen Sie Regression und klicken Sie auf OK.,
Füllen Sie für den Eingangsbereich Y das Array mit Werten für die Antwortvariable aus. Füllen Sie für den X-Bereich der Eingabe das Array der Werte für die beiden erklärenden Variablen aus. Aktivieren Sie das Kontrollkästchen neben Beschriftungen, damit Excel weiß, dass wir die Variablennamen in die Eingabebereiche aufgenommen haben. Wählen Sie für den Ausgabebereich eine Zelle aus, in der die Ausgabe der Regression angezeigt werden soll. Klicken Sie dann auf OK.
Die folgende Ausgabe wird automatisch angezeigt:
Schritt 3: Interpretieren Sie die Ausgabe.,
So interpretieren Sie die relevantesten Zahlen in der Ausgabe:
R-Quadrat: 0.734. Dies wird als Bestimmungskoeffizient bezeichnet. Es ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel können 73,4% der Variation der Prüfungsergebnisse durch die Anzahl der untersuchten Stunden und die Anzahl der Vorbereitungsprüfungen erklärt werden.
Standardfehler: 5.366. Dies ist die durchschnittliche Entfernung, die die beobachteten Werte von der Regressionslinie fallen. In diesem Beispiel fallen die beobachteten Werte um durchschnittlich 5.,366 einheiten von der Regressionslinie.
F: 23.46. Dies ist die gesamte F-Statistik für das Regressionsmodell, berechnet als Regression MS / Rest MS.
Signifikanz F: 0.0000. Dies ist der p-Wert, der der gesamten F-Statistik zugeordnet ist. Es sagt uns, ob das Regressionsmodell als Ganzes statistisch signifikant ist oder nicht. Mit anderen Worten, es sagt uns, ob die beiden erklärenden Variablen kombiniert eine statistisch signifikante Assoziation mit der Antwortvariablen haben. In diesem Fall ist der p-Wert kleiner als 0 ist.,05, was darauf hinweist, dass die erklärenden Variablen Stunden untersucht und Vorbereitungsprüfungen genommen kombiniert haben eine statistisch signifikante Assoziation mit Prüfungsergebnis.
P-Werte. Die einzelnen p-Werte sagen uns, ob jede erklärende Variable statistisch signifikant ist oder nicht. Wir können sehen, dass die untersuchten Stunden statistisch signifikant sind (p = 0.00), während Vorbereitungsuntersuchungen (p = 0.52) bei α = 0.05 statistisch nicht signifikant sind. Da Vorbereitungsprüfungen statistisch nicht signifikant sind, können wir uns entscheiden, sie aus dem Modell zu entfernen.,
Koeffizienten: Die Koeffizienten für jede erklärende Variable geben die durchschnittliche erwartete Änderung der Antwortvariablen an, vorausgesetzt, die andere erklärende Variable bleibt konstant. Zum Beispiel wird für jede zusätzliche Unterrichtsstunde erwartet, dass die durchschnittliche Prüfungsnote um 5.56 ansteigt, vorausgesetzt, die abgelegten Vorbereitungsprüfungen bleiben konstant.
Hier ist eine andere Möglichkeit, darüber nachzudenken: Wenn Student A und Student B beide die gleiche Menge an Vorbereitungsprüfungen ablegen, Student A jedoch eine Stunde länger studiert, wird erwartet, dass Student A eine Punktzahl erzielt, die 5.56 Punkte höher ist als Student B.,
Wir interpretieren den Koeffizienten für den Intercept so, dass der erwartete Prüfungswert für einen Schüler, der null Stunden studiert und null Vorbereitungsprüfungen ablegt, 67,67 beträgt.
Geschätzte Regressionsgleichung: Wir können die Koeffizienten aus der Ausgabe des Modells verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:
Prüfungsergebnis = 67,67 + 5,56*(Stunden) – 0,60*(Vorbereitungsprüfungen)
Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungsbewertung für einen Schüler basierend auf der Anzahl der Stunden, die sie studieren, und der Anzahl der Vorbereitungsprüfungen, die sie ablegen, zu berechnen., Zum Beispiel wird erwartet, dass ein Student, der drei Stunden lang studiert und eine Vorbereitungsprüfung ablegt, eine Punktzahl von 83.75 erhält:
Prüfungsergebnis = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
Beachten Sie, dass wir uns möglicherweise dafür entscheiden, die Vorbereitungsprüfungen zu entfernen, da sie statistisch nicht signifikant waren (p = 0.52), da das Gesamtmodell dadurch nicht verbessert wird. In diesem Fall könnten wir eine einfache lineare Regression durchführen, wobei nur die untersuchten Stunden als erklärende Variable verwendet werden.
Die Ergebnisse dieser einfachen linearen Regressionsanalyse finden Sie hier.