La regressione lineare multipla è un metodo che possiamo utilizzare per comprendere la relazione tra due o più variabili esplicative e una variabile di risposta.
Questo tutorial spiega come eseguire regressione lineare multipla in Excel.
Nota: Se hai solo una variabile esplicativa, dovresti invece eseguire una semplice regressione lineare.,
Esempio: Regressione lineare multipla in Excel
Supponiamo di voler sapere se il numero di ore trascorse a studiare e il numero di esami di preparazione sostenuti influisce sul punteggio che uno studente riceve in un determinato esame di ammissione all’università.
Per esplorare questa relazione, possiamo eseguire una regressione lineare multipla utilizzando le ore studiate e gli esami di preparazione presi come variabili esplicative e il punteggio dell’esame come variabile di risposta.
Eseguire le seguenti operazioni in Excel per eseguire una regressione lineare multipla.
Passo 1: Inserire i dati.,
Inserisci i seguenti dati per il numero di ore studiate, gli esami di preparazione sostenuti e il punteggio dell’esame ricevuto per 20 studenti:
Passo 2: Esegui regressione lineare multipla.
Lungo la barra multifunzione superiore in Excel, vai alla scheda Dati e fai clic su Analisi dati. Se non vedi questa opzione, devi prima installare l’Analisi gratuita ToolPak.
Una volta fatto clic su Analisi dei dati, verrà visualizzata una nuova finestra. Selezionare Regressione e fare clic su OK.,
Per l’intervallo Y di input, compilare l’array di valori per la variabile di risposta. Per l’intervallo X di input, compilare l’array di valori per le due variabili esplicative. Seleziona la casella accanto alle etichette in modo che Excel sappia che abbiamo incluso i nomi delle variabili negli intervalli di input. Per Intervallo di output, selezionare una cella in cui si desidera visualizzare l’output della regressione. Quindi fare clic su OK.
Apparirà automaticamente il seguente output:
Passaggio 3: Interpretare l’output.,
Ecco come interpretare i numeri più rilevanti nell’output:
R Quadrato: 0.734. Questo è noto come il coefficiente di determinazione. È la proporzione della varianza nella variabile di risposta che può essere spiegata dalle variabili esplicative. In questo esempio, il 73,4% della variazione dei punteggi degli esami può essere spiegato dal numero di ore studiate e dal numero di esami di preparazione sostenuti.
Errore standard: 5.366. Questa è la distanza media che i valori osservati cadono dalla linea di regressione. In questo esempio, i valori osservati scendono in media di 5.,366 unità dalla linea di regressione.
F: 23.46. Questa è la statistica F complessiva per il modello di regressione, calcolata come MS di regressione / MS residuo.
Significato F: 0,0000. Questo è il valore p associato alla statistica F complessiva. Ci dice se il modello di regressione nel suo complesso è statisticamente significativo. In altre parole, ci dice se le due variabili esplicative combinate hanno un’associazione statisticamente significativa con la variabile di risposta. In questo caso il valore p è inferiore a 0.,05, che indica che le variabili esplicative ore studiate e gli esami di preparazione sostenuti combinati hanno un’associazione statisticamente significativa con il punteggio dell’esame.
P-valori. I singoli valori p ci dicono se ogni variabile esplicativa è statisticamente significativa o meno. Possiamo vedere che le ore studiate sono statisticamente significative (p = 0.00) mentre gli esami di preparazione (p = 0.52) non sono statisticamente significativi a α = 0.05. Dal momento che gli esami di preparazione non sono statisticamente significativi, potremmo finire per decidere di rimuoverlo dal modello.,
Coefficienti: I coefficienti per ogni variabile esplicativa ci dicono la variazione media prevista nella variabile di risposta, supponendo che l’altra variabile esplicativa rimanga costante. Ad esempio, per ogni ora aggiuntiva spesa a studiare, il punteggio medio dell’esame dovrebbe aumentare di 5,56, supponendo che gli esami di preparazione sostenuti rimangano costanti.
Ecco un altro modo di pensare a questo: se lo studente A e lo studente B prendono entrambi la stessa quantità di esami di preparazione ma lo studente A studia per un’ora in più, allora lo studente A dovrebbe guadagnare un punteggio che è 5.56 punti più alto dello studente B.,
Interpretiamo il coefficiente per l’intercettazione nel senso che il punteggio d’esame previsto per uno studente che studia zero ore e prende zero esami di preparazione è 67.67.
Equazione di regressione stimata: Possiamo usare i coefficienti dell’output del modello per creare la seguente equazione di regressione stimata:
punteggio dell’esame = 67.67 + 5.56*(ore) – 0.60*(esami di preparazione)
Possiamo usare questa equazione di regressione stimata per calcolare il punteggio dell’esame previsto per uno studente, in base al numero di ore che studiano e al numero di esami di preparazione che prendono., Ad esempio, uno studente che studia per tre ore e prende un esame di preparazione dovrebbe ricevere un punteggio di 83.75:
punteggio dell’esame = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
Tieni presente che poiché gli esami di preparazione non erano statisticamente significativi (p = 0.52), potremmo decidere di rimuoverlo perché non aggiunge alcun miglioramento al modello generale. In questo caso, potremmo eseguire una semplice regressione lineare utilizzando solo le ore studiate come variabile esplicativa.
I risultati di questa semplice analisi di regressione lineare possono essere trovati qui.