La régression linéaire multiple est une méthode que nous pouvons utiliser pour comprendre la relation entre deux ou plusieurs variables explicatives et une variable de réponse.
Ce tutoriel explique comment effectuer une régression linéaire multiple dans Excel.
Remarque: Si vous n’avez qu’une seule variable explicative, vous devriez plutôt effectuer une régression linéaire simple.,
Exemple: Régression linéaire multiple dans Excel
Supposons que nous voulions savoir si le nombre d’heures passées à étudier et le nombre d’examens de préparation passés affectent le score qu’un étudiant reçoit à un certain examen d’entrée au collège.
Pour explorer cette relation, nous pouvons effectuer une régression linéaire multiple en utilisant les heures étudiées et les examens de préparation pris comme variables explicatives et le score d’examen comme variable de réponse.
Effectuez les étapes suivantes dans Excel pour effectuer une régression linéaire multiple.
Étape 1: Entrez les données.,
Entrez les données suivantes pour le nombre d’heures étudié, préparation examens passés, et l’examen de score de 20 étudiants:
Étape 2: Effectuer la régression linéaire multiple.
Le long du ruban supérieur dans Excel, allez dans l’onglet Données et cliquez sur Analyse des données. Si vous ne voyez pas cette option, vous devez d’abord installer l’outil d’analyse gratuit ToolPak.
une Fois que vous cliquez sur l’Analyse des Données, une nouvelle fenêtre s’ouvrira. Sélectionnez Régression et cliquez sur OK.,
Pour l’Entrée Y, remplir le tableau de valeurs pour la variable de réponse. Pour Input X Range, remplissez le tableau de valeurs pour les deux variables explicatives. Cochez la case à côté des étiquettes afin qu’Excel sache que nous avons inclus les noms de variables dans les plages d’entrée. Pour Plage de sortie, sélectionnez une cellule où vous souhaitez que la sortie de la régression apparaisse. Puis cliquez sur OK.
La sortie suivante apparaît automatiquement:
Etape 3: Interpréter les résultats.,
Voici comment interpréter les plus pertinents de numéros de la sortie:
R Carré: 0.734. C’est ce qu’on appelle le coefficient de détermination. C’est la proportion de la variance dans la variable de réponse qui peut être expliquée par les variables explicatives. Dans cet exemple, 73,4% de la variation des résultats aux examens peut s’expliquer par le nombre d’heures étudiées et le nombre d’examens de préparation passés.
Erreur type: 5.366. Il s’agit de la distance moyenne à laquelle les valeurs observées tombent de la droite de régression. Dans cet exemple, les valeurs observées tombent en moyenne de 5.,366 unités de la droite de régression.
F: 23.46. Il s’agit de la statistique F globale pour le modèle de régression, calculée sous forme de régression MS / MS résiduelle.
Signification F: 0,0000. Il s’agit de la valeur p associée à la statistique F globale. Il nous indique si le modèle de régression dans son ensemble est statistiquement significatif. En d’autres termes, il nous indique si les deux variables explicatives combinées ont une association statistiquement significative avec la variable de réponse. Dans ce cas, la valeur p est inférieure à 0.,05, qui indique que les variables explicatives heures étudiées et les examens de préparation passés combinés ont une association statistiquement significative avec le score de l’examen.
P-valeurs. Les valeurs p individuelles nous indiquent si chaque variable explicative est statistiquement significative. Nous pouvons voir que les heures étudiées sont statistiquement significatives (p = 0,00) alors que les examens de préparation passés (p = 0,52) ne sont pas statistiquement significatifs à α = 0,05. Étant donné que les examens de préparation passés ne sont pas statistiquement significatifs, nous pouvons finir par décider de le supprimer du modèle.,
Coefficients: Les coefficients de chaque variable explicative nous indiquent la variation moyenne attendue de la variable de réponse, en supposant que l’autre variable explicative reste constante. Par exemple, pour chaque heure supplémentaire passée à étudier, le score moyen à l’examen devrait augmenter de 5,56, en supposant que les examens de préparation passés restent constants.
Voici une autre façon de penser à cela: Si l’étudiant A et l’étudiant B passent tous les deux le même nombre d’examens de préparation mais que l’étudiant A étudie pendant une heure de plus, l’étudiant A devrait obtenir un score supérieur de 5,56 points à celui de l’étudiant B.,
Nous interprétons le coefficient de l’interception comme signifiant que le score attendu à l’examen pour un étudiant qui étudie zéro heure et passe zéro examen préparatoire est de 67,67.
Équation de régression estimée: Nous pouvons utiliser les coefficients de la sortie du modèle pour créer l’équation de régression estimée suivante:
score à l’examen = 67,67 + 5,56*(heures) – 0,60*(examens de préparation)
Nous pouvons utiliser cette équation de régression estimée pour calculer le score attendu à l’examen d’un étudiant, en fonction du nombre d’heures qu’il étudie et du nombre d’examens de préparation qu’il passe., Par exemple, un étudiant qui étudie pendant trois heures et passe un examen préparatoire devrait recevoir une note de 83,75:
score d’examen = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
Gardez à l’esprit que parce que les examens de préparation passés n’étaient pas statistiquement significatifs (p = 0,52), nous pouvons décider de le supprimer car cela n’ajoute aucune amélioration au modèle global. Dans ce cas, nous pourrions effectuer une régression linéaire simple en utilisant uniquement les heures étudiées comme variable explicative.
Les résultats de cette analyse de régression linéaire simple peuvent être trouvés ici.