Une matrice de corrélation est un tableau montrant les coefficients de corrélation entre les variables. Chaque cellule du tableau montre la corrélation entre deux variables. Une matrice de corrélation est utilisée pour résumer les données, comme entrée dans une analyse plus avancée et comme diagnostic pour les analyses avancées.

Créez votre propre matrice de corrélation

Les principales décisions à prendre lors de la création d’une matrice de corrélation comprennent: le choix de la statistique de corrélation, le codage des variables, le traitement des données manquantes et la présentation.,

Un exemple de matrice de corrélation

Typiquement, une matrice de corrélation est « carrée”, avec les mêmes variables affichées dans les lignes et les colonnes. J’ai montré un exemple ci-dessous. Cela montre des corrélations entre l’importance déclarée de diverses choses pour les gens. La ligne de 1,00 s allant du haut à gauche au bas à droite est la diagonale principale, ce qui montre que chaque variable est toujours parfaitement corrélée avec elle-même. Cette matrice est symétrique, avec la même corrélation est montrée au-dessus de la diagonale principale étant une image miroir de ceux ci-dessous la diagonale principale.,

Créer votre propre matrice de corrélation

Applications d’une matrice de corrélation

Il y a trois grandes raisons pour le calcul d’une matrice de corrélation:

  1. Pour résumer une grande quantité de données, où le but est de voir les profils. Dans notre exemple ci-dessus, le modèle observable est que toutes les variables sont fortement corrélées les unes avec les autres.
  2. Pour entrer dans d’autres analyses., Par exemple, les gens utilisent généralement des matrices de corrélation comme entrées pour l’analyse factorielle exploratoire, l’analyse factorielle confirmatoire, les modèles d’équations structurelles et la régression linéaire lorsqu’ils excluent les valeurs manquantes par paire.
  3. Comme diagnostic lors de la vérification d’autres analyses. Par exemple, avec la régression linéaire, un grand nombre de corrélations suggère que les estimations de régression linéaire ne seront pas fiables.

Statistique de corrélation

La plupart des matrices de corrélation utilisent la corrélation Produit-Moment (r) de Pearson. Il est également courant d’utiliser la corrélation de Spearman et le Tau-b de Kendall., Ces deux corrélations sont non paramétriques et moins sensibles aux valeurs aberrantes que r.

Codage des variables

Si vous avez également des données d’une enquête, vous devrez décider comment coder les données avant de calculer les corrélations. Par exemple, si les répondants avaient les choix suivants: Fortement en désaccord, Quelque peu en désaccord, Ni d’Accord ni En désaccord, Quelque peu d’accord et Fortement d’accord, vous pourriez attribuer des codes de 1, 2, 3, 4 et 5, respectivement (ou, mathématiquement équivalents du point de vue de la corrélation, des scores de -2, -1, 0, 1 et 2)., Cependant, d’autres codages sont possibles, comme -4, -1, 0, 1, 4. Les changements de codes ont tendance à avoir peu d’effet, sauf lorsqu’ils sont extrêmes.

Traitement des valeurs manquantes

Les données que nous utilisons pour calculer les corrélations souvent contenir des valeurs manquantes. Cela peut être dû au fait que nous n’avons pas collecté ces données ou que nous ne connaissons pas les réponses. Diverses stratégies existent pour traiter les valeurs manquantes lors du calcul des matrices de corrélation. Une meilleure pratique consiste généralement à utiliser l’imputation multiple. Cependant, les gens utilisent plus souvent des valeurs manquantes par paires (parfois appelées corrélations partielles)., Cela implique de calculer la corrélation en utilisant toutes les données non manquantes pour les deux variables. Alternativement, certains utilisent la suppression listwise, également appelée suppression par casse, qui utilise uniquement des observations sans données manquantes. La suppression par paires et par casse suppose que les données sont manquantes complètement au hasard. C’est pourquoi l’imputation multiple est généralement l’option préférable.,

Présentation

Lors de la présentation d’une matrice de corrélation, vous devrez envisager diverses options, notamment:

  • S’il faut afficher la matrice entière, comme ci-dessus ou simplement les bits non redondants, comme ci-dessous (sans doute les valeurs de 1,00 dans la diagonale principale doivent également être supprimées).
  • Comment formater les nombres (par exemple, la meilleure pratique consiste à supprimer les 0 avant les décimales et à aligner les nombres décimaux, comme ci-dessus, mais cela peut être difficile à faire dans la plupart des logiciels).
  • Indique s’il faut montrer la signification statistique (par exemple, par des cellules à code couleur rouge).,
  • Indique s’il faut coder les valeurs en fonction des statistiques de corrélation (comme indiqué ci-dessous).
  • Réorganiser les lignes et les colonnes pour rendre les motifs plus clairs.

Envie de créer facilement votre propre matrice de corrélation? Apprendre comment!

Créer votre propre matrice de corrélation