Una matrice di correlazione è una tabella che mostra i coefficienti di correlazione tra variabili. Ogni cella della tabella mostra la correlazione tra due variabili. Una matrice di correlazione viene utilizzata per riassumere i dati, come input in un’analisi più avanzata e come diagnostica per analisi avanzate.
Crea la tua matrice di correlazione
Le decisioni chiave da prendere quando si crea una matrice di correlazione includono: scelta della statistica di correlazione, codifica delle variabili, trattamento dei dati mancanti e presentazione.,
Un esempio di una matrice di correlazione
Tipicamente, una matrice di correlazione è “quadrata”, con le stesse variabili mostrate nelle righe e nelle colonne. Ho mostrato un esempio qui sotto. Ciò mostra le correlazioni tra l’importanza dichiarata di varie cose per le persone. La linea di 1.00 s che va dall’alto a sinistra verso il basso a destra è la diagonale principale, che mostra che ogni variabile è sempre perfettamente correlata con se stessa. Questa matrice è simmetrica, con la stessa correlazione è mostrata sopra la diagonale principale essendo un’immagine speculare di quelle sotto la diagonale principale.,
Creare una propria matrice di correlazione
Applicazioni di una matrice di correlazione
Ci sono tre grandi motivi per il calcolo di una matrice di correlazione:
- Per riassumere una grande quantità di dati in cui l’obiettivo è quello di vedere i modelli. Nel nostro esempio sopra, il modello osservabile è che tutte le variabili sono altamente correlate tra loro.
- Da inserire in altre analisi., Ad esempio, le persone usano comunemente matrici di correlazione come input per l’analisi fattoriale esplorativa, l’analisi fattoriale di conferma, i modelli di equazioni strutturali e la regressione lineare quando escludono i valori mancanti a coppie.
- Come diagnostica durante il controllo di altre analisi. Ad esempio, con la regressione lineare, un’elevata quantità di correlazioni suggerisce che le stime di regressione lineare saranno inaffidabili.
Statistica di correlazione
La maggior parte delle matrici di correlazione usa la correlazione Prodotto-momento (r) di Pearson. È anche comune usare la Correlazione di Spearman e il Tau-b di Kendall., Entrambe sono correlazioni non parametriche e meno suscettibili ai valori anomali di r.
Codifica delle variabili
Se si dispone anche di dati da un sondaggio, è necessario decidere come codificare i dati prima di calcolare le correlazioni. Ad esempio, se agli intervistati sono state date scelte di Forte disaccordo, In qualche modo in disaccordo, Né d’accordo né in disaccordo, In qualche modo d’accordo e fortemente d’accordo, è possibile assegnare codici di 1, 2, 3, 4 e 5, rispettivamente (o, matematicamente equivalente dal punto di vista della correlazione, punteggi di -2, -1, 0, 1 e 2)., Tuttavia, sono possibili altre codifiche, come ad esempio -4, -1, 0, 1, 4. I cambiamenti nelle codifiche tendono ad avere scarso effetto, tranne quando estremi.
Trattamento dei valori mancanti
I dati che utilizziamo per calcolare le correlazioni spesso contengono valori mancanti. Questo può essere perché non abbiamo raccolto questi dati o non conosciamo le risposte. Esistono varie strategie per gestire i valori mancanti quando si calcolano le matrici di correlazione. Una migliore pratica è di solito usare l’imputazione multipla. Tuttavia, le persone usano più comunemente valori mancanti a coppie (a volte noti come correlazioni parziali)., Ciò comporta la correlazione di calcolo utilizzando tutti i dati non mancanti per le due variabili. In alternativa, alcuni usano la cancellazione listwise, nota anche come cancellazione case-wise, che utilizza solo osservazioni senza dati mancanti. Sia la cancellazione a coppie che quella case-wise presuppongono che i dati manchino completamente a caso. Questo è il motivo per cui l’imputazione multipla è generalmente l’opzione preferibile.,
Presentazione
Quando si presenta una matrice di correlazione, è necessario considerare varie opzioni tra cui:
- Se mostrare l’intera matrice, come sopra o solo i bit non ridondanti, come sotto (probabilmente i valori 1.00 nella diagonale principale dovrebbero anche essere rimossi).
- Come formattare i numeri (ad esempio, la migliore pratica è rimuovere gli 0 prima delle posizioni decimali e allineare i numeri decimali, come sopra, ma questo può essere difficile da fare nella maggior parte dei software).
- Indica se mostrare la significatività statistica (ad esempio, mediante celle di codifica a colori rosse).,
- Se colorare i valori in base alle statistiche di correlazione (come mostrato di seguito).
- Riorganizzare le righe e le colonne per rendere i modelli più chiari.
Vuoi creare facilmente la tua matrice di correlazione? Scopri come!
Crea la tua matrice di correlazione