Eine Korrelationsmatrix ist eine Tabelle mit Korrelationskoeffizienten zwischen Variablen. Jede Zelle in der Tabelle zeigt die Korrelation zwischen zwei Variablen. Eine Korrelationsmatrix wird verwendet, um Daten zusammenzufassen, als Eingabe in eine erweiterte Analyse und als Diagnose für erweiterte Analysen.
Erstellen Sie Ihre eigene Korrelationsmatrix
Zu den wichtigsten Entscheidungen beim Erstellen einer Korrelationsmatrix gehören: Auswahl der Korrelationsstatistik, Codierung der Variablen, Behandlung fehlender Daten und Präsentation.,
Ein Beispiel für eine Korrelationsmatrix
Typischerweise ist eine Korrelationsmatrix „quadratisch“, wobei dieselben Variablen in den Zeilen und Spalten angezeigt werden. Ich habe unten ein Beispiel gezeigt. Dies zeigt Korrelationen zwischen der angegebenen Bedeutung verschiedener Dinge für Menschen. Die Linie von 1,00 s, die von oben links nach unten rechts verläuft, ist die Hauptdiagonale, die zeigt, dass jede Variable immer perfekt mit sich selbst korreliert. Diese Matrix ist symmetrisch, wobei die gleiche Korrelation über der Hauptdiagonale ein Spiegelbild derjenigen unterhalb der Hauptdiagonale ist.,
Erstellen Sie Ihre eigene Korrelationsmatrix
Anwendungen einer Korrelationsmatrix
Es gibt drei Hauptgründe für die Berechnung einer Korrelationsmatrix:
- Um eine große Datenmenge zusammenzufassen, bei der Muster angezeigt werden sollen. In unserem obigen Beispiel besteht das beobachtbare Muster darin, dass alle Variablen stark miteinander korrelieren.
- Zur Eingabe in andere Analysen., Zum Beispiel verwenden Menschen häufig Korrelationsmatrizen als Eingaben für die explorative Faktoranalyse, Bestätigungsfaktoranalyse, Strukturgleichungsmodelle und lineare Regression, wenn fehlende Werte paarweise ausgeschlossen werden.
- Als Diagnose bei der Überprüfung anderer Analysen. Bei der linearen Regression deutet beispielsweise eine hohe Anzahl von Korrelationen darauf hin, dass die linearen Regressionsschätzungen unzuverlässig sind.
Korrelationsstatistik
Die meisten Korrelationsmatrizen verwenden Pearsons Produkt-Moment-Korrelation (r). Es ist auch üblich, Spearmans Korrelation und Kendalls Tau-b zu verwenden., Beide sind nicht parametrische Korrelationen und weniger anfällig für Ausreißer als r.
Codierung der Variablen
Wenn Sie auch Daten aus einer Umfrage haben, müssen Sie entscheiden, wie Sie die Daten codieren, bevor Sie die Korrelationen berechnen. Zum Beispiel, wenn die Befragten Entscheidungen von Stark nicht einverstanden gegeben wurden, Etwas nicht einverstanden, Weder zustimmen noch nicht zustimmen, Etwas zustimmen, und stark zustimmen, könnten Sie Codes von 1 zuweisen, 2, 3, 4, und 5, beziehungsweise (oder, mathematisch äquivalent aus der Perspektive der Korrelation, Scores von -2, -1, 0, 1, und 2)., Andere Codierungen sind jedoch möglich, wie zum Beispiel -4, -1, 0, 1, 4. Änderungen in Codierungen haben tendenziell wenig Wirkung, außer wenn sie extrem sind.
Behandlung fehlender Werte
Die Daten, die wir zur Berechnung von Korrelationen verwenden, enthalten häufig fehlende Werte. Dies kann entweder daran liegen, dass wir diese Daten nicht gesammelt haben oder die Antworten nicht kennen. Es gibt verschiedene Strategien für den Umgang mit fehlenden Werten bei der Berechnung von Korrelationsmatrizen. Eine bewährte Methode ist normalerweise die Verwendung mehrerer Imputationen. Menschen verwenden jedoch häufiger paarweise fehlende Werte (manchmal als partielle Korrelationen bezeichnet)., Dies beinhaltet die Berechnung der Korrelation unter Verwendung aller nicht fehlenden Daten für die beiden Variablen. Alternativ verwenden einige die listenweise Löschung, auch als fallweise Löschung bezeichnet, bei der nur Beobachtungen ohne fehlende Daten verwendet werden. Sowohl das paarweise als auch das fallweise Löschen geht davon aus, dass Daten völlig zufällig fehlen. Aus diesem Grund ist eine mehrfache Imputation im Allgemeinen die bevorzugte Option.,
Präsentation
Bei der Darstellung einer Korrelationsmatrix müssen Sie verschiedene Optionen in Betracht ziehen, darunter:
- Ob die gesamte Matrix wie oben oder nur die nicht redundanten Bits wie unten angezeigt werden sollen (wohl sollten auch die Korrelationswerte in der Hauptdiagonale entfernt werden).
- So formatieren Sie die Zahlen (es empfiehlt sich beispielsweise, die Nullen vor den Dezimalstellen zu entfernen und die Zahlen wie oben auszurichten, dies kann jedoch in den meisten Softwareanwendungen schwierig sein).
- Ob statistische Signifikanz (z.B. durch farbkodierende Zellen rot) angezeigt werden soll.,
- Ob die Werte gemäß der Korrelationsstatistik (wie unten gezeigt) farbcodiert werden sollen.
- Ordnen Sie die Zeilen und Spalten neu an, um Muster klarer zu machen.
Möchten Sie einfach Ihre eigene Korrelationsmatrix erstellen? Erfahren Sie wie!
Erstellen Sie Ihre eigene Korrelationsmatrix