macierz korelacji jest tabelą przedstawiającą współczynniki korelacji między zmiennymi. Każda komórka w tabeli pokazuje korelację między dwiema zmiennymi. Macierz korelacji służy do podsumowania danych, jako wejście do bardziej zaawansowanej analizy i jako diagnostyka dla zaawansowanych analiz.

Utwórz własną macierz korelacji

kluczowe decyzje, które należy podjąć podczas tworzenia macierzy korelacji obejmują: wybór statystyki korelacji, kodowanie zmiennych, traktowanie brakujących danych i prezentację.,

przykład macierzy korelacji

zazwyczaj macierz korelacji jest „kwadratowa”, z tymi samymi zmiennymi pokazanymi w wierszach i kolumnach. Poniżej przedstawiam przykład. Pokazuje to korelacje między deklarowanym znaczeniem różnych rzeczy dla ludzi. Linia 1.00 s przechodząca od lewego górnego rogu do prawego dolnego rogu jest główną przekątną, co pokazuje, że każda zmienna zawsze doskonale koreluje ze sobą. Macierz ta jest symetryczna, z tą samą korelacją pokazaną powyżej głównej przekątnej jest lustrzane odbicie tych poniżej głównej przekątnej.,

Utwórz własną macierz korelacji

zastosowania macierzy korelacji

istnieją trzy ogólne powody obliczania macierzy korelacji:

  1. aby podsumować dużą ilość danych, których celem jest zobaczenie wzorców. W naszym przykładzie powyżej, obserwowalny wzór jest taki, że wszystkie zmienne silnie korelują ze sobą.
  2. do innych analiz., Na przykład ludzie często używają macierzy korelacji jako danych wejściowych do analizy czynnikowej, analizy czynnikowej potwierdzającej, modeli równań strukturalnych i regresji liniowej, gdy wykluczają brakujące wartości parami.
  3. jako diagnostyka przy sprawdzaniu innych analiz. Na przykład w przypadku regresji liniowej duża ilość korelacji sugeruje, że szacunki regresji liniowej będą niewiarygodne.

Statystyka korelacji

Większość macierzy korelacji wykorzystuje korelację Iloczynową (R) Pearsona. Często używa się również korelacji Spearmana i Tau-b Kendalla., Obie te korelacje są nieparametryczne i mniej podatne na wartości odstające niż r.

kodowanie zmiennych

Jeśli masz również dane z badania, musisz zdecydować, jak zakodować dane przed obliczeniem korelacji. Na przykład, jeśli respondenci otrzymali wybory zdecydowanie się nie zgadzają, nieco się nie zgadzają, ani się nie zgadzają, nieco się zgadzają i zdecydowanie się zgadzają, można przypisać kody odpowiednio 1, 2, 3, 4 i 5 (lub matematycznie równoważne z punktu widzenia korelacji, wyniki -2, -1, 0,1 i 2)., Możliwe są jednak inne kodowania, takie jak -4, -1, 0, 1, 4. Zmiany w kodowaniu mają zwykle niewielki wpływ, z wyjątkiem przypadków skrajnych.

leczenie brakujących wartości

dane, których używamy do obliczania korelacji, często zawierają brakujące wartości. Może to być spowodowane tym, że nie zebraliśmy tych danych lub nie znamy odpowiedzi. Istnieją różne strategie radzenia sobie z brakujących wartości podczas obliczania macierzy korelacji. Najlepszą praktyką jest zwykle stosowanie wielokrotnego przypisywania. Jednak ludzie częściej używają parami brakujących wartości (czasami znanych jako korelacje częściowe)., Polega to na obliczeniu korelacji przy użyciu wszystkich nie brakujących danych dla dwóch zmiennych. Alternatywnie niektórzy używają usuwania listwise, znanego również jako usuwanie case-wise, które wykorzystuje tylko obserwacje bez brakujących danych. Zarówno usuwanie w parach, jak i w przypadku zakładają, że brak danych jest całkowicie przypadkowy. Z tego powodu najczęściej preferowaną opcją jest wielokrotna imputacja.,

Prezentacja

prezentując macierz korelacji, musisz wziąć pod uwagę różne opcje, w tym:

  • czy pokazać całą macierz, jak powyżej, czy tylko nie nadmiarowe bity, jak poniżej (prawdopodobnie wartości 1.00 w głównej przekątnej powinny być również usunięte).
  • jak formatować liczby (na przykład, najlepszą praktyką jest usunięcie 0s przed miejscami dziesiętnymi i wyrównanie dziesiętne liczb, jak powyżej, ale może to być trudne do zrobienia w większości programów).
  • czy pokazać istotność statystyczną (np. poprzez kodowanie kolorami komórek na Czerwono).,
  • czy kodować wartości zgodnie ze statystykami korelacji (jak pokazano poniżej).
  • przestawianie wierszy i kolumn w celu uzyskania wyraźniejszych wzorców.

chcesz łatwo stworzyć własną macierz korelacji? Dowiedz się jak!

Stwórz własną macierz korelacji