uma matriz de correlação é uma tabela mostrando coeficientes de correlação entre variáveis. Cada célula na tabela mostra a correlação entre duas variáveis. Uma matriz de correlação é usada para resumir dados, como uma entrada em uma análise mais avançada, e como um diagnóstico para análises avançadas.

Crie a sua própria matriz de correlação

As decisões-chave a tomar ao criar uma matriz de correlação incluem: Escolha da estatística de correlação, codificação das variáveis, tratamento dos dados em falta e apresentação.,

um exemplo de uma matriz de correlação

tipicamente, uma matriz de correlação é “quadrada”, com as mesmas variáveis mostradas nas linhas e Colunas. Eu mostrei um exemplo abaixo. Isto mostra correlações entre a importância declarada de várias coisas para as pessoas. A linha de 1,00 s indo do topo esquerdo para o fundo direito é a diagonal principal, que mostra que cada variável sempre perfeitamente correlaciona com si mesma. Esta matriz é simétrica, com a mesma correlação é mostrada acima da diagonal principal sendo uma imagem espelho daqueles abaixo da diagonal principal.,

Crie sua própria matriz de correlação

Aplicativos de uma matriz de correlação

Existem três grandes razões para calcular uma matriz de correlação:

  1. Para resumir uma grande quantidade de dados, onde o objetivo é ver padrões. Em nosso exemplo acima, o padrão observável é que todas as variáveis altamente correlacionadas entre si.
  2. para entrada em outras análises., Por exemplo, as pessoas comumente usam matrizes de correlação como entradas para análise exploratória de fatores, análise confirmatória de fatores, modelos de equações estruturais, e regressão linear ao excluir valores em falta em pares.como diagnóstico ao verificar outras análises. Por exemplo, com regressão linear, uma alta quantidade de correlações sugere que as estimativas de regressão linear não serão confiáveis.

estatística de correlação

a maioria das matrizes de correlação utilizam a correlação produto-momento de Pearson (r). Também é comum usar a correlação de Spearman e tau-b de Kendall., Ambas são correlações não paramétricas e menos suscetíveis a valores anómalos do que r.

codificação das variáveis

se também tiver dados de uma pesquisa, terá de decidir como codificar os dados antes de calcular as correlações. Por exemplo, se os inquiridos foram apresentadas opções de Discordo um Pouco Discordo, Nem Concordo nem Discordo, Concordo e Concordo Fortemente, você pode atribuir códigos de 1, 2, 3, 4, e 5, respectivamente (ou, matematicamente equivalente a partir da perspectiva de correlação, dezenas de -2, -1, 0, 1 e 2)., No entanto, outras codificações são possíveis, tais como: -4, -1, 0, 1, 4. As mudanças nas codificações tendem a ter pouco efeito, exceto quando extrema.

tratamento dos valores em falta

os dados que usamos para calcular correlações muitas vezes contêm valores em falta. Isto pode ser porque nós não coletamos esses dados ou não sabemos as respostas. Existem várias estratégias para lidar com valores em falta quando computamos matrizes de correlação. A melhor prática é usualmente usar múltiplas imputações. No entanto, as pessoas mais comumente usam valores em par (às vezes conhecidos como correlações parciais)., Isto envolve a correlação computacional usando todos os dados não-faltantes para as duas variáveis. Alternativamente, alguns usam exclusão listwise, também conhecido como exclusão case-wise, que só usa observações sem dados em falta. Tanto a par como a exclusão caso a caso assumem que os dados estão faltando completamente ao acaso. É por isso que a imputação múltipla é geralmente a opção preferível.,

apresentação

ao apresentar uma matriz de correlação, terá de considerar várias opções incluindo:

  • se deve mostrar toda a matriz, como acima ou apenas os bits não redundantes, como abaixo (os valores de 1,00 na diagonal principal também devem ser removidos).
  • Como formatar os números (por exemplo, a melhor prática é remover os 0s antes de casas decimais e decimais-alinhar os números, como acima, mas isso pode ser difícil de fazer na maioria dos programas).
  • Se mostraram significância estatística (por exemplo, através de codificação de cores células vermelhas).,
  • se deve codificar os valores de acordo com as estatísticas de correlação (como mostrado abaixo).
  • rearranjando as linhas e colunas para tornar os padrões mais claros.

deseja criar facilmente a sua própria matriz de correlação? Aprende como!

Crie a sua própria matriz de correlação