Cet article présente une explication géométrique et intuitive de la matrice de covariance et de la façon dont elle décrit la forme d’un ensemble de données. Nous décrirons la relation géométrique de la matrice de covariance avec l’utilisation de transformations linéaires et de composition propre.

Introduction

Avant de commencer, nous examinerons rapidement la différence entre covariance et variance., La Variance des mesures de la variation d’une seule variable aléatoire (comme la hauteur d’une personne dans une population), alors que la covariance est une mesure de la quantité de deux variables aléatoires varie (comme la hauteur d’une personne et le poids d’une personne dans une population). La formule de la variance est donnée par

$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$

$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$

avec n échantillons., La variance \(\sigma_x^2\) d’une variable aléatoire \(x\) peut aussi être exprimée comme la covariance avec lui-même par \(\sigma(x, x)\).

Matrice de covariance

$ $
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}

Dans cet article, nous allons nous concentrer sur le cas bidimensionnel, mais il peut être facilement généralisé à des données plus dimensionnelles.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$

Ce cas serait de dire que \(x\) et \(y\) sont indépendants (ou non corrélés) et la matrice de covariance \(C\) est

$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$

On peut vérifier cela par le calcul de la matrice de covariance

Qui approximatelly nous donne notre matrice de covariance avec des écarts \(\sigma_x^2 = \sigma_y^2 = 1\).,

Transformations linéaires de l’Ensemble de données

Ensuite, nous examinerons comment les transformations affectent nos données et la matrice de covariance \(C\). Nous allons transformer nos données avec la matrice de mise à l’échelle suivante.,y)^2 \end{array} \right)
$$

Maintenant, nous allons appliquer une transformation linéaire sous la forme d’une matrice de transformation de \(T\) à l’ensemble de données qui sera composé de deux dimensions, la rotation de la matrice \(R\) et la précédente mise à l’échelle de la matrice \(S\) comme suit

$$T = RS$$

où la rotation de la matrice \(R\) est donnée par:

$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$

où \(\theta\) est l’angle de rotation., Les données transformées sont ensuite calculées par \(Y = TX\) ou \(Y = RSX\).

Cela conduit à la question de savoir comment décomposer la matrice de covariance \(C\) dans une matrice de rotation \(R\) et une mise à l’échelle de la matrice \(S\).

Décomposition propre de la matrice de covariance

La décomposition propre est une connexion entre une transformation linéaire et la matrice de covariance. Un vecteur propre est un vecteur dont la direction reste inchangée lorsqu’une transformation linéaire est appliquée., Il peut être exprimé sous la forme

$$ Av=\lambda v $$

$$ CV = VL $$

où la matrice de covariance peut être représenté comme

$$ C = VLV^{-1} $$

ce qui peut aussi être obtenue par Décomposition en valeurs Singulières. Les vecteurs propres sont des vecteurs unitaires représentant la direction de la plus grande variance des données, tandis que les valeurs propres représentent l’ampleur de cette variance dans les directions correspondantes. Cela signifie que \(V\) représente une matrice de rotation et \(\sqrt{L}\) représente une matrice de mise à l’échelle., À partir de cette équation, nous pouvons représenter la matrice de covariance \(C\) comme

$ $ C = RSSR^{-1}

où la matrice de rotation \(R=V\) et la matrice d’échelle \(S=\sqrt{L}\). De la transformation linéaire précédente \(T=RS\), nous pouvons dériver

$ $ C = RSSR^{-1} = TT^T

$ $ T = V\sqrt{L}

Une utilisation intéressante de la matrice de covariance est dans la distance de Mahalanobis, qui est utilisée lors de la mesure de distances multivariées avec covariance., Il le fait en calculant la distance non corrélée entre un point \(x\) et une distribution normale multivariée avec la formule suivante

D D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))}

où \(\mu\) est la moyenne et \(C\) est la covariance de la distribution normale multivariée (l’ensemble des points supposés être distribués normalement). Une dérivation de la distance Mahalanobis avec l’utilisation de la décomposition de Cholesky peut être trouvée dans cet article.,

Conclusion

Dans cet article, nous avons vu la relation de la matrice de covariance avec la transformation linéaire qui est un élément important pour comprendre et utiliser PCA, SVD, le classificateur Bayes, la distance Mahalanobis et d’autres sujets en statistiques et reconnaissance de formes. J’ai trouvé que la matrice de covariance était une pierre angulaire utile dans la compréhension des nombreux concepts et méthodes de reconnaissance de formes et de statistiques.

De nombreuses identités matricielles se trouvent dans le livre de recettes Matrix., La relation entre SVD, PCA et la matrice de covariance est élégamment montrée dans cette question.