Este artículo muestra una explicación geométrica e intuitiva de la matriz de covarianza y la forma en que describe la forma de un conjunto de datos. Describiremos la relación geométrica de la matriz de covarianza con el uso de transformaciones lineales y composición propia.
Introducción
antes de comenzar, echaremos un vistazo rápido a la diferencia entre covarianza y varianza., La varianza mide la variación de una sola variable aleatoria (como la altura de una persona en una población), mientras que la covarianza es una medida de cuánto varían dos variables aleatorias juntas (como la altura de una persona y el peso de una persona en una población). La fórmula para la varianza está dada por
$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$
$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$
con n muestras., La varianza \(\sigma_x^2\) de una variable aleatoria \(x\) también se puede expresar como la covarianza consigo misma por \(\sigma(x, x)\).
Matriz de Covarianza
$$
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
$$
En este artículo, nos centraremos en el caso bidimensional, pero puede ser fácilmente generalizado para más datos dimensional.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$
Este caso significaría que \(x\) e \(y\) son independientes (o no) y la matriz de covarianza \(C\) es
$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$
podemos comprobar esto mediante el cálculo de la matriz de covarianza
Que approximatelly nos da nuestra espera matriz de covarianza con variaciones de \(\sigma_x^2 = \sigma_y^2 = 1\).,
transformaciones lineales del conjunto de datos
a continuación, veremos cómo las transformaciones afectan nuestros datos y la matriz de covarianza \(C\). Transformaremos nuestros datos con la siguiente matriz de escalado.,y)^2 \end{array} \right)
<
ahora aplicaremos una transformación lineal en forma de una matriz de transformación \(t\) al conjunto de datos que estará compuesto por una matriz de rotación bidimensional \(R\) y la matriz de escala anterior \(s\) de la siguiente manera
$ $ t = RS <
donde la matriz de rotación \(R\) viene dada por
r
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta)& cos(\theta) \end{array} \derecha)
<
donde \(\theta\) es el ángulo de rotación., Los datos transformados se calculan por \(y = TX\) o \(y = RSX\).
esto lleva a la pregunta de cómo descomponer la matriz de covarianza \(C\) En una matriz de rotación \(R\) y una matriz de escala \(S\).
descomposición propia de la matriz de covarianza
La descomposición propia es una conexión entre una transformación lineal y la matriz de covarianza. Un vector propio es un vector cuya dirección permanece sin cambios cuando se le aplica una transformación lineal., Se puede expresar como
$$ Av=\lambda v $$
$$ CV = VL $$
donde la matriz de covarianza puede ser representado como
$$ C = VLV^{-1} $$
que también puede ser obtenido por la Descomposición de Valor Singular. Los autovectores son vectores unitarios que representan la dirección de la varianza más grande de los datos, mientras que los autovalores representan la magnitud de esta varianza en las direcciones correspondientes. Esto significa que \(V\) representa una matriz de rotación y \(\sqrt{L}\) representa una matriz de escala., A partir de esta ecuación, podemos representar la matriz de covarianza \(C\) como
c c = RSSR^{-1} where
donde la matriz de rotación \(R=V\) y la matriz de escala \(s=\sqrt{l}\). De la transformación lineal anterior \(T=RS\) podemos derivar
c c = RSSR^{-1} = TT^T <
T T = V\sqrt{l} <
un uso interesante de la la matriz de covarianza se encuentra en la distancia de Mahalanobis, que se utiliza cuando se miden distancias multivariables con covarianza., Lo hace mediante el cálculo de la correlación de la distancia entre un punto \(x\) a una distribución normal multivariante con la siguiente fórmula
$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu)} $$
donde \(\mu\) es la media y \(C\) es la covarianza de la distribución normal multivariante (el conjunto de puntos supone que para ser normal distribuido). Una derivación de la distancia Mahalanobis con el uso de la descomposición Cholesky se puede encontrar en este artículo.,
conclusión
en este artículo vimos la relación de la matriz de covarianza con la transformación lineal que es un bloque de construcción importante para comprender y usar PCA, SVD, el clasificador de Bayes, la distancia de Mahalanobis y otros temas en Estadística y reconocimiento de patrones. Encontré que la matriz de covarianza es una piedra angular útil en la comprensión de los muchos conceptos y métodos en el reconocimiento de patrones y estadísticas.
Muchas de las identidades de la matriz se pueden encontrar en el Libro de cocina de la matriz., La relación entre SVD, PCA y la matriz de covarianza se muestra elegantemente en esta pregunta.