Questo articolo mostra una spiegazione geometrica e intuitiva della matrice di covarianza e del modo in cui descrive la forma di un set di dati. Descriveremo la relazione geometrica della matrice di covarianza con l’uso di trasformazioni lineari e di autocomposizione.
Introduzione
Prima di iniziare, daremo una rapida occhiata alla differenza tra covarianza e varianza., La varianza misura la variazione di una singola variabile casuale (come l’altezza di una persona in una popolazione), mentre la covarianza è una misura di quanto due variabili casuali variare insieme (come l’altezza di una persona e il peso di una persona in una popolazione). La formula per la varianza è data da
$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$
$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$
con il n campioni., La varianza \ (\sigma_x^2\) di una variabile casuale\ (x\) può anche essere espressa come covarianza con se stessa da \(\sigma (x, x)\).
Matrice di Covarianza
C
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
br
In questo articolo, ci concentreremo sul caso bidimensionale, ma può essere facilmente generalizzato a dati più dimensionali.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$
Questo caso vorrebbe dire che \(x\) e \(y\) sono indipendenti (o indipendenti) e la matrice di covarianza \(C\) è
$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$
Siamo in grado di controllare il calcolo della matrice di covarianza,
Che approximatelly ci dà la nostra previsto matrice di covarianza, con variazioni \(\sigma_x^2 = \sigma_y^2 = 1\).,
Trasformazioni lineari del set di dati
Successivamente, vedremo come le trasformazioni influenzano i nostri dati e la matrice di covarianza \(C\). Trasformeremo i nostri dati con la seguente matrice di ridimensionamento.,y)^2 \end{array} \right)
$$
vediamo Ora di applicare una trasformazione lineare nella forma di una matrice di trasformazione \(T\) per il set di dati che sarà composto di due dimensioni della matrice di rotazione \(R\) e la precedente scala matrice \(S\) come segue
$$T = RS$$
in cui la matrice di rotazione \(R\) è data da
$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$
dove \(\theta\) è l’angolo di rotazione., I dati trasformati vengono quindi calcolati da \(Y = TX\) o \(Y = RSX\).
Questo porta alla domanda su come scomporre la matrice di covarianza \(C\) in una matrice di rotazione \(R\) e una matrice di scala \(S\).
Decomposizione di Eigen della matrice di covarianza
La decomposizione di Eigen è una connessione tra una trasformazione lineare e la matrice di covarianza. Un autovettore è un vettore la cui direzione rimane invariata quando viene applicata una trasformazione lineare., Esso può essere espresso come
$$ Av=\lambda $v$
$$ CV = VL $$
in cui la matrice di covarianza può essere rappresentato come
$$ C = VLV^{-1} $$
che può essere anche ottenuta dalla Decomposizione a valori Singolari. Gli autovettori sono vettori unitari che rappresentano la direzione della più grande varianza dei dati, mentre gli autovalori rappresentano la grandezza di questa varianza nelle direzioni corrispondenti. Ciò significa che \(V\) rappresenta una matrice di rotazione e \(\sqrt{L}\) rappresenta una matrice di ridimensionamento., Da questa equazione, possiamo rappresentare la matrice di covarianza \ (C\) come
C C = RSSR^{-1} where
dove la matrice di rotazione \(R=V\) e la matrice di scala \(S=\sqrt{L}\). Dalla precedente trasformazione lineare \(T=RS\), possiamo ricavare
$$ C = RSSR^{-1} = TT^T $$
$$ T = V\sqrt{L} $$
Un uso interessante della matrice di covarianza è la distanza di mahalanobis, che viene utilizzato quando si misura multivariata distanze con covarianza., Non che calcolando la incorrelati distanza tra un punto \(x\) di una distribuzione normale multivariata con la seguente formula
$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))} $$
dove \(\mu\) è la media e \(C\) è la covarianza della distribuzione normale multivariata (l’insieme di punti assunto per essere distribuito normale). Una derivazione della distanza di Mahalanobis con l’uso della decomposizione di Cholesky può essere trovata in questo articolo.,
Conclusione
In questo articolo abbiamo visto la relazione della matrice di covarianza con la trasformazione lineare che è un importante elemento costitutivo per la comprensione e l’utilizzo di PCA, SVD, il classificatore di Bayes, la distanza di Mahalanobis e altri argomenti in statistica e riconoscimento di pattern. Ho trovato la matrice di covarianza come una pietra angolare utile nella comprensione dei molti concetti e metodi nel riconoscimento dei pattern e nelle statistiche.
Molte delle identità della matrice possono essere trovate nel Ricettario Matrix., La relazione tra SVD, PCA e la matrice di covarianza è elegantemente mostrata in questa domanda.