Denne artikkelen er å vise en geometrisk og intuitiv forklaring av covariance matrix og måten det beskriver form av et datasett. Vi vil beskrive geometriske forhold av covariance matrise med bruk av lineære transformasjoner og eigendecomposition.
Innledning
Før vi kommer i gang, skal vi ta en rask titt på forskjellen mellom covariance og varians., Avvik tiltak variant av et enkelt tilfeldig variabel (for eksempel høyden på en person i en populasjon), mens covariance er et mål på hvor mye to tilfeldige variabler varierer sammen (som høyden på en person, og vekten av en person i en populasjon). Formelen for variansen er gitt ved
$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$
$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$
med, n-prøver., Variansen \(\sigma_x^2\) av en tilfeldig variabel \(x\) kan også være uttrykt som covariance med seg av \(\sigma(x, x)\).
Covariance Matrix
$$
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
$$
I denne artikkelen vil vi fokusere på de to-dimensjonale tilfellet, men det kan lett generaliseres til flere dimensjonale data.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$
Dette tilfellet ville bety at \(x\) og \(y\) er uavhengige (eller ukorrelerte) og covariance matrix \(C\) er
$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$
Vi kan sjekke dette ved å beregne covariance matrix
Som approximatelly gir oss vår forventet covariance matrise med avvik \(\sigma_x^2 = \sigma_y^2 = 1\).,
Lineære Transformasjoner av Data Set
Neste, vil vi se på hvordan endringene påvirker våre data og covariance matrix \(C\). Vi vil forvandle våre data med følgende skalering matrise.,y)^2 \end{array} \right)
$$
Nå vil vi bruke en lineær transformasjon i form av en transformasjon matrix \(T\) til dataene som vil bli sammensatt av en to-dimensjonal rotasjon matrix \(R\), og den tidligere skalering matrix \(S\) som følger
$$T = RS$$
hvor rotasjonen matrix \(R\) er gitt ved
$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$
hvor \(\theta\), er rotasjon vinkel., De transformerte dataene er deretter beregnet ved \(Y = TX\) eller \(Y = RSX\).
Dette fører til spørsmålet om hvordan man bryter ned covariance matrix \(C\) i en rotasjon matrix \(R\), og en skalering matrix \(S\).
Eigen Dekomponering av Covariance Matrix
Eigen Nedbrytning er en forbindelse mellom en lineær transformasjon og covariance matrise. En eigenvector er en vektor som har retning forblir uendret når en lineær transformasjon er brukt til det., Det kan være uttrykt som
$$ Av=\lambda v $$
$$ CV = VL $$
hvor covariance matrise kan være representert
$$ C = VLV^{-1} $$
som du kan også oppnås ved Entall Verdi Nedbrytning. Den eigenvectors er enhet vektorer representerer retning av de største variansen av data, mens eigenvalues representerer størrelsen på dette avviket i tilsvarende retning. Dette betyr at \(V\) representerer en rotasjon matrix og \(\sqrt{L}\) representerer en skalering matrise., Fra denne likningen, kan vi representere covariance matrix \(C\) som
$$ C = RSSR^{-1} $$
hvor rotasjonen matrix \(R=V\) og skalering matrix \(S=\sqrt{L}\). Fra tidligere lineær transformasjon \(T=RS\) kan vi utlede
$$ C = RSSR^{-1} = TT^T $$
$$ T = V\sqrt{L} $$
En interessant bruk av covariance matrix er i Mahalanobis distance, som er brukt ved måling av multivariate avstander med covariance., Det betyr at ved beregning av ukorrelerte avstanden mellom et punkt \(x\) til en multivariat normalfordeling med følgende formel
$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))} $$
hvor \(\mu\) er gjennomsnittlig og \(C\) er covariance av den multivariate normalfordeling (et sett med punkter som er antatt å være normal fordelt). En avledning av Mahalanobis distance med bruk av Cholesky nedbrytning kan bli funnet i denne artikkelen.,
Konklusjon
I denne artikkelen så vi på forholdet mellom de covariance matrise med lineær transformasjon, som er en viktig byggesten for å forstå og bruke PCA, SVD, den Bayes Classifier, den Mahalanobis distance og andre emner i statistikk og mønstergjenkjenning. Jeg fant covariance matrise for å være en nyttig hjørnesteinen i forståelsen av de mange konsepter og metoder for mønstergjenkjenning og statistikk.
Mange av matrix identiteter kan bli funnet i Matrisen Kokebok., Forholdet mellom SVD, PCA og covariance matrix er elegant vist i dette spørsmålet.