Acest articol prezintă o explicație geometrică și intuitivă a matricei covarianței și a modului în care descrie forma unui set de date. Vom descrie relația geometrică a matricei covarianței cu utilizarea transformărilor liniare și a eigendecompoziției.

Introducere

înainte de a începe, vom arunca o privire rapidă asupra diferenței dintre covarianță și varianță., Varianța măsoară variația unei singure variabile aleatoare (cum ar fi înălțimea unei persoane dintr-o populație), în timp ce covarianța este o măsură a cât de mult două variabile aleatorii variază împreună (cum ar fi înălțimea unei persoane și greutatea unei persoane dintr-o populație). Formula de variație este dată de

$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$

$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$

cu n eșantioane., Varianța \(\sigma_x^2\) a unei variabile aleatoare \(x\) poate fi exprimată și ca covarianță cu ea însăși prin \(\sigma(x, x)\).

matricea covarianței

$$
C = \ frac{1}{N-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
$$

în acest articol, ne vom concentra pe cazul bidimensional, dar poate fi ușor generalizat la date mai dimensionale.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$

Acest caz ar însemna că \(x\) și \(y\) sunt independente (sau necorelate) și matricea de covarianță \(C\) este

$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$

putem verifica acest lucru prin calcularea matricei de covarianță

Care aproximativ dă-ne de așteptat matricea de covarianta cu variații \(\sigma_x^2 = \sigma_y^2 = 1\).,

transformări liniare ale setului de date

în continuare, vom analiza modul în care transformările afectează datele noastre și matricea covarianței \(C\). Vom transforma datele noastre cu următoarea matrice de scalare.,y)^2 \end{array} \right)
$$

Acum vom aplica o transformare liniară în formă de matricea de transformare \(T\) pentru setul de date care va fi compus din două dimensiuni de rotație matricea \(R\) și anterior matrice de scalare \(S\) după cum urmează

$$T = RS$$

în cazul în care rotația matricea \(R\) este dat de

$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$

unde \(\theta\) este unghiul de rotație., Datele transformate sunt apoi calculate prin \(Y = TX\) sau \(Y = RSX\).aceasta duce la întrebarea cum se descompune matricea covarianței \(C\) într-o matrice de rotație \(R\) și o matrice de scalare \(s\).

descompunerea Eigen a matricei covarianței

descompunerea Eigen este o legătură între o transformare liniară și matricea covarianței. Un vector propriu este un vector a cărui direcție rămâne neschimbată atunci când i se aplică o transformare liniară., Acesta poate fi exprimat ca

$$ Av=\lambda v $$

$$ CV = VL $$

unde matricea covarianței poate fi reprezentată ca

$$ c = VLV^{-1} $$

care poate fi obținută și prin descompunerea valorii singulare. Vectorii proprii sunt vectori unitari reprezentând direcția celei mai mari varianțe a datelor, în timp ce valorile proprii reprezintă magnitudinea acestei varianțe în direcțiile corespunzătoare. Aceasta înseamnă că \(V\) reprezintă o matrice de rotație și \(\sqrt{l}\) reprezintă o matrice de scalare., Din această ecuație, putem reprezenta matricea covarianței \(C\) ca

$$ c = RSSR^{-1} $$

unde matricea de rotație \(R=V\) și matricea de scalare \(s=\sqrt{l}\). De cel anterior transformare liniară \(T=RS\) putem obține

$$ C = RSSR^{-1} = TT^T $$

$$ T = V\sqrt{L} $$

Un mod interesant de a folosi matricea de covarianță este în distanța Mahalanobis, care este utilizat la măsurarea multivariată distanțe cu covarianță., Face asta prin calcularea necorelate distanța dintre un punct \(x\) pentru o distribuție normală multivariată cu următoarea formulă

$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))} $$

unde \(\mu\) este medie și \(C\) este covarianța de distribuție normală multivariată (set de puncte de presupus să fie normal distribuite). O derivare a distanței Mahalanobis cu utilizarea descompunerii Colesky poate fi găsită în acest articol.,în acest articol am văzut relația matricei covarianței cu transformarea liniară, care este un bloc important pentru înțelegerea și utilizarea PCA, SVD, clasificatorul Bayes, distanța Mahalanobis și alte subiecte în statistici și recunoașterea modelelor. Am găsit matricea covarianței ca fiind o piatră de temelie utilă în înțelegerea numeroaselor concepte și metode în recunoașterea modelelor și statistici.multe dintre identitățile matricei pot fi găsite în cartea de bucate Matrix., Relația dintre SVD, PCA și matricea covarianței sunt prezentate elegant în această întrebare.