Tento článek ukazuje geometrické a intuitivní vysvětlení kovarianční matice a tak, jak to popisuje tvar množiny dat. Budeme popisovat geometrický vztah kovarianční matice s použitím lineárních transformací a eigendecompozice.
Úvod
než začneme, rychle se podíváme na rozdíl mezi kovariancí a rozptylem., Odchylka měří rozptyl jedné náhodné veličiny (například výška člověka v populaci), vzhledem k tomu, že kovariance je mírou toho, jak se dvě náhodné proměnné liší dohromady (jako je výška a hmotnost osoby, v populaci). Vzorec pro rozptyl je dán tím,
$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$
$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$
s n vzorky., Rozptyl \(\sigma_x^2\) náhodné proměnné \(x\) může být také vyjádřen jako kovariance sama se sebou \(\sigma(x, x)\).
Kovarianční Matice
$$
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
$$
V tomto článku se zaměříme na dvou-dimenzionálním případě, ale to může být snadno zobecnit na více dimenzionální data.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$
v Tomto případě by znamenalo, že \(x\) a \(y\) jsou nezávislé (nebo nekorelované) a kovarianční matice \(C\) je
$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$
můžeme to ověřit tím, že výpočet kovarianční matice
Což přibližně nám dává očekává, že kovarianční matice s rozptyly \(\sigma_x^2 = \sigma_y^2 = 1\).,
lineární transformace datové sady
dále se podíváme na to, jak transformace ovlivňují naše data a kovarianční matici \(C\). Naše data transformujeme pomocí následující matice měřítka.,y)^2 \end{array} \right)
$$
Nyní budeme aplikovat lineární transformaci ve formě transformační matice \(T\) na soubor dat, který bude složen z dvourozměrné matice rotace \(R\) a předchozí škálování matice \(Y\) takto,
$$T = R$$
kde rotace matice \(R\) je dána tím,
$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$
, kde \(\theta\) je úhel rotace., Transformovaná data se pak vypočítají podle \(Y = TX\) nebo \(Y = RSX\).
To vede k otázce, jak k rozkladu kovarianční matice \(C\) do rotace matice \(R\) a škálování matice \(S\).
Eigen Rozklad Kovarianční Matice
Vlastní Rozklad je jedním souvislosti mezi lineární transformace a kovarianční matice. Eigenvektor je vektor, jehož směr zůstává nezměněn, když je na něj aplikována lineární transformace., To může být vyjádřeno jako
$$ Av=\lambda v $$
$$ CV = VL $$
kde kovarianční matice může být reprezentován jako
$$ C = VIV^{-1} $$
, které mohou být také získány tím, že Singulární Rozklad. Na vlastní vektory jsou jednotkové vektory reprezentující směr největšího rozptylu dat, zatímco vlastní hodnoty představují velikost tohoto rozptylu v příslušných směrech. To znamená, že\ (V\) představuje rotační matici a \(\sqrt{L}\) představuje škálovací matici., Z této rovnice můžeme vyjádřit kovarianční matice \(C\) jako
$$ C = RSSR^{-1} $$
kde rotace matice \(R=V\) a škálování matice \(Y=\sqrt{L}\). Z předchozího lineární transformace \(T=RS\) můžeme odvodit
$$ C = RSSR^{-1} = TT^T $$
$$ T = V\sqrt{L} $$
zajímavé použití kovarianční matice je v Mahalanobisova vzdálenost, která se používá při měření vícerozměrné vzdálenosti s kovariance., To znamená, že do výpočtu nekorelované vzdálenost bodu \(x\) vícerozměrné normální rozdělení s následující vzorec,
$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))} $$
, kde \(\mu\) je střední a \(C\) je kovariance vícerozměrné normální rozložení (množinu bodů, předpokládá se, že být normální distribuované). Odvození vzdálenosti Mahalanobis s použitím rozkladu Cholesky lze nalézt v tomto článku.,
Závěr
V tomto článku jsme viděli, vztah kovarianční matice lineární transformace, která je důležitým stavebním kamenem pro pochopení a použití PCA, SVD, Bayesův Klasifikátor, Mahalanobisova vzdálenost a další témata ve statistice a rozpoznávání. Zjistil jsem, že kovarianční matice je užitečným základním kamenem v chápání mnoha konceptů a metod v rozpoznávání a statistice vzorů.
mnoho maticových identit lze nalézt v Matrix Cookbook., Vztah mezi SVD, PCA a kovarianční maticí je v této otázce elegantně zobrazen.