Dieser Artikel zeigt eine geometrische und intuitive Erklärung der Kovarianzmatrix und wie sie die Form eines Datensatzes beschreibt. Wir werden die geometrische Beziehung der Kovarianzmatrix unter Verwendung linearer Transformationen und Eigenkomposition beschreiben.

Einführung

Bevor wir beginnen, werden wir uns den Unterschied zwischen Kovarianz und Varianz kurz ansehen., Varianz misst die Variation einer einzelnen Zufallsvariablen (wie die Größe einer Person in einer Population), während Kovarianz ein Maß dafür ist, wie stark zwei Zufallsvariablen zusammen variieren (wie die Größe einer Person und das Gewicht einer Person in einer Population). Die Formel für die Varianz ist gegeben durch

$$
\sigma^2_x = \frac{1}{n-1} \sum^{n}_{i=1}(x_i – \bar{x})^2 \\
$$

$$
\sigma(x, y) = \frac{1}{n-1} \sum^{n}_{i=1}{(x_i-\bar{x})(y_i-\bar{y})}
$$

mit n samples., Die Varianz \(\sigma_x^2\) einer Zufallsvariablen \(x\) kann auch als Kovarianz mit sich selbst durch \(\sigma (x, x)\) ausgedrückt werden.

Kovarianz-Matrix

$$
C = \frac{1}{n-1} \sum^{n}_{i=1}{(X_i-\bar{X})(X_i-\bar{X})^T}
$$

In diesem Artikel konzentrieren wir uns auf den zweidimensionalen Fall aber es kann leicht verallgemeinert, um mehr-dimensionale Daten.,\sigma(x, y) \\
\sigma(y, x) & \sigma(y, y) \end{array} \right)
$$

Dieser Fall würde bedeuten, dass \(x\) und \(y\) unabhängig sind (oder nicht korreliert sind) und die Kovarianzmatrix \(C\)

$$
C = \left( \begin{array}{ccc}
\sigma_x^2 & 0 \\
0 & \sigma_y^2 \end{array} \right)
$$

Wir können dies überprüfen, indem wir die Kovarianzmatrix

Welche Annäherung gibt uns unsere erwartete Kovarianzmatrix mit Varianzen \(\sigma_x^2 = \sigma_y^2 = 1\).,

Lineare Transformationen des Datensatzes

Als nächstes werden wir untersuchen, wie sich Transformationen auf unsere Daten und die Kovarianzmatrix auswirken \(C\). Wir werden unsere Daten mit der folgenden Skalierungsmatrix transformieren.,y)^2 \end{array} \right)
$$

Nun wenden wir eine lineare Transformation in Form einer Transformationsmatrix \(T\) auf den Datensatz an, der aus einer zweidimensionalen Rotationsmatrix \(R\) und der vorherigen Skalierungsmatrix \(S\) wie folgt besteht

$$T = RS$$

wobei die Rotationsmatrix \(R\) ist gegeben durch

$$
R = \left( \begin{array}{ccc}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta) \end{array} \right)
$$

where \(\theta\) ist der Drehwinkel., Die transformierten Daten werden dann mit \(Y = TX\) oder \(Y = RSX\) berechnet.

Dies führt zu der Frage, wie die Kovarianzmatrix \(C\) in eine Rotationsmatrix \(R\) und eine Skalierungsmatrix \(S\) zerlegt werden kann.

Eigenzersetzung der Kovarianzmatrix

Die Eigenzersetzung ist eine Verbindung zwischen einer linearen Transformation und der Kovarianzmatrix. Ein Eigenvektor ist ein Vektor, dessen Richtung unverändert bleibt, wenn eine lineare Transformation darauf angewendet wird., Es kann ausgedrückt werden als

$$ Av= \ lambda v $$

$$ CV = VL $$

wobei die Kovarianzmatrix als

$$ C = VLV^{-1} $$

dargestellt werden kann, was auch durch singuläre Wertzerlegung erhalten werden kann. Die Eigenvektoren sind Einheitsvektoren, die die Richtung der größten Varianz der Daten darstellen, während die Eigenwerte die Größe dieser Varianz in den entsprechenden Richtungen darstellen. Dies bedeutet, dass \(V\) eine Rotationsmatrix und \(\sqrt{L}\) eine Skalierungsmatrix darstellt., Aus dieser Gleichung können wir die Kovarianzmatrix \(C\) als

$$ C = RSSR^{-1} $$

wobei die Rotationsmatrix \(R=V\) und die Skalierungsmatrix \(S=\sqrt{L}\). Aus der vorherigen linearen Transformation \(T=RS\) können wir

$$ C = RSSR^{-1} = TT^T $$

$$ T = V\sqrt{L} $$

Eine interessante Verwendung der Kovarianzmatrix ist in der Mahalanobis-Abstand, der bei der Messung multivariater Entfernungen mit Kovarianz verwendet wird., Dazu wird der nicht korrelierte Abstand zwischen einem Punkt \(x\) und einer multivariaten Normalverteilung mit der folgenden Formel berechnet

$$ D_M(x) = \sqrt{(x – \mu)^TC^{-1}(x – \mu))} $$

wobei \(\mu\) der Mittelwert und \(C\) die Kovarianz der multivariaten Normalverteilung ist (die Menge der Punkte, von denen angenommen wird, dass sie normal verteilt sind). Eine Ableitung der Mahalanobis-Distanz unter Verwendung der Cholesky-Zersetzung findet sich in diesem Artikel.,

Schlussfolgerung

In diesem Artikel haben wir die Beziehung der Kovarianzmatrix zur linearen Transformation gesehen, die ein wichtiger Baustein für das Verständnis und die Verwendung von PCA, SVD, dem Bayes-Klassifikator, der Mahalanobis-Entfernung und anderen Themen in der Statistik und Mustererkennung ist. Ich fand die Kovarianzmatrix als hilfreichen Eckpfeiler für das Verständnis der vielen Konzepte und Methoden in der Mustererkennung und Statistik.

Viele der Matrixidentitäten finden Sie im Matrix-Kochbuch., Die Beziehung zwischen SVD, PCA und der Kovarianzmatrix wird in dieser Frage elegant gezeigt.