Matrice delle covarianze

In statistica multivariata e in probabilità, la matrice delle covarianze (o matrice di varianza e covarianza) si indica di solito con ed è una generalizzazione della covarianza al caso di dimensione maggiore di due. Essa è una matrice che rappresenta la variazione di ogni variabile rispetto alle altre (inclusa se stessa). È una matrice simmetrica.

Sia data una popolazione di elementi su cui sono rilevati caratteri quantitativi . Cioè ogni con è un vettore di elementi, indicati con con . L'elemento rappresenta quindi la modalità dell'-esima unità statistica rispetto al carattere . La matrice delle covarianze ha dimensione e ogni elemento è definito come

dove indica la media del carattere .

Significato dei valori

[modifica | modifica wikitesto]

Ogni elemento sulla diagonale è la varianza del carattere ed è quindi sempre un valore non negativo. Ogni elemento (con ) è la covarianza tra i caratteri e . Nel caso in cui questo valore sia positivo, significa che al crescere di un carattere, cresce anche l'altro. Nel caso in cui questo valore sia negativo, accade il contrario. Se i caratteri sono statisticamente indipendenti, questo valore è (l'implicazione inversa non è necessariamente verificata).

Oltre al significato statistico che possiamo dedurre dai termini, la matrice delle covarianze è un parametro della funzione gaussiana, nella statistica multivariata. Spesso in sua vece si utilizza la sua inversa, detta matrice di precisione.

Può inoltre essere d'ausilio alla riduzione delle features, tramite l'analisi delle componenti principali (PCA).

  • Richard O. Duda, Peter E. Hart, David G. Stork, Wiley Interscience - Pattern Classification (2nd ed.)

Voci correlate

[modifica | modifica wikitesto]
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica