In statistica e teoria dell'informazione, l'informazione di Fisher è la varianza dello score (derivata logaritmica) associato a una data funzione di verosimiglianza. L'informazione di Fisher, che prende il nome dal celebre genetista e statistico Ronald Fisher, può essere interpretata come l'ammontare di informazione contenuta da una variabile casuale osservabile , concernente un parametro non osservabile , da cui dipende la distribuzione di probabilità di .
Denotando l'informazione di Fisher con , poiché il valore atteso dello score è nullo, la sua varianza è pari al suo momento del secondo ordine, così che:
dove denota la funzione di verosimiglianza. Una scrittura equivalente è:
ossia meno il valore atteso della derivata seconda della funzione di verosimiglianza rispetto a ; l'informazione di Fisher può dunque essere letta come una misura della curvatura della verosimiglianza in corrispondenza della stima di massima verosimiglianza per . Una verosimiglianza "piatta", con una derivata seconda modesta, comporterà minore informazione, laddove una maggiore curvatura apporterà una maggiore quantità di informazione.
L'informazione di Fisher è additiva, nel senso che l'informazione relativa a due esperimenti indipendenti è la somma delle informazioni associate a ciascuno di essi:
Il risultato discende immediatamente dal fatto che la varianza della somma di due variabili casuali indipendenti è la somma delle loro varianze. Ne consegue che l'informazione contenuta in un campione casuale di osservazioni indipendenti è uguale a volte l'informazione contenuta in una singola osservazione.
L'informazione di Fisher contenuta da una statistica sufficiente è la stessa contenuta nell'intero campione su cui la statistica è calcolata. Il risultato segue dal criterio di fattorizzazione per la sufficienza di una statistica: se è una statistica sufficiente per , allora esistono due funzioni , tali che:
L'uguaglianza dell'informazione di Fisher discende allora da:
poiché non dipende da . In generale, se è una statistica, allora:
dove l'uguaglianza vige solo per statistiche sufficienti.
La disuguaglianza di Cramér-Rao stabilisce un collegamento tra informazione di Fisher e varianza di uno stimatore corretto; in particolare, dato uno stimatore corretto per il parametro , :
Si consideri il caso di un campione di osservazioni indipendenti, Bernoulliane, ciascuna con una probabilità di "successo" . L'informazione di Fisher associata può essere calcolata come segue; sia il numero dei "successi", e il numero di "insuccessi", con ovviamente: ; allora:
-
Il risultato è in accordo con l'intuizione circa la natura del problema in esame, in quanto è in questo caso il reciproco della varianza della media delle osservazioni Bernoulliane.
Nel caso in cui vi sia un vettore di parametri , l'informazione di Fisher è una matrice quadrata di dimensione , con elemento definito da:
L'informazione di Fisher è in tal caso, inoltre, una matrice simmetrica, nonché definita positiva, e definisce una metrica sullo spazio dei parametri; queste ultime considerazioni rientrano nell'ambito di applicazione della geometria differenziale (si veda anche metrica dell'informazione di Fisher).
Considerando un vettore aleatorio di dimensione , la matrice informazione di Fisher associata ha per generico elemento di ordine :
dove:
e denota l'operatore traccia della matrice.
Accanto all'informazione di Fisher, detta anche informazione attesa, si definisce l'informazione osservata, come l'opposto della derivata seconda della log-verosimiglianza calcolato in corrispondenza alla stima di massima verosimiglianza:
A livello interpretativo si può dire che l'informazione attesa, che dipende dal parametro ma non dal campione, è una misura dell'informazione portata da un generico campione per il dato esperimento, mentre l'informazione osservata, che dipende solo dal campione, misura l'informazione portata dal campione osservato.
Sotto opportune ipotesi l'informazione osservata è uno stimatore consistente dell'informazione attesa.