Famille exponentielle

En théorie des probabilités et en statistique, une famille exponentielle est une classe de lois de probabilité dont la forme générale est la suivante :

dans laquelle est la variable aléatoire, est un réel, est un paramètre, et sont des fonctions réelles et est appelé son «paramètre naturel».

Propriétés algébriques

[modifier | modifier le code]

Les familles exponentielles présentent certaines propriétés algébriques et inférentielles particulières.

La caractérisation d'une loi dans la famille exponentielle permet de reformuler ladite loi en utilisant des paramètres naturels spécifiques.

En statistiques inférentielles, ces familles permettent d'obtenir des statistiques d'échantillonnage, à savoir les statistiques suffisantes naturelles de la famille. Celles-ci résument un échantillon de données à l'aide d'un nombre réduit de valeurs, constituant les variables de décision en statistiques inférentielles.

En statistiques bayésiennes, elles possèdent des lois a priori conjuguées qui facilitent la mise à jour des lois dites « subjectives ». En effet, après inférence bayésienne, la distribution a posteriori d'une variable aléatoire de la famille exponentielle avec une loi a priori conjuguée peut toujours être écrite sous une forme analytique fermée à condition que la constante de normalisation de la distribution de la famille exponentielle puisse être exprimée sous une forme analytique fermée. [pas clair]. Voici quelques exemples courants : la loi t de Student, la loi bêta-binomiale ou la loi de Dirichlet multinomiale.

Les familles exponentielles apparaissent de façon naturelle dans la recherche de lois lors d'applications statistiques, en particulier dans les méthodes bayésiennes.

La famille exponentielle comprend une grande quantité de lois parmi les plus courantes : loi normale, loi exponentielle, loi Gamma, loi du χ2, loi bêta, loi de Dirichlet, loi de Bernoulli, loi multinomiale, loi de Poisson, loi de Wishart, loi de Wishart inverse, etc. D'autres lois courantes ne forment une famille exponentielle que si certains paramètres sont fixes et de valeur connue, telles les lois binomiale et multinomiale (pour un nombre de tirages fixe dans les deux cas), et la loi binomiale négative (pour un nombre d'échecs fixe). Parmi les lois d'usage courant qui ne sont pas de famille exponentielle, on peut citer la loi de Student, la plupart des lois de mélange, ainsi que la famille des lois uniformes de bornes non fixées.

Origine et terminologie

[modifier | modifier le code]

La notion de famille exponentielle a été développée aux alentours des années 1935 et 1936 par Georges Darmois[1], Edwin Pitman[2] et B. Koopman [3]. Le terme classe exponentielle est parfois utilisé dans le même sens[4],[5].

Une loi de probabilité est définie par les valeurs spécifiques des constantes utilisées dans sa formulation. Par exemple, la loi normale correspond à une loi normale avec une moyenne et un écart-type . Une « famille » de lois est définie par un ou plusieurs paramètres variables, comme la famille de lois de Poisson . Cette famille est dite exponentielle lorsque la fonction de densité de probabilité présente une forme algébrique particulière entre la variable aléatoire et les paramètres, caractérisée par la séparation des facteurs.

Loi binomiale

[modifier | modifier le code]

La loi binomiale est une famille de lois caractérisée par un paramètre n (nombre de tirages) et un paramètre p (probabilité de succès). Elle peut se décliner en trois cas.

La loi binomiale unique est définit de la façon suivante: Si n et p ont des valeurs spécifiques, par exemple , alors est une loi binomiale unique.

La famille de lois binomiales est caractérisée ainsi: Si n a une valeur fixe, par exemple , mais que p peut varier, il s'agit d'une famille de lois binomiales caractérisée par le paramètre p, où n est une constante.

La famille de lois binomiales généralisée est caractérisée de façon plus large de la façon suivante: Si n et p sont libres de varier, il s'agit d'une famille plus large de lois binomiales, avec n et p comme paramètres.

Les trois situations sont souvent désignées sous le terme « la loi binomiale », mais seule la seconde situation constitue une famille exponentielle.

Cas de la loi uniforme

[modifier | modifier le code]

La loi uniforme continue entre 0 et 1, notée , est parfois appelée « nombre aléatoire tiré d'une loi uniforme ». Cette loi est un cas particulier de la loi bêta. Bien que la loi bêta appartienne à une famille exponentielle, la loi uniforme n'est pas une famille exponentielle puisqu'elle ne représente qu'une seule loi.

La famille de lois uniformes, caractérisée par la variabilité d'une ou des deux bornes, n'appartient pas non plus à la famille exponentielle. Pour qu'une famille de lois soit exponentielle, la densité de probabilité doit pouvoir être exprimée sous une forme exponentielle par rapport à ses paramètres, ce qui n'est pas le cas des lois uniformes avec des bornes variables.

Définition

[modifier | modifier le code]

Une famille exponentielle est un ensemble de lois dont la loi de probabilité (discrète ou continue) peut s'écrire sous la forme de facteurs séparables:

, , et sont précisées.

Souvent, la densité s'écrira sous la forme alternative:

ou même:

La valeur est le paramètre de la famille.

La variable aléatoire peut représenter un vecteur de plusieurs mesures. Dans ce cas, est une fonction de plusieurs variables. Que soit scalaire ou vectoriel, et même s'il y a un paramètre unique, les fonctions et peuvent prendre la forme de vecteurs.

Forme canonique

[modifier | modifier le code]

La famille exponentielle est dite en forme canonique (ou naturelle) lorsque . Il est toujours possible de convertir une famille exponentielle en forme canonique, par la définition d'un paramètre transformé :

La valeur η est un paramètre naturel de la famille.

La forme canonique n'est pas unique, puisque peut être multiplié par une constante non nulle, pourvu que soit multiplié par la constante inverse.

La valeur (alternativement ) se déduit du choix des autres fonctions. En effet, assure que la loi est normalisée, c'est-à-dire que pour tout paramètre , dans le cas continu ou dans le cas discret. On en déduit que dans le cas continu et dans le cas discret. En particulier, si n'est pas injective, alors et ne sont pas injectives.

Famille exponentielle vectorielle

[modifier | modifier le code]

La définition ci-dessus, bien qu'à première vue exprimée en termes d'un paramètre scalaire, reste valable pour un paramètre vecteur de réels . La loi est dite de famille exponentielle vectorielle si la fonction de densité (ou de probabilité, pour les discrètes) s'écrit :

ou, en forme compacte :

La somme est écrite comme le produit scalaire des fonctions-vecteurs et .

On peut également rencontrer une forme alternative du type :

Comme précédemment, la famille exponentielle est sous forme canonique si , pour tout .

Famille exponentielle vectorielle courbe

[modifier | modifier le code]

Une famille exponentielle vectorielle est dite courbe si la dimension du vecteur paramètre est inférieure à la dimension du vecteur , le nombre de fonctions du vecteur paramètre dans la représentation factorisée.

Il est à noter que la plupart des lois courantes de famille exponentielle ne sont pas courbes, de sorte que nombre d'algorithmes conçus pour la famille exponentielle supposent implicitement ou explicitement que la loi n'est pas courbe.

La fonction de normalisation ou peut toujours s'écrire en fonction de , quelles que soient les transformations de en . La famille exponentielle suivante est en « forme naturelle » (paramétrée par son paramètre naturel) :

ou :

Variable vectorielle

[modifier | modifier le code]

De même qu'un paramètre scalaire est généralisable à un paramètre vectoriel, une variable aléatoire simple (scalaire) peut se généraliser à une loi conjointe sur un vecteur de variables aléatoires : chaque notation scalaire est alors remplacée par un vecteur . Il est à noter que la dimension du vecteur aléatoire ne correspond pas nécessairement à la dimension du vecteur paramètre, ni (pour une fonction exponentielle courbe) à la dimension du paramètre naturel et de la statistique suffisante .

La loi s'écrit alors :

ou :

Propriétés

[modifier | modifier le code]

Les fonctions , et qui apparaissent dans les définitions ne sont pas totalement arbitraires. Elles jouent un rôle important pour l'analyse statistique.

  • T(x) est une statistique suffisante (ou exhaustive) de la loi. Une statistique suffisante est une fonction qui résume parfaitement les données mesurées x dans le cadre d'un échantillon tiré de cette loi : même si un autre jeu de données y diffère complètement de x, mais que T(x) = T(y), alors la densité estimée à partir des observations sera la même, c.à.d. elle aura le même paramètre.

La dimension de T(x) égale le nombre de paramètres de η.

La statistique suffisante d'une collection de données indépendantes et identiquement distribuées (i.i.d.) est la somme des statistiques suffisantes individuelles. En estimation bayésienne, elle contient toute l'information nécessaire au calcul de la loi a posteriori des paramètres, conditionnellement aux observations. En estimation classique, elle suffit pour construire un estimateur des paramètres :

  • η est le paramètre naturel de la loi. L'ensemble des valeurs de η pour lesquelles la fonction fX(x|θ) est finie est appelé l' espace paramétrique naturel. On peut montrer que cet espace paramétrique naturel est toujours convexe.
  • A(η) est parfois appelée la fonction de log-partition parce qu'elle est le logarithme du facteur de normalisation a(η) (la « fonction de partition » des statisticiens) :
ou :
L'utilité de la fonction A apparaît quand il faut calculer la moyenne, la variance et les autres moments de la statistique suffisante T(x) : il suffit de dériver A(η).
Par exemple, on veut calculer l'espérance du logarithme d'une variable aléatoire suivant une loi gamma. Comme ln(x) est une composante de la statistique suffisante de cette loi, l'espérance se calcule aisément en dérivant .
  • b(x) est la mesure de base. Elle sert au calcul d'une prieure non informative (= entropie maximale).

Factorisation

[modifier | modifier le code]

Un moyen de caractériser une famille exponentielle est sa factorisation en un produit de termes contenant chacun un seul type de variable, paramètres ou variables aléatoires. Ces facteurs sont présents soit directement, soit dans l'exponentiation (base ou exposant). De façon générale, les facteurs multipliés entre eux devront donc avoir une des formes suivantes :

f(x) et h(x) sont des fonctions quelconques de x, g(θ) et j(θ) sont des fonctions quelconques de θ, et c est une expression quelconque « constante » (c.à.d. ne comportant ni x ni θ).

La forme est acceptable parce que qui se factorise dans l'exposant. De même pour .

Ces facteurs sont toutefois limités en nombre. Par exemple, l'expression est identique à , un produit de deux facteurs « autorisés ». Pourtant, sa forme factorisée

n'a pas la forme requise. Par contre, ce genre d'expression constitue une famille exponentielle courbe, qui permet plusieurs termes factorisés dans l'exposant.

Une somme incluant les deux types de variables, comme par exemple le facteur [1+f(x)g(θ)], ne se prête pas toujours à la factorisation. C'est la raison pour laquelle la loi de Cauchy et la t de Student, par exemple, ne sont pas de famille exponentielle.

Exemples de factorisation

[modifier | modifier le code]

La distinction entre paramètres et constantes est fondamentale pour déterminer si une « loi » est ou non de famille exponentielle.

Paramètre scalaire

[modifier | modifier le code]

La variable aléatoire normale de moyenne inconnue μ mais de variance σ2 constante a pour fonction de densité :

.

En posant :

on voit que c'est une famille exponentielle, à paramètre simple μ.

Si σ = 1, elle est en forme canonique, car alors η(μ) = μ.

Paramètre vectoriel

[modifier | modifier le code]

Dans le cas de la normale de moyenne inconnue μ et de variance inconnue σ2, la fonction de densité

est une famille exponentielle à paramètre vectoriel (μ , σ) qui s'écrit sous forme canonique en posant :

loi discrète

[modifier | modifier le code]

La loi binomiale à nombre de tirages n constant constitue un exemple de famille exponentielle discrète. Sa densité de probabilité

se factorise en

.

Son paramètre naturel vaut :

qu'on appelle la fonction logit.

Tableau de familles exponentielles

[modifier | modifier le code]

Ce tableau reprend une sélection de lois courantes et leur réécriture en famille exponentielle à paramètres naturels, de forme générale :

On a privilégié la forme fonctionnelle avec une fonction de log-partition A(η) parce que les moments de la statistique suffisante se calculent facilement en dérivant cette dernière fonction. On a donné également la fonction A(θ).

En règle générale, le domaine de définition, ou support, reste constant parmi toutes les lois d'une famille exponentielle. Ceci explique pourquoi la variation des paramètres fixés ci-dessus (comme la binomiale à nombre de tirages variable) rend la famille non exponentielle — le paramètre en question affecte le support (en l'occurrence, il modifie la valeur minimum ou maximum possible). C'est pour la même raison que la famille des Uniformes n'est pas non plus exponentielle.

La loi de Weibull à paramètre de forme k fixé est une famille exponentielle. Pourtant, le paramètre de forme ne modifie pas le support. Dans ce cas, c'est la forme particulière de sa fonction de densité (k apparaît dans l'exposant d'un exposant) qui empêche la factorisation de la Weibull si k varie.


loi paramètre θ paramètre naturel η fonction réciproque θ(η) mesure de base
b(x)
statistique suffisante T(x) log-partition A(η) A(θ)
Bernoulli p

(fonction logit)

(fonction logistique)

1 x
binomiale
(n constant)
p x
Poisson λ x λ
Binomiale négative
(r constant)
p ln(p) x r ln(1–p)
Exponentielle λ –λ 1 x
Pareto
(minimum xm constant)
α 1 ln(x)
   

   
Weibull
(k constant)
λ –λk xk
Laplace
(μ constant)
b 1 ln(2b)
Khi-carré ν ln(x)

  

   
Normale
(variance constante)
μ σ η
Normale μ , σ2
Log-normale μ , σ2
Normale inverse μ, λ
Gamma-Normale α, β, μ, λ
  

  


      

Gamma r,λ 1

  
k,θ
Gamma inverse r, λ 1

  
Khi-carré inverse ν, σ2 1

  

      

Bêta α, β

  


  
Dirichlet α1,...,αk 1
  

      

Normale multivariée μ, Σ

      


      

Wishart V, n 1

      


      


  

  • A(η) est donnée sous trois formes, afin de faciliter le calcul des moments.
  • Note : Se rappeler que Tr(A'B) = vec(A) • vec(B) ; autrement dit, la trace d'un produit matriciel est semblable à un produit scalaire. Les paramètres matriciels sont considérés comme des vecteurs dans la forme exponentielle. Par ailleurs, V et X sont symétriques.
Wishart inverse Ψ, m 1

   


 


  

multinomiale
(n constant)
(= Multi-Bernoulli
si n=1)
version 1
p1,...,pk

avec


0 0
Multinomiale
(n constant) version 2
p1,...,pk–1

avec

La variante de la multinomiale résulte du fait que les paramètres pi sont contraints par . Il n'y a donc que k-1 paramètres indépendants.

  • Dans la version 1, on voit k paramètres naturels et une relation simple entre les paramètres standard et naturel. Cependant, k-1 seulement des paramètres naturels sont indépendants, et du coup l'ensemble des k paramètres naturels est non identifiable. La contrainte sur les paramètres normaux se transpose à l'identique sur les paramètres naturels.

Notez que la version 1 n'est pas une famille exponentielle standard. C'est une famille exponentielle courbe, puisque k-1 paramètres indépendants sont incorporés dans un espace k-dimensionnel. Les propriétés de base des familles exponentielles ne s'appliquent pas aux familles exponentielles courbes. Par exemple on voit que la fonction de log-partition A(x) a la valeur 0.

  • La version 2 montre une manière simple de rendre les paramètres identifiables en fixant pk. Cela force le dernier paramètre naturel à la valeur constante 0. Les autres formules sont écrites de façon à ne pas utiliser pk, de sorte que le modèle n'a bien que k-1 paramètres, tant sous forme normale que sous forme canonique.

Applications

[modifier | modifier le code]

Inférence statistique

[modifier | modifier le code]

Estimation classique : exhaustivité

[modifier | modifier le code]

Le théorème de Pitman–Koopman–Darmois montre que parmi les familles de lois dont le domaine ne dépend pas du paramètre à estimer, seules les familles exponentielles offrent une statistique suffisante dont la dimension reste bornée quand la taille d'échantillon croît.

Concrètement, soient Xk, (où k = 1, 2, 3, ... n) des variables aléatoires indépendantes, identiquement distribuées. Il faut que leur loi soit de famille exponentielle pour qu'existe une statistique suffisante T(X1, ..., Xn) dont le nombre de composantes scalaires n'augmente pas avec la taille d'échantillon n : sa dimension ne changera pas quand on collecte plus de données.

Estimation bayésienne : lois conjuguées

[modifier | modifier le code]

En inférence bayésienne, une loi a priori d'un paramètre à estimer est multipliée par une fonction de vraisemblance (puis normalisée) pour aboutir à une loi a posteriori.

Une prieure conjuguée est une loi a priori qui, après combinaison à la fonction de vraisemblance, donne une loi a posteriori de même type, ce qui rend particulièrement facile le calcul de la postérieure. Par exemple, pour estimer la probabilité de succès p d'une loi binomiale, si on prend une loi bêta comme prieure, la postérieure sera une autre loi bêta. De même, l'estimation du paramètre d'une Poisson par une prieure Gamma donne une postérieure Gamma. Les prieures conjuguées sont souvent très pratiques, de par leur flexibilité.

Lorsque la fonction de vraisemblance est de famille exponentielle, il existe une prieure conjuguée, qui sera en général elle aussi de famille exponentielle.

En règle générale, une fonction de vraisemblance ne sera pas de famille exponentielle, et donc il n'existera pas de prieure conjuguée. La postérieure devra être calculée par des méthodes numériques.

La prieure conjuguée π (pour « prior ») sur le paramètre η d'une famille exponentielle est donnée par :

  • ν > 0 représente le nombre virtuel d'observations fournies par la prieure.
  • (s étant la dimension de η) représente la contribution de ces pseudo-observations dans la statistique suffisante constituée de toutes les observations et pseudo-observations.

χ et ν sont des hyperparamètres (paramètres contrôlant des paramètres).

  • f(χ,ν) est la constante de normalisation, déterminée automatiquement par les autres fonctions, qui sert à assurer que π(η| χ,ν) est une fonction de densité.
  • A(η) (resp. a(η)) sont les mêmes fonctions que dans la loi p(x| χ) pour laquelle π est prieure conjuguée.

Pour voir que cette loi a priori est une prieure conjuguée, on peut en calculer la postérieure.

Soit la fonction de densité (ou de probabilité) d'une observation, de famille exponentielle, écrite en paramètre naturel :

La vraisemblance des données X = (x1, ...,xn) est donnée par :

Par conséquent, en appliquant la loi a priori susdite :

,

on dérive la postérieure :

Ainsi, la postérieure a effectivement la même forme que la prieure :

.

On peut remarquer que les observations X n'entrent dans la formule qu'à travers , autrement dit la statistique suffisante des observations. Ceci confirme que la valeur de la statistique suffisante détermine complètement la loi a posteriori. Les valeurs individuelles des observations ne sont pas nécessaires : tout ensemble de données avec la même valeur pour la statistique suffisante produira la même loi. Or, la dimension de la statistique suffisante ne croît pas avec la taille d'échantillon : elle a au plus le nombre de composantes de η ( le nombre de paramètres de la loi d'une seule donnée).

Les nouveaux hyperparamètres sont :


La mise à jour bayésienne ne nécessite que de savoir le nombre d'observations et la valeur de la statistique suffisante des données.

Tests d'hypothèses : tests uniformément plus puissants

[modifier | modifier le code]

Pour une famille exponentielle à paramètre simple θ, si η(θ) est non-décroissant, le ratio de vraisemblance est une fonction monotone non-décroissante de la statistique suffisante T(x). En conséquence, il existe un test d'hypothèse « uniformément plus puissant » pour tester H0 : θθ0 contre H1 : θ < θ0.

Modèle linéaire généralisé

[modifier | modifier le code]

La famille exponentielle est à la base des fonctions de loi utilisées dans le modèle linéaire généralisé, qui comprend la plupart des modèles de régression en statistique et en économétrie.

Moments et cumulants de la statistique suffisante

[modifier | modifier le code]

Calcul des cumulants de T par différenciation

[modifier | modifier le code]

La fonction génératrice des moments de T(x) est définie comme :

.

Par conséquent, K(u|η) = A(η+u) – A(η) est la fonction génératrice des cumulants de T.

N.B. : Dans la sous-famille exponentielle naturelle (où T(x) = x), c'est la fonction génératrice des moments de x.

Par définition de la fonction génératrice des cumulants,

Les moments et cumulants d'ordre supérieur sont fournis par les dérivées supérieures. Cette technique est particulièrement utile lorsque T est une fonction compliquée, dont les moments sont difficiles à calculer par intégration.

Ce résultat est démontrable sans recourir à la théorie des cumulants.

Exemple : soit

.

Par contrainte de normalisation,

.

On dérive les deux côtés par rapport à η :

Par conséquent,