Devianz (Statistik)

In der Statistik ist die Devianz (Abweichung vom Idealwert) ein zentrales Maß für die Bewertung der Anpassungsgüte von Schätzungen statistischen Modellen und wird oft beim Testen von Hypothesen verwendet. Die Devianz vergleicht die Log-Likelihood eines Modells mit einem gesättigten Modell (welches perfekt an die Daten angepasst ist).

Bei linearen Regressionsmodellen, deren Parameter mit der Methode der kleinsten Quadrate bestimmt werden, entspricht die Devianz der Summe der Abweichungsquadrate (SQ). Sie ist eine Verallgemeinerung des Konzepts der Residuenquadratsumme in der KQ-Regression auf Fälle, in denen die Modellanpassung durch eine Maximum-Likelihood-Schätzung erfolgt. Daher spielt die Devianz eine große Rolle in verallgemeinerten linearen Modellen.

Begriffsherkunft

Der Begriff Devianz (von lateinisch deviare, französisch dévier, deutsch abweichen) hat seinen Ursprung in der Soziologie und bezeichnet dort die Abweichung von allgemeinen Normen und Wertvorstellungen.^[1]

Definition

Die Devianz ist eine Statistik, die verwendet wird, um angeben zu können, wie stark die Anpassung eines gerade betrachteten Modells von dem Modell abweicht, das eine perfekte Anpassung an die Daten liefert – einem sogenannten gesättigten Modell. Das gesättigte Modell erlaubt unterschiedliche Regressionsparameter für jedes Individuum. Die Devianz ist gegeben durch

D=-2\left(\log {\hat {\mathcal {L}}}_{a}-\log {\hat {\mathcal {L}}}_{g}\right)

,

wobei ${\hat {\mathcal {L}}}_{a}$ die maximierte partielle Likelihoodfunktion (auch Plausibilitätsfunktion genannt) unter dem aktuellen Modell und ${\hat {\mathcal {L}}}_{g}$ die maximierte partielle Likelihoodfunktion unter dem gesättigten Modell (dem Modell, in dem genauso viele Parameter wie Beobachtungspaare auftreten) ist. Unter Verwendung der Logarithmengesetze lässt sich die Devianz auch mithilfe eines Likelihood-Quotienten bzw. Plausibilitätsquotienten ausdrücken.^[1]

D=-2\log \left({\frac {{\hat {\mathcal {L}}}_{a}}{{\hat {\mathcal {L}}}_{g}}}\right)=\log \left({\frac {{\hat {\mathcal {L}}}_{g}}{{\hat {\mathcal {L}}}_{a}}}\right)^{2}

Der Vorfaktor $-2$ ist notwendig, um eine Größe zu erhalten, die eine bekannte Verteilung besitzt und daher für Hypothesentests verwendet werden kann. Je kleiner der Wert der Devianz $D$ , desto besser das Modell. Für das gesättigte Modell ist die Devianz $\log 1=0$ . Die Devianz kann als eine Verallgemeinerung der Residuenquadratsumme, die bei normalverteilten Daten verwendet wird (siehe Klassisches lineares Modell der Normalregression), aufgefasst werden – hin zur Analyse von nicht normalverteilten Daten in verallgemeinerten linearen Modellen. Zu beachten ist, dass ein Unterschied in der Devianz zwischen zwei alternativen Modellen dem Unterschied im Wert der Statistik $-2\log {\hat {\mathcal {L}}}$ entspricht.^[2]

Eigenschaften

Betrachtet man zwei statistische Modelle mit Likelihood-Funktionen ${\mathcal {L}}_{\theta _{j}}(y)$ für $j=1,2$ und den Kullback-Leibler-Divergenzen

\operatorname {KL} (P,{\mathcal {L}}_{\theta _{j}})=\sum _{y\in Y}P(y)\cdot \log {\frac {P(y)}{{\mathcal {L}}_{\theta _{j}}(y)}},\quad j=1,2\;,

mit $Y\sim P$ , so ist die Differenz der Kullback-Leibler-Divergenzen

\operatorname {KL} (P,{\mathcal {L}}_{\theta _{1}})-\operatorname {KL} (P,{\mathcal {L}}_{\theta _{2}})=\sum _{y\in Y}P(y)\cdot \log {\frac {{\mathcal {L}}_{\theta _{2}}(y)}{{\mathcal {L}}_{\theta _{1}}(y)}}=E_{y}\left[\log {\mathcal {L}}_{\theta _{2}}(y))-\log({\mathcal {L}}_{\theta _{1}}(y))\right],

welche als Erwartungswert der Differenz zweier Devianzen ausgedrückt werden kann^[3]:

\operatorname {KL} (P,{\mathcal {L}}_{\theta _{1}})-\operatorname {KL} (P,{\mathcal {L}}_{\theta _{2}})=\operatorname {E} _{y}\left[-{\frac {1}{2}}D_{2}(y)-(-{\frac {1}{2}}D_{1}(y))\right]=-{\frac {1}{2}}E_{y}\left[D_{2}(y)-D_{1}(y)\right],

wobei der Index der Devianz das entsprechende Modell identifiziert.

Verwendung

Die Devianz wird von McFadden zur Definition eines Pseudo-Bestimmtheitsmaßes benutzt:

\mathrm {R_{McFadden}^{2}} =1-{\frac {D_{1}}{D_{0}}}.

Siehe auch

Literatur

Trevor Hastie: A closer look at the deviance. In: The American Statistician. Band 41, Nr. 1, 1987, S. 16–20, doi:10.1080/00031305.1987.10475434.

Weblinks

https://am207.github.io/2018fall/wiki/modelcomparison.html

Einzelnachweise

↑ ^a ^b Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S. 834.
↑ David Collett: Modelling survival data in medical research. Chapman and Hall / CRC Texts in Statistical Science, 2015. S. 154 ff.
↑ Trevor Hastie: A closer look at the deviance. In: The American Statistician. Band 41, Nr. 1, 1987, S. 16–20, doi:10.1080/00031305.1987.10475434 (Beachte die um einen Faktor 2 modifizierte Definition der Kullback-Leibler-Divergenz).

[Sachs_Hedderich-1] Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S. 834.

[2] David Collett: Modelling survival data in medical research. Chapman and Hall / CRC Texts in Statistical Science, 2015. S. 154 ff.

[3] Trevor Hastie: A closer look at the deviance. In: The American Statistician. Band 41, Nr. 1, 1987, S. 16–20, doi:10.1080/00031305.1987.10475434 (Beachte die um einen Faktor 2 modifizierte Definition der Kullback-Leibler-Divergenz).

[1]

[2]

[3]

Devianz (Statistik)

Begriffsherkunft

Definition

Eigenschaften

Verwendung

Siehe auch

Literatur

Weblinks

Einzelnachweise

Premium lidmaatschap

€4.95

Maak snel en eenvoudig een Premium Account

Sla uw favoriete pagina's op

Luister naar elke pagina in Audio

Kleur nachtmodus