Sie sind auf Seite 1von 24

Bayes-Statistik

Marian Sommer - 28. September 2012

Seminar zur Stochastik WS 2012 - Institut für Statistik und Wirtschaftsmathematik - RWTH Aachen www.isw.rwth-aachen.de

Inhaltsverzeichnis

1 Grundlagen

1

2 Bayes-Schätzfunktion

3

3 Beispiele

5

4 Das IMDb-Top250-Bewertungssystem

18

5 Zusammenfassung und Ausblick

21

Literaturverzeichnis

23

1 Grundlagen

Diese Ausarbeitung knüpft an die Grundlagen über Schätzfunktionen in der Statistik an. Es werden einige Definitionen benötigt, die fortlaufend verwendet werden.

Definition 1.1 (statistischer Raum) Sei ( X , B ) ein Messraum, ̸= eine Men- ge und P = { P ϑ | ϑ } eine Familie von Wahrscheinlichkeitsverteilungen auf B mit P ϑ ̸= P ϑ falls ϑ ̸= ϑ . Dann heißt ( X , B , P ) statistischer Raum , X Stichprobenraum, P Verteilungsannahme , Parameterraum.

Definition 1.2 (Statistik) Sei ( X , B , P ) ein statistischer Raum und ( V, V ) ein Messraum. Eine messbare Abbildung T : ( X , B ) ( V, V ) heißt Statistik. ( V, V , P T ) mit P T := { P T | P ∈ P} heißt wieder statistischer Raum .

Definition 1.3 (Nichtrandomisierte statistische Entscheidungsfunktion, Ent- scheidungsraum) Sei ( X , B , P ) ein statistischer Raum und ( D, D ) ein Messraum. Eine messbare Abbildung δ : ( X , B ) ( D, D ) heißt nichtrandomisierte statistische Entscheidungsfunktion oder Schätzfunktion und ( D, D ) heißt Entscheidungsraum.

Definition 1.4 (Verlustfunktion) Es sei ( X , B , P ) ein statistischer Raum, P = { P ϑ | ϑ } , ̸= eine Menge, und ( D, D ) ein Messraum. Eine Funktion

L : Ω × D [0 , ], ( ϑ, d ) L ( ϑ, d )

heißt Verlustfunktion , wenn L( ϑ, · ) D − ( B 1 [0 , ]) messbar ist ϑ , wobei B 1

die Borelsche σ -Algebra auf R = R ∪ {∞ , −∞} ist.

Eine bekannte und häufig benutzte Verlustfunktion ist die Gauss’sche Verlustfunk- tion.

Definition 1.5 (Gauss’sche Verlustfunktion) Es sei D R , P = {P ϑ | ϑ } , g : (Ω , D ) ( R 1 , B 1 ) messbar. Dann heißt

L : Ω × D [0 , ], ( ϑ, d )

( g ( ϑ ) d ) 2

Gauss’sche Verlustfunktion . Für g ( ϑ ) = ϑ wird L auch quadratischer Verlustfunktion genannt.

Definition 1.6 (statistisches Entscheidungsproblem) Sei ( X , B , P ) ein statis- tischer Raum, P = {P ϑ | ϑ }, ̸= eine Menge, ( D, D ) ein Entscheidungsraum und L : Ω × D [0 , ] eine Verlustfunktion. Dann heißt

E = (( X , B , P ) , ( D, D ) , L)

statistisches Entscheidungsproblem

Definition 1.7 (Risikofunktion) Gegeben sei ein statistisches Entscheidungspro- blem E = (( X , B , P ) , ( D, D ) , L ) und sei die Menge aller nichtrandomisierten Ent- scheidungsfunktionen. Die Funkrion

R : Ω × △ → [0 , ], ( ϑ, δ ) L ( ϑ, δ ( x )) dP ϑ ( x )

heißt Risikofunktion.

1

X

Definition 1.8 (UMP-Schäzer) Es sei E = (( X , B , P ) , ( D, D ) , L ) ein statisti- sches Entscheidungsproblem. Eine nichtrandomisierte Entscheidungsfunktion δ heißt gleichmäßig optimal oder UMP-Schätzer (Uniformly most powerful) genau dann, wenn

R ( ϑ, δ ) R ( ϑ, δ ) , ϑ , δ ∈ △

wobei die Menge aller nichtrandomisierten Entscheidungsfunktionen sei.

Definition 1.9 (UMVU-Schätzer, Erwartungstreue) Es sei E = (( X , B , P ) , ( D, D ) , L) ein statistisches Entscheidungsproblem, wobei L durch die Gauss’sche Verlustfunk- tion gegeben ist. Jede Schätzfunktion δ für die E ϑ ( δ ( X )) = g ( ϑ ) ( Erwartungs- treue Schätzfunktion für g ( ϑ ) ) gilt und die gleichmäßig optimal, ist heißt UMVU- Schätzer (Uniformly minimum variance unbiased estimator).

Eine Identitätsaussage hat C.R.Rao(1973) entdeckt.

Satz 1.1 Es sei X : (Ω , A , P ) ( X , B , P ϑ ) eine von ϑ abhängige Zu- fallsvariable und δ : X → G R 1 erwartungstreue Schätzfunktion für g ( ϑ ) mit V ar ϑ δ ( X ) < , ϑ . δ ist UMVU-Schätzer genau dann, wenn

ϕ : X → R 1 B − B 1 -messbar mit E ϑ ϕ( X ) = 0 , ϑ Ω :

Cov ( δ ( X ) , ϕ ( X )) = 0 , ϑ mit V ar ϑ ϕ ( X ) <

Für einen Beweis siehe C.R.Rao(1973). Anwendung findet dieser Satz in der Bestim- mung des UMVU-Schätzers bei binomialverteilter Zufallsvariable.

Beispiel 1.1 (Binomialer UMVU-Schätzer) Es sei X eine binomialverteilte Zu-

fallsvariable, X bin ( n, p ) , n N , p (0 , 1) = Ω , X = {0 ,

, n } . Wegen

E ( X ) = np E ( X ) = p

n

ist δ ( x ) = n , x ∈ { 0 ,

x

, n } erwartungstreue Schätzfunktion für p .

ϕ : R R erwatungstreue Schätzfunktion für 0

⇔ ∀ p [0 , 1] : E p ( ϕ( X )) =

n

ϕ ( j ) p j (1 p ) (n j ) = 0

j =0

ist ein Polynom in p mit überabzählbar vielen Nullstellen.

So erhält man

ϕ ( j ) = 0 , j ∈ { 0 ,

, n }

Cov p ( δ ( X ) , ϕ ( X )) = E p ( δ ( X ) ϕ ( X )) E p ( δ ( X )) E p ( δ ( X ))

n

=

j =0

j

n

=0

ϕ ( j ) p j (1 p ) n j = 0 , p (0 , 1)

( X )) n = ∑ j =0 j n =0 ϕ ( j ) p

=0

2

Mit Satz1.1 folgt, dass δ ( X ) = X/n UMVU-Schätzer ist für p ist .

Definition 1.10 (Absolute Stetigkeit von Maßen) Seien µ, ν Maße auf einer σ -Algebra A. µ heißt absolut stetig bzgl. ν , wenn für alle A ∈ A gilt:

ν ( A ) = 0 µ ( A) = 0

Kurz: µ << ν oder ν dominiert µ

Satz 1.2 (Satz von Radon-Nikodym) Seien µ, ν Maße auf einem Messraum (Ω , A ) mit ν << µ , µ σ -endlich.

⇒ ∃ Funtion

f : (Ω , A ) ([0 , ], B 1 [0 , ]) messbar mit

ν ( A ) = f ( x ) ( x )

A

, A ∈ A .

f heißt Radon-Nikodym-Ableitung von ν bzgl. µ .

Einen Beweis findet man in Shervish (1995), S.597. Es folgt der Satz, der diesem Teilgebiet der Statistik seinen Namen gegeben hat.

Satz 1.3 (Satz von Bayes) Sei (Ω , A , P ) ein Wahrscheinlichkeitsraum. Für zwei Ereignisse A, B A mit P ( B ) > 0 und P ( A ) > 0 gilt

Beweis von Satz1.3

P ( A | B ) Def. =

P ( A | B ) = P ( B | A) · P ( A ) P ( B )

P ( A B ) = P ( A B ) · P ( A )

P ( B )

P ( B )

P ( A )

Def.

=

P ( B | A ) · P ( A)

P ( B )

2 Bayes-Schätzfunktion

Grundlage dieses Seminars ist das Kapitel über Bayes-Schätzung (Bayes-Estimation) aus dem Buch von Keener(2010) [1]. Der Vergleich zweier Schätzfunktionen bzgl. deren Risikofunktion führt zu keinem zufriedenstellenden Ergebnis, falls sich diese schneiden (Vergleichkriterium aus der Mathematischen Statistik: UMP-Schätzer). Betrachtet man die Risikofunktion ei- ner Schätzfunktion (im folgenden ’ Schätzer ’ genannt) über einen ’gewichteten Mit- telwert’ (bzw. gewichtetes Mittelintegral) der Risikofunktion, so erhält man den Bayes’schen Ansatz. Das Bayes-Risiko sei wie folgt definiert:

Definition 2.1 (Bayes-Risiko, a-priori-Verteilung) Gegeben sei ein statistisches Entscheidungsproblem E = (( X , B , P ) , ( D, D ) , L) mit Risikofunktion R ( · , δ ) : Ω [0 , ] und δ eine nichtrandomisierte Entscheidungsfunktion. Es sei zusätzlich I eine σ -Algebra über mit

1) ϑ P ϑ ( B ) ist I - ( B 1 [0 , 1]) -messbar B ∈ B

3

2) ( ϑ, d ) L ( ϑ, d ) ist ( I ⊗ D ) - ( B 1 [0 , 1]) -messbar

und Π sei die Menge aller Wahrscheinlichkeitsverteilungen auf (Ω , I ) . Jedes Λ Π heißt a-priori-Verteilung . Für Λ Π heißt

(1)

Bayes-Risiko von δ bzgl. Λ .

r , δ ) := R ( ϑ, δ ) d Λ( ϑ )

Das Ziel der Bayes-Statistik ist eine Schätzfunktion zu finden, die das Bayes-Risiko bzgl. einer a-priori-Verteilung Λ minimiert.

Definition 2.2 (Bayes-Schätzer) Es gelten die Voraussetzungen aus Definition2.1. Λ Π sei fest gewählt. Eine nichtrandomisierte Entscheidungsfunktion δ , die (1) mi- nimiert wird Bayes-Schätzfunktion für ϑ bzgl. Λ genannt. Ist die a-priori-Verteilung aus dem Kontext bekannt, so bezeichnet man δ auch ab- kürzend als Bayes-Schätzer für ϑ .

Im Bayes’schen Wahrscheinlichkeitsmodell geht man nun davon aus, dass der unbe- kannte Parameter ϑ sowie die Stichprobe x zufällig sind. Sei (Ω , A , P ) ein Wahr- scheinlichkeitsraum, dann definiert man die Zufallsvariablen

X | Θ = ϑ : (Ω , A , P ) ( X , B , P ϑ ) , ϑ

Θ : (Ω , A , P ) (Ω , I , Λ) ,

wobei alle Bezeichnungen denen aus Definition2.1 entsprechen. Abkürzend schreibt man dafür

Θ Λ und X | Θ = ϑ P ϑ .

Mit diesen Zufallsvariablen erhält man eine alternative Darstellung der Risikofunk- tion:

R ( ϑ, δ ) = L( ϑ, δ ( x )) dP ϑ ( x ) = E [ L ( ϑ, δ ( X )) | Θ = ϑ ] = E [ L, δ ( X )) | Θ = ϑ ]

X

Daraus folgt ebenso eine alternative Darstellung des Bayes-Risikos:

r , δ ) =

R ( ϑ, δ ) d Λ( ϑ )

=

E ( R , δ ))

=

E ( E ( L , δ ( X )) | Θ))

=

E ( L, δ ( X )))

=

E ( E ( L , δ ( X )) | X ))

Ein Ansatz zur Minimierung des Bayes-Risikos von δ bzgl. Λ , die Minimierung der Risikofunktion, ist bereits bekannt. Falls δ gleichmäßig optimal ist, dann ist insbe- sondere das Bayes-Risiko minimal, also ist jeder UMP-Schätzer auch Bayes-Schätzer von ϑ . Der zweite Ansatz ist, den sogenannten a-posteriori-Erwartungswert von L, δ ( X )) , E ( L , δ ( X )) | X = x ) , zu minimieren. Die Verteilung für dessen Be- rechnung erhält man über den Satz von Bayes.

4

Theorem 2.1 Sei E = (( X , B , P ) , ( D, D ) , L ) , Θ Λ ein statistisches Entschei- dungsproblem und X | Θ = ϑ P ϑ . Falls

a) EL , δ 0 ( X )) < für eine Entscheidungsfunktion δ 0 und

b) für P X -f.a. x existiert ein Wert δ Λ ( x ) , der

bzgl. d minimiert.

E [ L, d ) | X = x ]

Dann ist δ Λ ein Bayes-Schätzer.

Beweis : Sei δ eine beliebige Schätzfunktion. Dann gilt für P X -f.a. x:

E [ L , δ ( X )) | X = x ] = E [ L, δ ( x )) | X = x ] E [ L , δ Λ ( x )) | X = x ] = E [ L, δ Λ ( X )) | X = x ] .

Daraus folgt

E [ L, δ ( X )) | X ]

E [ L , δ Λ ( X )) | X ]

und zusätzliche Erwartungswertbildung über X ergibt dann

E [ E ( L, δ ( X )) | X )]

EL , δ ( X )) =

E [ E ( L, δ Λ ( X )) | X )]

= EL , δ Λ ( X )) .

Folglich ist δ Λ Bayes-Schätzer von ϑ .

Bedingung (a) könnte man auch weglassen, allerdings wäre dann jede Schätzfunktion δ ein Bayes-Schätzer von ϑ , da das Bayes-Risiko für alle Schätzfunktionen unendlich ist.

3 Beispiele

Es folgen Beispiele für die Berechnung von Bayes-Schätzern unter einfachen und bekannten Verlustfunktionen.

Beispiel 3.1 (gewichtete quadratische Verlustfunktion) Gegeben sei die ge- wichtete quadratische Verlustfunktion

L( ϑ, d ) = w ( ϑ )( d g ( ϑ )) 2 ,

wobei g : (Ω , I ) ( R, B 1 ) und w : (Ω , I ) ([0 , ) , B 1 [0 , )) . Nach Theorem(2.1) minimiert δ Λ den Ausdruck

5

E [ w (Θ)( d g (Θ)) 2 | X = x ] =

d 2 E [ w (Θ) | X = x ] 2 dE [ w (Θ) g (Θ) | X = x ] + E [ w (Θ) g 2 (Θ) | X = x ] .

Falls E ( w (Θ) | X = x ) = 0 gilt, dann ist

E [ w (Θ)( d g (Θ)) 2 | X = x ] = 2 dE [ w (Θ) g (Θ) | X = x ] + E [ w (Θ) g 2 (Θ) | X = x ]

eine lineare Funktion in d . Damit Bedingung (b) erfüllt ist muss also E [ w (Θ) g (Θ) | X = x ] = 0 gelten. Der a-posteriori-Erwartungswert ist dann konstant in d , also sind alle Entscheidungsfunktionen δ nach Theorem2.1 Bayes-Schätzer. Falls E ( w (Θ) | X = x ) > 0 kann man einen P X -f.s. Bayes-Schätzer bestimmen. Der a-posteriori-Erwartungswert von L , d ) ist eine quadratische Funktion in d . Setze also die Ableitung

2 dE [ w (Θ) | X = x ] 2 E [ w (Θ) g (Θ) | X = x ]

gleich Null und erhalte

d · E ( w (Θ) | X = x ) E ( w (Θ) g (Θ) | X = x )

   > 0 für d > δ Λ ( x )

= 0 für d = δ Λ ( x )

 
< 0 für d < δ Λ ( x )

wobei

(2)

δ Λ ( x ) = E [ w (Θ) g (Θ) | X = x ] E [ w (Θ) | X = x ]

.

,

Folglich ist δ Λ P X -f.s. eindeutiger Bayes-Schätzer für g ( ϑ ) . Ist die Gewichtungsfunktion w 1 , so entspricht die Verlustfunktion der quadrati- schen Verlustfunktion. Dann ist

δ Λ ( X ) = E [ g (Θ) | X ]

der a-posteriori-Erwartungswert von g (Θ) . Falls P = { P ϑ | ϑ } eine dominierte Familie von Verteilungen ist mit Dichte p ϑ und falls Λ << λλ , wobei λλ das Lebesgue-Maß sei. Mit dem Satz von Radon-Nikodym folgt, dass eine Dichte bzgl. λλ existiert, welche durch λ ( ϑ ) bezeichnet werde. Dann ist die gemeinsame Dichte von X und Θ

p ϑ ( x ) λ ( ϑ ) .

Die Randdichte von X ist dann gegeben durch

q ( x ) = p ϑ ( x ) λ( ϑ) dλλ ( ϑ )

und die bedingte Dichte von Θ bei gegebenem X = x ist mit dem Satz von Bayes

λ ( ϑ | x ) = p ϑ ( x ) λ ( ϑ ) q ( x )

6

.

Benutzt man diese bedingte Dichte, wird (2) zu

(3)

δ Λ ( x ) =

w ( ϑ ) g ( ϑ ) p ϑ ( x ) λ ( ϑ ) dλλ ( ϑ )

w ( ϑ ) p ϑ ( x ) λ ( ϑ ) dλλ ( ϑ )

.

Der Faktor 1 /q ( x ) kürzt sich dabei.

Beispiel 3.2 (Binomial-Verteilung) Sei P ϑ = bin ( n, ϑ ) wobei n N und ϑ (0 , 1) die Erfolgswahrscheinlichkeit ist. Eine übliche Wahl für die a-piori-Verteilung von Θ ist die Beta ( α, β ) -Verteilung mit der zugehörigen Dichte

λ ( ϑ ) =


Γ( α + β ) Γ( α )Γ( β

) ϑ α 1 (1 ϑ ) β 1 , ϑ [0 , 1]

0 , sonst

,

wobei α > 0 , β > 0 fest. Da sich die Dichte zu 1 integriert, folgt

(4)

1 ϑ α 1 (1 ϑ ) β 1 = Γ( α )Γ( β )

0

Γ( α + β ) .

Mit (4) kann man den Erwartungswert von Θ leicht berechnen:

E Θ =

Γ( α +β ) Γ( α )Γ( β )

1

0

ϑ 1+ α 1 (1 ϑ ) β 1

(4)

= Γ( α )Γ( β ) Γ( α+ β +1)

Γ( α + β ) Γ( α +1)Γ( β )

= α

α + β

Die Randdichte von X im Bayes’schen Modell ist

q ( x ) = p ϑ ( x ) λ ( ϑ )

0

(

)

)

1

Γ( α +β )

x Γ( α )Γ( β

n

ϑ x+ α 1 (1 ϑ) n x + β 1 dϑ
)

, x ∈ { 0 ,

=

= ( n

Γ( α + β ) Γ( x + α)Γ( n x + β )

Γ( n +α + β )

x Γ( α )Γ( β )

, n } .

q ( x ) ist offensichtlich die Zähldichte einer Beta-Binomial-Verteilung. Teilt man die gemeinsame Dichte p ϑ ( x ) λ( ϑ ) durch die eben berechnete Zähldichte q ( x ) , so erhält man die bedingte Dichte

λ ( ϑ | x ) =

Γ( n + α + β )

x ) ϑ x +α 1 (1 ϑ ) n x +β 1 , x ∈ { 0 ,

Γ( α + x )Γ( β + n

Die bedingte Zähldichte λ( ϑ | x ) impliziert

, n } , ϑ (0 , 1) .

Θ | X = x Beta ( x + α, n x + β ) .

Die a-posteriori-Verteilung aus der a-priori-Verteilung und der beobachteten Stich- probe zu berechnen ist hier einfach:

man erhöht α um die Anzahl der Erfolge x und β um die Anzahl der Misserfolge n x . Falls, wie in diesem Fall, die Klasse der a-priori-, sowie der a-posteriori-Verteilung

7

übereinstimmt, so nennt man diese Verteilungsklasse konjugiert . Letzteres wird in Beispiel(3.7) ausführlicher behandelt. Unter Gauss’scher Verlustfunktion mit g ( ϑ ) = ϑ ergibt sich somit

δ Λ ( X ) = E | X ] =

X + α

n + α + β

als Bayes-Schätzer für ϑ . Elementares Umformen ergibt dann

δ Λ ( X ) = [

n + α + β ] X n

n

+ [ 1

n + α + β ] α + β

n

α

was zeigt, dass der Bayes-Schätzer ein gewichteter Mittelwert aus dem UMVUE- Schätzer X/n und dem a-priori-Erwartungswert E Θ = α/ ( α + β ) ist.

Die Beta -verteilung ist eine beliebte Wahl für die a-priori-Dichte, da die Dichte, abhängig von den Parametern α und β unterschiedliche Darstellungen annehmen kann, wie man in folgender Abbildung erkennen kann.

annehmen kann, wie man in folgender Abbildung erkennen kann. Dichte einer Beta ( α, β )

Dichte einer Beta ( α, β ) -Verteilung 1

Notation [Proportionalität ] Seien h, g : X → R Funktionen. h heißt porpor- tional zu g in (x), wenn ein a R \{0 } existiert mit h ( x ) = a · g ( x ) , x ∈ X . Kurz schreibt man h ( x ) x g ( x ) . Insbesondere gilt h( x ) x b · g ( x ) b R \{0 } . Da für Dichten h h = 1 gilt, folgt, dass a = ( g ) 1 . a ist somit eine Normierungs- konstante, sofern 0 < g < .

Beispiel 3.3 (Negative Binomial-Verteilung) Es sei ( X i ) i N ein Bernoulli-Prozess mit Erfolgswahrscheinlichkeit ϑ und X die Anzahl der Fehlversuche vor dem zweiten Erfolg, dann ist die Dichte von X | Θ = ϑ gegeben durch

p ϑ ( x ) = P ϑ ( X = x ) = ( x + 1) ϑ 2 (1 ϑ ) x , x = 0 , 1 , 2 ,

1

http://de.wikipedia.org/wiki/Betaverteilung

8

Erklärung der Dichte:

( x + 1

1

) (1 ϑ ) x ϑ

(I)

·

ϑ

(II)

(I) Wahrscheinlichkeit, dass ein Erfolg in x+1 Bernoulli-Versuchen, mit Erfolgswahr- schienlichkeit ϑ , auftritt (II) Wahrscheinlichkeit für zweiten Erfolg im x+2’ten Versuch Betrachtet man die Schätzung von g (Θ) = 1 / Θ in einem Bayes’sches Modell, in

dem Θ gleichverteilt auf (0 , 1) sei (also Θ ∼ U (0 , 1) ). Dann ist

λ ( ϑ | x ) ϑ p ϑ ( x ) λ ( ϑ ) ϑ ϑ 2 (1 ϑ ) x .

Diese Dichte ist offensichtlich in ϑ proportional zur Beta (3 , x + 1) -Verteilung. Dies impliziert

Θ | X = x Beta (3 , x + 1) .

Der a-posteriori-Erwartungswert von 1 / Θ ist dann

δ 0 ( x ) = E 1 | X = x ] =

Γ( x+4) Γ(3)Γ( x +1)

1

0

ϑ(1 ϑ ) x

(4)

Γ( x +4)Γ(2)Γ( x +1)

= Γ(3)Γ( x +1)Γ( x +3) = x +3

2

.

Der UMVU-Schätzer für 1 (siehe Keener, Beispiel(5.3)) ist

δ 1 ( x ) = x + 2 2

,

der im Zusammenhang mit dem eben berechneten δ 0 steht

δ 0 ( X ) = δ 1 ( X ) +

1

2

.

Also hat der Schätzer δ 0 die konstante Verzerrung

Bias ( ϑ, δ 0 ) = E ϑ δ 0 ( X ) 1

=

=

ϑ

1

2 ϑ

1

.

E ϑ δ 1 ( X ) +

ϑ + 2

1

1

1

ϑ = 1

2

Mit quadratischer Verlustfunktion ist die Risikofunktion die Varianz des Schätzers addiert mit der quadratischen Verzerrung. Da δ 0 und δ 1 sich nur bis auf eine Kon- stante unterscheiden, haben sie dieselbe Varianz und somit ist

1

1

R ( ϑ, δ 0 ) = V ar ϑ ( δ 0 ) + 4 = V ar ϑ ( δ 1 ) + 4 = R ( ϑ, δ 1 ) +

1

4

.

Daraus folgt, dass die Risikofunktion des UMVU-Schätzers δ 1 echt kleiner ist, als die Risikofunktion vom Bayes-Schätzer δ 0 . Zur Erinnerung: ein Schätzer heißt unzulässig , wenn es einen Schätzer δ 0 gibt, der

9

δ

dominiert ( δ δ 0 , d.h. R ( ϑ, δ 0 ) R ( ϑ, δ ) ϑ und ϑ 0 Ω : R ( ϑ 0 , δ 0 ) <

R

( ϑ 0 , δ ) ).

Ein unzulässiger Schätzer ist grunsätzlich kein Bayes-Schätzer, da ein Schätzer mit niedrigerer Risikofunktion, über Integration in ϑ , dann auch ein niedrigeres Bayes- Risiko besitzt. Theorem (2.1) greift hier nicht, da Bedingung (a) nicht erfüllt ist:

(5)

EL , δ ( X )) =

x =0

(0,

1) ( δ ( x ) ϑ ) 2 ( x + 1) ϑ 2 (1 ϑ ) x

1


=

x=0

x + 1) ϑ 2 (1 − ϑ ) x dϑ 1 ∞ ∑ = x

( x ) 2 2 δ ( x )

( x + 1) δ

Die Integrale berechnen sich wie folgt:

,1) ϑ (1 ϑ ) x + (1 ϑ ) x

(0

(0 ,1)

,1) (1 ϑ) x =

(0

1

x +1

,1) ( x + 1)(1 ϑ ) x

(0

= x +1 · [(1 ϑ ) x ] ϑ =1

1

ϑ

=0

1

= x +1 (0 1) = 1

x+1

1) ϑ (1 ϑ ) x P.I. = [ ϑ · (

(0,

x +1 (1 ϑ ) x +1 )] ϑ =1

1

ϑ =0

(0 ,1)

= 0 +

=

1

x +2) [(1 ϑ ) x +2 ] ϑ =1

=0

(x

1

+1)(

ϑ

(x +1)( x +2)

1

x +1 (1 ϑ ) x +1

Angenommen es existiert eine Schätzfunktion δ mit E ( L , δ ( X ))) < . Mit Theorem2.1 folgt dann, dass δ 0 das Bayes-Risiko P X -f.s. eindeutig minimiert. Setzt man δ 0 = x+3 und die berechneten Integrale in (5) ein:

2

x

=0 ( ( x + 1)( x + 3) 2 x + 3

x + 2

4

+ 1 )

Wegen

=

( x + 2)( x + 1)( x + 3) 2 4( x + 3) + 4( x + 2)

x =0

4( x + 2)

a x :=

a x > 1 x 4 + 9 x 3 + 29 x 2 + 35 x + 6 > 0

0

0

0

0

>0

für x N folgt, dass x=0 a x = und somit E ( L, δ 0 ( X ))) = , was ein Wider-

spruch zur Annahme ist. In diesem Fall minimiert jeder Schätzer (1).

Beispiel 3.4 Gegeben sei ein Bayes’sches Modell mit exponentialverteilter Zufalls- variable Θ mit Ausfallrate µ > 0 , d.h. die Dichte von Θ ist gegeben durch

λ( ϑ ) = µ exp( µϑ ) , ϑ > 0 .

10

Für gegebenes Θ = ϑ, seien X 1 ,

, X n i.i.d. po ( ϑ) mit Dichte

p ϑ ( x i ) = ϑ x i ! exp( ϑ ) , i = 1 ,

x

i

, n

und X := ( X 1 ,

, X n ) . Die Verlustfunktion sei wie folgt definiert:

L ( ϑ, d ) = ϑ p ( d ϑ ) 2 ,

wobei p > 0 eine feste Konstante sei. Die Dichte von X bei gegebenem Θ = ϑ ist dann

wobei T ( x ) = n

i =1 x i .

n

p ϑ ( x ) = =1 p ϑ ( x i ) =

i

= ϑ T ( x ) exp( )

n i =1 x i !

i

n

=1

ϑ

x i

x i !

exp( ϑ )

, x N n

0

,

Mit Beispiel (3.1) hat der Bayes-Schätzer für ϑ folgende Form

δ Λ ( x ) =

0

0

=

P.I.

=

0

ϑ p +1 p ϑ (x ) λ (ϑ )

ϑ p p ϑ (x ) λ (ϑ )

ϑ T ( x)+ p +1 exp( ( n+ µ )ϑ )

ϑ T ( x )+ p exp( ( n +µ )

0

[ ϑ T ( x )+p +1 · (

n + µ exp( (n + µ) ϑ) )] ϑ =

1

ϑ

=0

0

( T ( x )+ p +1) ·ϑ T (x )+ p ·( n + µ exp( (n +µ )ϑ ))

1

(

)

=

=

T (x )+ p +1

n

+µ

T (x )+ p +1

n + µ

ϑ T ( x )+ p exp( (n + µ))

0

ϑ T ( x )+ p exp( ( n+ µ )ϑ )

0

ϑ T ( x )+p exp( ( n+ µ))

0

, x N n

0

.

Wobei in der Umformung (*) folgende Grenzwerte eingehen:

lim

ϑ0

ϑ T ( x )+ p +1

0

( n + µ exp( ( n + µ) ϑ ) ) = 0

1

1

lim

ϑ

→∞

ϑ T (x )+ p +1

exp(( n + µ) ϑ )

0

· (

n + µ ) = 0

1

da jede Exponentialfunktion schneller gegen unendlich läuft als jedes Polynom.

Beispiel 3.5 Sei ein Bayes’sches Modell gegeben, in dem die a-priori-Verteilung absolut stetig sei mit Dichte

λ ( ϑ) =

(1 + 1 ϑ ) 2 , ϑ > 0 .

Für gegebenes Θ = ϑ, sei die Variable X gleichverteilt auf (0 , ϑ ) ( X ∼ U (0 , ϑ ) ). Dann ist die Randverteilung von X gegeben durch

11

q ( x ) = p ϑ ( x ) λ( ϑ )


=

x

x

[ log(

1

1

ϑ

[ da p ϑ ( x ) = ϑ · 1 (0 ,ϑ ) ( x ) = ϑ · 1 (x, ) ( ϑ ) ]

ϑ +1 ] ϑ =

1

ϑ

= x

ϑ +1 + 1+ ϑ ) )

1

1

1

1

(1+ ϑ ) 2 ·

[

1

ϑ

1+ ϑ (1+ ϑ ) 2 ] dϑ

1

1

=

= [ log( ϑ ) log( ϑ + 1) +

=

= lim

1+ ϑ ) + ϑ +1 ] ϑ =

ϑ

1

ϑ

=x

ϑ

log(1 1+ ϑ ) + lim 1+ ϑ lim x ( log(1

1

ϑ

→∞

1

ϑ

= 0 + 0 log ( 1+ x ) 1

= log ( 1+ x ) x+1 ,

x

1

x

+1

x

x > 0 .

Also gilt mit dem Satz von Bayes

p ( ϑ | x ) = p ϑ ( x ) · λ( ϑ ) q ( x )

1

= ϑ(1 + ϑ ) 2 q ( x ) , ϑ > x > 0