Sie sind auf Seite 1von 14

Aspekte der Implementation II

1. Centering Verfahren nach der Monte Carlo Methode

Approximierung des Bootstrap-Bias-Schtzers fr einen Schtzer n , wobei n R :

Zum Beispiel kann n geschrieben werden als


n =
n (P 0

),

(1)

wobei

P0 = (n1 , . . . , n1 ) ein n-dimensionaler Vektor.

eine Funktion ist, die von einer Stichprobe X1 , ..., Xn abhngig ist und

Fr n = Xn kann man die Funktion


n n (t1 , ..., tn )

=
i=1

ti Xi

(2)

verwenden, es gilt nmlich


1 ) = Xn = n
n

n (P

i=1

. Xi = X P0 = (X1 , ..., Xn ) . . . 1 n

n1

(3)

b b Betrachte B i.i.d. Bootstrap-Stichproben {X1 , ..., Xn } aus {X1 , ..., Xn }, b = 1, ..., B und deniere b b Pb = (P1 , ..., Pn ) , b = 1, ..., B

(4)

wobei Pi b fr i = 1, ..., n deniert ist als


Pib =
b #{Xj =Xi , j=1, ..., n} . n

(5)

Der Bootstrap-Bias-Schtzer fr n der einfachen Monte Carlo Simulation ist dann


bBOOT =
(B)

1 B

Rb = n
b=1

1 B

B n (P b=1 b

n (P

(6)

wobei
b b Rb = Rn X1 , ..., Xn , Pn , b = 1, ..., B. n

(7)

Rn (, ) ist eine wohldenierte Funktion, Pn ist die geschtzte Verteilung von den Daten {X1 , ..., Xn } und {X1 , ..., Xn } ist eine Stichprobe von Pn .

Fr eine lineare Statistik (siehe Efron (1990) - More Ecient Bootstrap Computations - Journal of the American Statistical Association, Vol. 85, No. 409 (Mar., 1990) - S. 81 unten)
n (P)

= an0 + (P P0 ) U,

(8)

wobei P Rn und an0 und die n Eintrge vom Vektor U Funktionen in Abhngigkeit von einer Stichprobe (X1 , ..., Xn ) sind, ist
bBOOT = EM C (
n (P))

an0 = 0,

(9)

wobei EM C den Erwartungswert fr das einfache Monte-Carlo-Verfahren bezeichnet. Allerdings ist


bBOOT = =
(B)

1 B

B b n (P ) b=1 B 0 n (P ) =

1 B

(an0 + (Pb P0 ) U) an0


b=1

(10) (11)

1 B

Pb P0
b=1

U = (P P0 ) U = 0.

Durch das Ersetzen von P0 durch P wobei


B

P = B 1
b=1

Pb ,

(12)

denieren wir
(B) bBC

1 = B

B n (P b=1 b

n (P )

(13)

und nennen das die zentrierte (engl. centered) Monte-Carlo-Approximierung des BootstrapBias-Schtzers. 2

Es ist
bBC = 0,
(B)

(14)

denn
(B) bBC

1 = B =

b=1

1 n (P ) n (P ) = B
b

(an0 + (Pb P ) U) an0


b=1

(15) (16)

1 B

Pb P
b=1

U = (P P ) U = 0.

Es wurde ausserdem gezeigt, dass der Mean-Squared-Error (mse)


mseM C (bBC ) = Op
(B)

1 n2 B

(17)

ist, wobei mseM C den Mean-Squared-Error fr das einfache Monte-Carlo-Verfahren bezeichnet. (Beweis: siehe Hall (1989a) On ecient bootstrap simulation, Biometrika, 76, S.614 .) Das heisst der Mean-Squared-Error (mse) wchst nicht wesentlich schneller als der Term 1 . n2 B Im Vergleich dazu ist
mseM C (bBOOT ) = Op
(B)

1 nB

(18)

(siehe J. Shao, D. Tu: The Jackknife and Bootstrap. Springer, 1995, S213f.) Mit anderen Worten verbessert die Approximierung, die durch das zentrierte Monte Carlo Verfahren erfolgt, das einfache Monte Carlo Schtz-Verfahren. Bemerkung: Fr "kleines" n kann man keine Aussage treen. Um den Bootstrap-Varianz-Schtzer der zentrierten Monte Carlo Methode bestimmen zu knnen, bedarf es der von Efron vorgeschlagenen orthogonalen Zerlegung (ANOVA Zerlegung) von n (P b ): (siehe Efron (1982): The Jackknife, the Bootstrap, and Other Resampling Plans, SIAM, Philadelphia, Kapitel 4, S.22f.)
b n (P )

= an0 + n (Pb ) + n (Pb )

(19)

und deniere
an0 = EM C (
n (P b

),

(20)

n (Pb ) = Pb , = (1 , ..., n ) , i = n{EM C (


n (P b b ) | X1 = Xi ) an0 }, i = 1, ..., n.

(21) (22) (23)

EM C bezeichnet den Erwartungswert fr das einfache Monte-Carlo-Schtzverfahren und n (Pb ) := n (Pb ) an0 n (Pb ) ist das Residuum.

Deniere
1 n = B
1 B n (P b=1 b

),

(24) (25) (26)

T=

n (P

) n , ...,

n (P

) n

und
Q = P1 P , ..., PB P .

Dann ist
(B) vBOOT = + V .

(27)

wobei
1 = QQ , = (QQ + 11 )1 QT, 1 = (1, ..., 1) B

(28)

und
1 V = B
B

[
b=1

b n (P )

n (Pb P ) ]2

(29)

(Beweis: siehe Efron (1990) - More ecient bootstrap computations, J. Amer. Statist. Assoc. 85, S.84) Ausserdem kann man fr den Bootstrap-Varianzschtzer folgendes zeigen:
vBOOT = 1 + V , n2

(30)

wobei
V = varM C (P1 ).

(31)

(Beweis: siehe Efron (1990) - More ecient bootstrap computations, J. Amer. Statist. Assoc. 85, S.84) Anmerkung: in (27) ist ein Schtzer von varM C (P1 ) in (31), ausserdem ist V ein Annherungswert des Monte-Carlo-Schtzverfahrens. Bei (30) hngt vBOOT nicht mehr von varM C (P1 ) ab. Somit erhlt man eine Reduzierung des Simulationsfehlers wenn der Wert des Simulationsfehlers von zu n12 verndert wird. Das fhrt uns zum zentrierten Bootstrap-Varianzschtzer
vBC =
(B)

1 + V . n2

(32)

Als nchstes betrachten wir fr p (0, 1) den Bootstrap-Quantilsschtzer


1 KBOOT (p).

(33)

Es ist
KBOOT (x) = P (n x) =
setze n =
b n (P )

P (

n (P

) x).

(34)

Betrachte die obige ANOVA-Zerlegung


n (P b

) = an0 + n (Pb ) + n (Pb ).

(35)

Mit der gleichen Idee wird

b n (P )

zerlegt: (36)

b b n = an0 + ln + n (Pb ), b = 1, ..., B,

b wobei ln sich hnlich verhlt wie (Pb ) in (19) bzw. hnliche Werte annehmen kann.

Dabei bezeichnet
(KBC )1 (p)
(B)

(37)

1 eine Approximierung von KBOOT (p) zum zentrierten Monte-Carlo-Verfahren und ist das b b p-te Quantil der vernderten Werte n und ist das p-te Quantil zu n , b = 1, ..., B .

2. Der Lineare Bootstrap

Wir stellen n als 1 n = + n


n

F (Xi ) + Rn ,
i=1

(38)

dar (Zerlegung von n in einen Linearteil und einen Rest Rn ), wobei F (x) eine wohldenierte Funktion ist mit der Eigenschaft F (x)dF (x) = 0 F,

(39)

wobei F die Verteilungsfunktion der i.i.d. Xi 's i ist. Wir bezeichnen


1 nL = + n als Linearteil von n .
n

F (Xi ),
i=1

(40)

Dann ist
Rn = n 1 + n
n

F (Xi )
i=1

= n nL .

(41)

Ersetze nun F durch die empirische Verteilung Fn . Sei


1 nL = n + n
n

Fn (Xi )
i=1

(42) (43)

und
Rn = n nL

jeweils das Bootstrap-Analogon zu nL und Rn . 1 Dann ist n = Rn + nL = n + n


n Fn (Xi ) +Rn . i=1 nL

Der Bootstrap-Bias im linearen Bootstrap ergibt sich aus


bBOOT = E (n ) n = 1 = E (n ) + E ( n
n Fn (Xi )) +E (Rn ) n = E (Rn ). i=1 E (Rn + nL )
1 =E (n + n n i=1 Fn (Xi )+Rn )

(44) (45)

= Fn (x)dFn (x)=0

Also ist
bBOOT = E (Rn )

(46)

Betrachte im nchsten Schritt


vBOOT = var (n ) = var (nL + Rn ) = var (n +

1 n

n Fn (Xi ) + Rn ) i=1

(47) (48)

1 n2

(Fn (Xi ))2


i=1 n

+2cov (Rn , nL ) + var (Rn ).

1 var (n + n

Fn (Xi ))
i=1
nL

Um bBOOT und vBOOT berechnen zu knnen muss man lediglich die Monte Carlo Me thode auf (46) und (47) anwenden unter Bercksichtigung von Rn .
b b Sei X1 , ..., Xn die b-te voneinander unabhngige Bootstrap-Stichprobe von Fn b b b = 1, ..., B . Sei weiterhin nL und Rn das Analogon zu nL und Rn , wobei Xi durch B 1 b Xi ersetzt wurde. Dann ergibt sich wegen (46) und bBOOT = B b=1 Rb n (B) bBL

1 = B

B b Rn b=1

(49)

wobei b(B) die Approximierung von bBOOT zum linearen Bootstrap ist. Die ApproximieBL rung von vBOOT zum linearen Bootstrap ist
vBL =
(B)

1 n2

(Fn (Xi ))2 +


i=1

1 B

1 b b b (2(nL n )Rn + (Rn B b=1 bBL = 0.


(B)

B b Rn )2 ). b=1

(50)

Im Fall n = Xn ist

(51)

Wenn n eine Funktion von Xn ist kann gezeigt werden, dass varM C (bBL ) = Op (
(B)

1 ). n2 B

(52)

(Beweis: siehe Hall (1989a) - On Ecient Bootstrap Simulation, Biometrika, Vol. 76, No. 3 (Sep., 1989), pp. 613-617) D.h. verglichen mit der einfachen Monte Carlo Approximierung verbessert der lineare Bootstrap die Approximierung in Bezug auf die Varianz.

3. Antithetische Methode des Bootstrap-Resampling

Es handelt sich hierbei um eine traditionelle Vorgehensweise um Fehler in der Monte Carlo Simulation zu reduzieren.
Die Idee ist recht einfach. Sei 1n ein Schtzer fr einen unbekannten Parameter . Gesucht ist ein weiterer Schtzer 2n mit der Eigenschaft var(1n ) = var(2n ). Ausserdem soll 1n negativ zu 1n korreliert sein. Erzeuge einen neuen Schtzer n 1n + 2n n = 2

(53)

(54)

mit der Eigenschaft


var(n ) < var(in ) i {1, 2}. 2

(55)

Hall nutzte diese o.g. Methode um die Monte Carlo Simulation zu verbessern. Deniere
b b Rb = Rn (X1 , ..., Xn , Fn ) n

(56) (57)
2

bBOOT =

(B)

1 B

Rb , n
b=1

(B) vBOOT

1 = B

Rb n
b=1

1 B

Rb n
b=1

(58)

und
HBOOT (x) =
(B)

1 B

I{Rb x}, n
b=1

(59)

b b wobei {X1 , ..., Xn }, b = 1, ..., B unabhngige Bootstrap-Stichproben von Fn sind. b b Betrachte nun die Bootstrap-Stichproben {X1 , ..., Xn }, b = 1, ..., B , und deniere

Xib = X(b,i) ,

(60)

wobei (b, i) i {1, ..., n} und b {1, ..., B} unabhngig gleichverteilt ist. Begrndung: Die Wahrscheinlichkeit, dass (b, i), i {1, ..., n} und b {1, ..., B} einen 1 beliebigen Wert aus {1, ..., n} annimmt, ist beim Bootstrap-Verfahren immer n . Betrachte z.B.
b X1 = X3 (b, 1) = 3.

(61)

Deniere im nchsten Schritt


{Xib = X((b,i)) , i {1, ..., n}}, b = 1, ..., B

(62)

als die Menge der neuen Bootstrap-Stichproben, wobei eine Permutation darstellt, also eine bijektive Abbildung
: {1, ..., n} {1, ..., n}.

(63)

(B) (B) Sei ausserdem (B) , vBOOT , HBOOT die anfangs denierten Monte Carlo ApproximiebBOOT rungen, wobei Xib durch die neue Bootstrap-Stichprobe Xib ersetzt wurde. Dann sind die antithetischen Monte Carlo Approximierungen zum Bootstrap-Bias, -Varianz und -Verteilungsschtzer

b + BOOT b = BOOT , 2 (B) (B) vBOOT + vBOOT (B) vBA = , 2 (B) (B) H + HBOOT (B) HBA = BOOT . 2
(B) bBA

(B)

(B)

(64) (65) (66)

(B) (B) Das Problem bleibt aber so festzulegen, sodass (B) , (BOOT oder HBOOT ) gleiche bBOOT v (B) (B) Varianz, aber negative Korrelation zu b(B) , (vBOOT oder HBOOT ) hat. BOOT

Im Falle dass Xi univariat ist und


n = g(Xn ),

(67)

schlug Hall vor, X1 , ..., Xn durch die Ordnungsstatistiken X(1) ... X(n) zu ersetzen und
(i) = n i + 1

(68)

zu setzen und konnte zeigen, dass so ein nicht nur die ntigen Bedingungen erfllt, sondern auch die Varianz der resultierenden antithetischen Monte Carlo Approximierung minimiert. Z.B. wenn
b b X1 = X(5) X1 = X(n5+1) = X(n4) .

(69)

(Beweis: Hall (1989b) - Antithetic resampling for the bootstrap, Biometrika, 76, 713-724 - S714.)

10

4. Die Importance-Bootstrap-Resampling-Methode

Bei der Abschtzung der Bootstrap-Verteilung bieten die vorher genannten Methoden keine grossen Verbesserungen gegenber dem einfachen Monte-Carlo-Verfahren. Beim Importance-Bootstrap-Resampling-Verfahren hingegen werden die Simulationsfehler fr die Bootstrap-Verteilung deutlich reduziert. Betrachte folgendes Problem: Angenommen man mchte p , das p-te Quantil von einer unbekannten Verteilung H abschtzen, wobei H(p ) = p und 0 < p < 1 ist. Eine Mglichkeit wre eine unabhngige Stichprobe mit der gemeinsamen Verteilungsfunkti on H zu entnehmen um daraus p abzuschtzen. Das macht aber nur Sinn, wenn wir p und H nicht kennen und man ohne Schwierigkeiten Stichproben generieren kann. Sei {Z1 , ..., ZB } eine unabhngige Stichprobe von H . Da man H nicht kennt, kann man einen einfachen Schtzer angeben ber
1 p = HB (p),

(70)

1 wobei HB die empirische Verteilung von Z1 , ..., ZB und HB die Umkehrfunktion von HB ist.

Nimmt man an, dass H eine positive Dichte an der Stelle p hat (h(p ) > 0) und h = H existieren sollte und stetig ist an der Stelle p , dann konvergiert
d B(p p ) N (0, 2 ),

(71)

wobei
2 = p(1 p) h2 (p )

(72)

ist fr grosse B . (Beweis: siehe Sering (1980) - Approximation Theorems of Mathematical Statistics, Wiley, New York, S. 710) D.h.
var(p ) 2 p(1 p) = . B Bh2 (p )

(73)

Das heisst wenn h2 (p ) relativ klein ist, sollte B dementsprechend gross genug gewhlt werden, um ein mglichst genaues p zu bekommen. 11

Noch genauere Quantilsschtzer erhalten wir, wenn wir Stichproben aus einer anderen Verteilung erhalten, die besser zu unserer Stichprobe passt. Sei dazu {Y1 , ..., YB } eine unabhngige Stichprobe aus einer Verteilung G mit Dichte g = G . Seien dann Y(1) ... Y(B) die dazugehrigen Ordnungsstatistiken. Deniere
1 Sr = B
r

i=1

h(Y(i) ) , r = 1, ..., B, g(Y(i) )

(74)

und nehme zustzlich an, dass h(y) und g(y) existieren y R und g(y) > 0 g . Es lsst sich im allgemeinen feststellen, dass
r H 1 (Sr ) G1 ( ), = B

(75)

denn

r B

r [0, 1]. Daraus folgt dass Sr H(G1 ( B )) ist. =

Wenn r also so gewhlt, sodass Sr p, dann ist


r p H(G1 ( )), = B

(76)

und daraus folgt nun


r Y(r) G1 ( ) H 1 (p) = p . = = B

(77)

Deniere im nchsten Schritt


p = Y(R)

(78)

als den Importance-Stichproben-Quantilsschtzer von p , wobei R eine Zufallszahl ist, die ber S(R) p und S(R+1) > p bestimmt wird. Ausserdem kann man zeigen, dass
B(p p ) N (0, 2 )
B

(79)

konvergiert, wobei
2 = 1 [h(p )]2
p

[h(y)]2 dy p2 g(y)

(80)

12

ist. (Beweis: Siehe Johns (1988) - Importance Sampling for Bootstrap Condence Intervalls, S. 710-711) Mit anderen Worten gilt es deshalb g(y) so zu whlen, dass es nahe an
h(y)I{yp } p2 liegt. Dann ist nmlich var(p ) relativ klein.

(81)

Wenn h und p nicht bekannt sind, muss man g abgeschtzen, um mit dem Importance Sampling Verfahren fortfahren zu knnen! Im nchsten Schritt wollen wir die Bootstrap Verteilung und Quantilsschtzer approximieren. Dazu entnehmen wir B unabhngige Stichproben aus der empirischen Verteilung Fn von X1 , ..., Xn . Damit die Importance Resampling Methode anwendbar ist, generiert man dazu Bootstrap Samples von
n

Gn (x) =
i=1

gi I{Xi x} ,

(82)

wobei gi > 0 und

n i=1

gi = 1 ist.

Also wird hier im Grunde die Wichtigkeit einiger Beobachtungen bercksichtigt. Weiterhin seien {Y1b , ..., Ynb }, b = 1, ..., B unabhngige sogenannte Importance-Bootstrap b Stichproben von Gn , n das Analogon zu n basierend auf {Y1b , ..., Ynb }.
(b) b Sei n der b-te geordnete Wert zu n , b = 1, ..., B . Schliesslich ist {Y1(b) , ..., Yn(b) } (b) die sogenannte Importance-Bootstrap-Stichprobe basierend auf n .

Deniere
1 Sr = B
r 1 nn n n i=1 j=1 b gij

, r = 1, ..., B

(83)

b=1

wobei
b gij =

gj , wenn Yi 1, sonst

(b)

= Xj

(84)

13

1 Dann ist die Importance-Bootstrap-M.C.-Approximierung zu KBOOT (p)

KBI

(B)

(R) (p) = n ,

(85)

wobei R aus SR p und SR+1 > p bestimmt wird. Durch geeignetes Auswhlen der Wahrscheinlichkeiten {gi , i = 1, ..., n}, welches nicht einfach zu bewltigen ist, ist 1 (B) (B) KBI (p) genauer als die simple-Monte-Carlo-Approximierung {KBOOT }1 (p). (Siehe Beispiel J. Shao, D. Tu: The Jackknife and Bootstrap. Springer, 1995, S. 225)

Literaturverzeichnis: J. Shao, D. Tu: The Jackknife and Bootstrap. Springer, 1995 B. Efron: More Ecient Bootstrap Computations - Journal of the American Statistical Association, Vol. 85, No. 409 (Mar., 1990), pp. 79-89 P. Hall: On Ecient Bootstrap Simulation - Biometrika, Vol. 76, No. 3 (Sep., 1989), pp. 613-617 P. Hall: Antithetic Resampling for the Bootstrap - Biometrika, Vol. 76, No. 4 (Dec., 1989), pp. 713-724 M. Johns: Importance Sampling for Bootstrap Condence Intervals - Journal of the American Statistical Association, Vol. 83, No. 403 (Sep., 1988), pp. 709-714 K. Do: A SIMULATION STUDY OF BALANCED AND ANTITHETIC BOOTSTRAP RESAMPLING METHODS (1992) -J . Srarrsr. Compur. Simul.. Vol. 40, pp. 153-166 K. Do and P. Hall: On Importance Resampling for the Bootstrap - Biometrika, Vol. 78, No. 1 (Mar., 1991), pp. 161-167

14