Beruflich Dokumente
Kultur Dokumente
1
ESTUDO E APLICAES DA TCNICA BOOTSTRAP
Ana Lucia Tucci Rizzo (analurizzo@uol.com.br), Raquel Cymrot
Orientadora: Raquel Cymrot (raquelc@mackenzie.com.br)
Resumo
A tcnica de reamostragem Bootstrap muito til por no necessitar de muitas
suposies para estimao de parmetros das distribuies de interesse. Este
artigo apresenta os diferentes mtodos de clculo de intervalos de confiana
utilizando a tcnica de reamostragem Bootstrap na forma paramtrica e no
paramtrica. Tais mtodos so o Intervalo de Confiana Bootstrap Percentil, o
Intervalo de Confiana Bootstrap Percentil das Diferenas, o Intervalo de
Confiana Bootstrap t, o Intervalo de Confiana Percentil Corrigido em Relao ao
Vis (BCPB) e o Intervalo de Confiana de Correo de Vcio Acelerado (BC
a
) ,
alm da tcnica de Bootstrap para a regresso e realizao de testes de
hipteses utilizando intervalos de confiana Bootstrap. Foram apresentadas as
situaes onde cada mtodo de obteno dos intervalos de confiana Bootstrap
mais adequado, dependendo do tipo de distribuio, vcio e assimetria da
estatstica do parmetro estudado. Para aplicao destas tcnicas foram
realizados seis estudos de caso que possibilitaram a aplicao dos mtodos de
estimao Bootstrap mais recomendados na estimao dos parmetros mdia,
varincia, proporo e desvio padro de processos. Estes casos incluram
distribuies simtricas e assimtricas. Quando a distribuio de probabilidades
da estatstica do parmetro a ser estimado era conhecida foi tambm calculado o
intervalo de confiana baseado na distribuio de probabilidades do estimador.
Palavras chave: Reamostragem ; Mtodo Bootstrap; Intervalo de confiana
Abstract
The Bootstrap resampling technique is very useful because it does not need many
assumptions to estimate parameters of the distributions of interest. This article
presents the different methods to calculate confidence intervals by using Bootstrap
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
2
resampling technique in parametric and nonparametric form. Such methods are
the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap
Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected
Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected
Accelerated Confidence Interval (BCa), besides Bootstrap technique for
regression and hypothesis tests accomplishment by using Bootstrap confidence
intervals. Situations were presented wherein each method used to obtain the
Bootstrap confidence intervals is more proper, depending on the kind of
distribution, bias and skewness of the studied parameter. Aiming at applying these
techniques, six studies of case were carried out, enabling the application of the
most recommended Bootstrap estimation methods to estimate the parameter
mean, variance, proportion and standard deviation of processes. These cases
included symmetrical and skewed distributions. When the distribution of
probabilities of the parameter to be estimated was known, the confidence interval
based on the probability distribution of the estimator was also computed.
Key terms: Resampling, Bootstrap technique, Confidence Interval
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
3
INTRODUO
A utilizao de tcnicas estatsticas no mundo dos negcios vem
crescendo cada vez mais, devido principalmente a sua utilidade na comparao
de servios, verificao de qualidade, anlise para desenvolvimento de produtos e
outros. A tcnica de Bootstrap uma das possveis tcnicas de reamoostragem a
serem utilizadas.
A reamostragem consiste em sortear com reposio dados pertencentes a
uma amostra retirada anteriormente, de modo a formar uma nova amostra.
Tcnicas de reamostragem so teis em especial quando o clculo de
estimadores por mtodos analticos for complicado. Reamostrar permite
diferentes alternativas para se encontrar desvios padres e intervalos de
confiana atravs da anlise de um conjunto de dados.
Existem diversas tcnicas de reamostragem que visam estimar parmetros
de uma distribuio de interesse. Uma vantagem em utilizar a tcnica de
reamostragem Bootstrap a generalidade com que pode ser aplicada, pois requer
que menos suposies sejam feitas. Outras vantagens so que geralmente
fornece respostas mais precisas, alm de favorecer o entendimento.
Muitas vezes a distribuio de probabilidade da estatstica de interesse
desconhecida. Nesse caso o Bootstrap muito til, pois uma tcnica que no
exige diferentes frmulas para cada problema e pode ser utilizada em casos
gerais, no dependendo da distribuio original da estatstica do parmetro
estudado.
Segundo Davison e Hinkley (1997), repetir um procedimento de anlise
original com muitas rplicas de dados pode ser denominado mtodo intensivo
computadorizado. Para realizar uma estimao atravs da utilizao de Bootstrap
necessria a realizao de um nmero muito grande de reamostragens e o
clculo de diversas estatsticas para cada uma destas reamostragens. Isto exige o
auxlio de programas computacionais para realizar as reamostras e os clculos de
forma mais rpida e eficaz.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
4
Esse um dos motivos pelo qual essa tcnica vem se desenvolvendo mais
nos ltimos tempos, pois com o avano tecnolgico os softwares esto ficando
mais prticos, rpidos e acessveis.
A utilizao da tcnica de Bootstrap no implica que as outras devam ser
ignoradas, podendo ser usada como um complemento na argumentao das
concluses obtidas.
Devido a sua generalidade, a tcnica Bootstrap se encaixa na soluo de
problemas complexos. Atravs do uso da tcnica de Bootstrap os parmetros
como a mdia, a varincia, a proporo e at mesmo parmetros menos
utilizados como o mximo, mnimo, etc. de uma populao podem ser estimados
pontualmente e por intervalo.
A reamostragem baseada nos dados da amostra mestre utilizada pela
tcnica de Bootstrap denominada no paramtrica uma vez que a distribuio de
probabilidades da estatstica do parmetro a ser estimado desconhecida.
Atravs desta tcnica possvel obter a distribuio amostral de um parmetro a
partir da amostra original.
A forma no paramtrica a mais utilizada. Entretanto, quando a
distribuio de probabilidades das estimativas dos parmetros de interesse da
populao da qual a amostra mestre foi extrada for conhecida, outra forma de
Bootstrap pode ser aplicada. Esta forma denominada paramtrica consiste em
gerar reamostras baseadas na distribuio de probabilidades conhecida utilizando
como parmetros desta distribuio a estimativa dos mesmos obtida atravs da
amostra mestre. Neste caso o interesse ser estimar o vcio das estimativas dos
parmetros e assim efetuar as correes necessrias (NAVIDI, 2006).
Outra utilidade relatada por Hall (1988) que, ao se comparar o intervalo
de confiana obtido atravs da utilizao da tcnica Bootstrap com o intervalo de
confiana baseado na distribuio de probabilidades conhecida do estimador, se
este ltimo tiver sido calculado usando suposies inadequadas, a diferena entre
estes dois resultados ser gritante, chamando assim ateno em relao ao erro
cometido.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
5
Neste artigo sero apresentadas as diversas tcnicas de Bootstrap para
estimao. Seis estudos de caso tambm sero realizados.
BOOTSTRAP
Para realizar o teste utilizando a tcnica Bootstrap preciso colher uma
amostra de tamanho n que ser denominada amostra mestre. Essa amostra deve
ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e
no representar bem a populao, a tcnica de Bootstrap no levar resultados
confiveis.
Hesterberg et al. (2003) afirmam que a amostra mestre representa a
populao da qual foi retirada. As reamostras desta amostra mestre representam
o que se deve obter quando so retiradas muitas amostras da populao original.
A distribuio Bootstrap da estatstica, baseada em muitas reamostras,
representa uma distribuio amostral desta estatstica. Esta caracterstica faz com
que uma das utilidades da tcnica Bootstrap seja checar a normalidade da
distribuio original da estatstica em foco.
Para que a aplicao da tcnica resulte em valores confiveis devem ser
feitas, a partir da amostra mestre, centenas ou at milhares de reamostras do
mesmo tamanho n. A maioria dos autores recomenda a utilizao de 1000
reamostras. Segundo Montgomery (2001) o nmero de reamostragens pode ser
estipulado verificando a variao do desvio padro para a estimativa do
parmetro em questo calculado para as reamostras medida que estas so
realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra
Bootstrap estar adequado.
importante que a reamostragem seja realizada com reposio sempre
selecionando os valores de forma aleatria. Para a gerao destas reamostras as
tcnicas computacionais so de grande utilidade, pois sem estas, o tempo para
que fossem feitas todas as reamostras desejadas de forma manual seria
excessivamente grande.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
6
Uma vez geradas as reamostras, deve-se calcular para cada uma delas a
estatstica solicitada no problema. Essa tcnica no altera nenhum valor da
amostra mestre, ela apenas trabalha na anlise da combinao dos valores
iniciais com a finalidade de se obter as concluses desejadas.
A variabilidade presente no Bootstrap dada pela escolha da amostra
mestre e pelas reamostras, sendo a variabilidade devido escolha da amostra
mestre a mais significativa.
O desvio padro da distribuio Bootstrap para a mdia (tambm chamado
de erro padro) uma medida de variabilidade e calculado da seguinte forma:
=
2
* *
1
1
1
i i bootstrap
B B
SE (1)
com
*
i
igual ao valor da estatstica para cada reamostra e B igual ao
nmero de reamostragens realizadas. O asterisco usado para diferenciar a
estatstica das reamostras da estatstica da amostra original, a qual
representada por
, calcula-se o
valor destas estatsticas para cada uma das i reamostras Bootstrap (
*
i
) e a
mdia dessas estimativas
*
=
(5)
Para verificar se o intervalo de confiana t calculado confivel podemos
compar-lo com o intervalo de confiana percentil. Se o vcio for pequeno e a
distribuio Bootstrap for aproximadamente normal, os dois intervalos iro
apresentar valores muito prximos. Segundo Hesterberg et al. (2003), caso os
intervalos de confiana Bootstrap calculados pela t e pelo percentil no tiverem
valores prximos nenhum destes mtodos deve ser utilizado. Entretanto Efron
(1986) afirma que se a distribuio Bootstrap no for aproximadamente normal,
mas existir uma transformao monotnica possvel que a torne normal, pode-se
calcular o intervalo de confiana Bootstrap Percentil para os dados transformados
e posteriormente desfazer a transformao para os limites do intervalo
encontrado. Isto possvel uma vez que a transformao utilizada foi uma
transformao monotnica, portanto o intervalo de confiana Bootstrap pelo
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
9
mtodo Percentil assim calculado coincidir com o intervalo de confiana
Bootstrap pelo mtodo Percentil para os dados no transformados.
Se o vcio e a assimetria esto presentes de forma muito forte
mais recomendvel que se utilize mtodos de Bootstrap de correo como o
Mtodo BCPB e o mtodo BC
a
.
c) O Intervalo de Confiana Bootstrap BCPB
No clculo do intervalo de confiana BCPB os extremos do intervalo so os
percentis da distribuio Bootstrap ajustados para corrigir o vcio e assimetria
desta distribuio.
Por exemplo, para encontrar um intervalo de confiana BCPB com 95% de
confiana, preciso ajustar os percentis que para um clculo de intervalo de
confiana Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de
corrigir o vcio e assimetria. Se a estatstica for viciada para cima o BCPB move
os extremos para a esquerda e se a estatstica for viciada para baixo o BCPB
move os extremos para a direita.
Para realizar o clculo do intervalo de confiana BCPB deve-se
primeiramente ordenar as B estimativas
*
i
em forma crescente e calcular a
probabilidade denominada p
0
de uma estimativa ser inferior estimativa da
amostra mestre (
z
. ento possvel obter os percentis PI e
P
S
:
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
10
=
2
0
2
z z P
I
(8)
+ =
2
0
2
z z P
S
(9)
O Intervalo de Confiana BCPB calculado da seguinte maneira:
[ ] )
( ; )
(
* *
i P i P BCPB
S I
P P IC = (10)
d) O Intervalo de Confiana Bootstrap BC
a
O mtodo de Correo de Vcio Acelerado permite encontrar o intervalo de
confiana quando assimetria estiver presente de maneira muito forte. Esse
mtodo no difere muito do BCPB sendo esta diferena o fato de o BC
a
possuir
uma constante de acelerao a que ajusta o intervalo de confiana em relao
assimetria. Segundo Efron (1986) nesta situao este mtodo mais indicado
que o mtodo BCPB.
O intervalo de Confiana BC
a
obtido realizando os mesmo passos do
clculo do intervalo de confiana BCPB com os limites P
I
e P
S
, porm utilizando
um ajuste por meio da constante de acelerao a. A obteno da constante a
envolve clculos no triviais, o que leva o Intervalo de Confiana BC
a
ser mais
utilizado quando h algum software estatstico disponvel. O programa S-PLUS
citado em vrios artigos como, por exemplo, em Pereira et al. (2000). possvel
encontrar tambm alguns programas livres que calculam esta constante.
O clculo do intervalo de confiana BC
a
feito atravs da mesma Equao
(10), porm com P
I
e P
S
respectivamente iguais a:
+
=
2
0
2
0
0
1
z z a
z z
z P
I
(11)
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
11
+
+ =
2
0
2
0
0
1
z z a
z z
z P
I
(12)
De acordo com Andrews e Buchinsky (2002) possvel determinar a
constante a de maneira mais simples quando as variveis aleatrias observadas
na amostra mestre forem independentes e identicamente distribudas. Neste caso:
( ) ( )
( )
( ) ( )
( ) ( )
2
3
1
2
.
1
3
.
6
=
=
=
n
i
i
n
i
i
a
(13)
, com
( ) i
.
e) A tcnica Bootstrap na Regresso
Existem dois procedimentos para se estimar os coeficientes do modelo de
regresso utilizando a tcnica de Bootstrap: o mtodo Bootstrap dos Resduos e o
mtodo Bootstrap dos Casos ou Pares (MONTGOMERY, 2001).
O procedimento de Bootstrap paramtrico denominado Bootstrap dos
Resduos consiste em estimar os coeficientes de regresso para os dados
originais e assim gerar os respectivos resduos para as n observaes realizadas.
Estes resduos formaro a amostra mestre. Deve-se ento gerar as reamostras a
partir destes resduos. O valor do vetor resposta para uma reamostragem (y*)
ser obtido somando-se o vetor de resduos desta reamostra ao vetor resposta
estimado nos dados originais ( y ). Para cada reamostra so ento calculadas as
estimativas dos coeficientes de regresso. As mdias das estimativas dos
coeficientes de regresso para as reamostras sero as estimativas Bootstrap
pontuais dos mesmos. Intervalos de confiana para os coeficientes da regresso
podem ser obtidos pelo mtodo percentil. A coincidncia dos intervalos
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
12
tradicionais e Bootstrap confirmar as suposies feitas para a realizao da
anlise de regresso.
O procedimento de Bootstrap no paramtrico denominado Bootstrap dos
Casos ou Pares deve ser usado quando existe uma transformao nos dados
originais de modo que para estes dados transformados possa ser realizada uma
regresso linear. Neste caso as estimativas dos erros padro dos coeficientes
sero aproximadas e estas aproximaes sero vlidas apenas para grandes
amostras. O mtodo Bootstrap fornecer uma estimativa dos intervalos de
confiana para os coeficientes da regresso e ser til para checar a validade da
aplicao assinttica para os resultados obtidos.
Na forma Bootstrap dos Casos ou Pares os prprios dados originais devem
compor a amostra mestre. Estes dados originais (que so vetores) devem ser
reamostrados. Para cada reamostra so estimados os coeficientes da regresso
linear para os dados da reamostra transformados. Intervalos de confiana para os
coeficientes da regresso podem ser obtidos pelo mtodo percentil.
f) Teste de Hiptese com Intervalos de Confiana Bootstrap
Dado um intervalo de confiana calculado por qualquer mtodo
Bootstrap com 100(1
% as hipteses nulas de
que o parmetro estimado seja igual a qualquer valor fora desse intervalo e deve-
se aceitar com 100
n
c
ia
0,80 0,72 0,64 0,56 0,48 0,40 0,32
160
140
120
100
80
60
40
20
0
Mean 0,5451
StDev 0,08433
N 1000
Histograma da proporo de alunos usurios de transporte pblico
P
r
o
p
o
r
o
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Boxplot da proporo de alunos usurios de transporte pblico
GRFICO 6 - Histograma das propores nas
1000 reamostras
GRFICO 7 - Boxplot da proporo de alunos
usurios de transporte pblico nas 1000
reamostras
Como a distribuio Normal, o intervalo de Confiana Bootstrap t pode
ser utilizado e deve coincidir com os intervalos de Confiana Bootstrap Percentil.
A amostra mestre apresentou uma proporo estimada de alunos que
utilizavam na maior parte dos dias transporte pblico como meio de locomoo
para a universidade igual a 0,5455 com varincia da proporo igual a 0,0075. As
reamostras apresentaram uma mdia das propores igual a 0,5451 com
varincia da proporo igual a 0,0073.
Os intervalos de confiana para a proporo dos alunos que utilizavam na
maior parte dos dias transporte pblico como meio de locomoo para a
universidade foram calculados atravs dos mtodos Percentil e Bootstrap t.
Os intervalos de confiana para a proporo, calculados atravs dos trs
mtodos revelaram-se muito prximos, a saber: intervalo de confiana Bootstrap
Percentil = [0,3932 ; 0,7273], intervalo de confiana Bootstrap Percentil das
Diferenas = [0,3632 ; 0,6973] e intervalo de confiana Bootstrap t = [0,3737 ;
0,7172].
Foi tambm calculado o intervalo de confiana padro para a proporo.
Para este clculo foram utilizados os dados da amostra mestre, tendo sido obtido
o intervalo [0,3756 ; 0,7153], tambm bem prximo aos demais intervalos de
confiana calculados.
O vcio encontrado foi de 0,0004 (0,07% do valor da estatstica na
amostra mestre).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
23
O Grfico 8 apresenta o teste de aderncia de Kolmogorov Smirnov no
qual no foi confirmada a normalidade da distribuio das varincias das
propores estimadas nas 1000 reamostras (p < 0,010).
varincia da proporo
P
o
r
c
e
n
t
a
g
e
m
0,009 0,008 0,007 0,006 0,005 0,004
99,99
99
95
80
50
20
5
1
0,01
Mean 0,007299
StDev 0,0003851
N 1000
KS 0,165
P-Value <0,010
grfico de probabilidade normal da varincia da proporo
GRFICO 8 - Grfico de probabilidade normal para as varincias das propores de alunos
usurios de transporte pblico nas 1000 reamostras.
Devido falta de normalidade no indicado o uso do intervalo de
confiana Bootstrap t.
O intervalo de confiana para a varincia da proporo calculado atravs
do mtodo de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuio de
probabilidades da varincia assimtrica e o vcio encontrado foi de 0,0002
(2,67% do valor da estatstica na amostra mestre), sendo o estimador
tendencioso, a melhor opo o clculo dos intervalos de confiana para a
varincia atravs dos mtodos BCPB e BC
a
, os quais apresentaram
respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para
obteno do intervalo de confiana pelo mtodo BC
a
o valor encontrado para a
constante a foi igual a 0,005297. Neste caso a correo realizada foi
desprezvel.
Estudo de Caso 3: Medio de parafusos
O Grfico 9 apresenta o histograma das 1000 mdias das reamostras
Bootstrap.
Pode-se notar a forma muito prxima Normal. O teste de aderncia
distribuio Normal realizado pelo mtodo de Anderson Darling confirma esta
hiptese (p = 0,156).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
24
parafusos
F
r
e
q
u
e
n
c
y
27,18 27,12 27,06 27,00 26,94 26,88 26,82
140
120
100
80
60
40
20
0
Mean 26,99
StDev 0,06374
N 1000
Histogramof parafusos
Normal
GRFICO 9 - Histograma das mdias das mil reamostras dos comprimentos dos parafusos
A mdia da amostra mestre encontrada foi 26,9908, sua mediana 27,0050
e sua varincia apresentada por 0,2043. possvel verificar a simetria dos dados
que compe a amostra mestre pela proximidade do valor da mediana e o valor da
mdia.
Utilizando a tcnica Bootstrap, calculou-se os intervalos de confiana para
a mdia e para a varincia de forma paramtrica e no paramtrica atravs do
mtodo Percentil.
No clculo do intervalo de confiana Bootstrap Percentil no paramtrico
para as mdias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo de
confiana Bootstrap Percentil das Diferenas foi igual a [26,8657 ; 27,1066]. O
Intervalo de Confiana Bootstrap Percentil paramtrico apresentou os seguintes
valores [26,8645 ; 27,1035]. Tambm foi calculado o intervalo de confiana
Bootstrap t igual a [26,8627 ; 27,1189].
Como a distribuio das mdias dos comprimentos dos parafusos
conhecida, foi possvel realizar o clculo do intervalo de confiana padro. O
intervalo obtido foi [26,8610 ; 27,1206].
A mdia das mdias nas reamostras foi igual a 26,9928. O valor do vis na
forma no paramtrica calculado com os dados das reamostras foi igual a 0,0020,
considerado pequeno (0,0007% do valor da estatstica na amostra mestre). Neste
caso os mtodos Bootstrap t e Bootstrap Percentil de clculo de intervalo de
confiana so adequados e resultaram em valores prximos.
Os intervalos de confiana para varincia utilizando a tcnica Bootstrap
forneceram valores prximos, a saber: intervalo de confiana Bootstrap Percentil
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
25
no paramtrico = [0,1313; 0,2740] e Percentil das Diferenas no paramtrico =
[0,1296; 0,2723]. Atravs da aplicao da tcnica paramtrica obteve-se o
intervalo de confiana Bootstrap Percentil paramtrico = [0,1363 ; 0,2914].
Supondo a distribuio Quiquadrado para a varincia dos comprimentos
dos parafusos, foi possvel calcular o intervalo de confiana igual a [0,1425 ;
0,3172].
A mdia das varincias nas reamostras foi igual a 0,1993. O valor do vis
para a estimativa da varincia foi igual a 0,0050 considerado grande (2,45%
valor da estatstica na amostra mestre).
Neste caso aconselhvel o clculo dos intervalos de confiana para a
varincia atravs dos mtodos BCPB e BC
a
, os quais apresentaram
respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para
obteno do intervalo de confiana pelo mtodo BC
a
o valor encontrado para a
constante a foi igual a 0,043243.
Estudo de caso 4: Tempo de espera na fila do Benjamim Abraho
Atravs da construo do Box Plot, foram encontrados os possveis outliers
235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na
amostra mestre uma vez que tais dados extremos realmente ocorreram.
Segundo Prado (1999), o tempo de espera em uma fila tem em geral
distribuio exponencial, porm, neste caso como foi computado o tempo de
espera, tempo de atendimento e tempo de pagamento, a distribuio resultante
no se comportou como exponencial. Deve-se salientar que a forma de
pagamento determinou, de maneira marcante, a diferena nos tempos totais
computados. Se o comprador utilizava dinheiro a operao era bem rpida,
porm, se ele usava algum carto eletrnico poderia ser consumido um tempo
muito maior.
O histograma (Grfico 10) indicou a forma da distribuio do tempo total
prxima da Normal. O teste de aderncia pelo mtodo de Anderson Darling
confirmou a aderncia distribuio Normal (p = 0,809).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
26
Os dados da amostra mestre apresentaram uma mdia igual a 209,0333.
As mil reamostragens foram feitas com reposio e calculadas as estatsticas
necessrias para a aplicao da tcnica Bootstrap.
Os intervalos de confiana para a mdia foram obtidos pelo mtodo
Percentil das Diferenas = [193,9140 ; 223,8027], mtodo Percentil = [194,1488 ;
224,0375] e, sendo a distribuio aproximadamente normal, o clculo foi realizado
pelo mtodo Bootstrap t = [193,9850 ; 224,0817]. Os trs intervalos de confiana
apresentaram valores prximos.
Tempo de atendimento
F
r
e
q
n
c
ia
232 224 216 208 200 192
120
100
80
60
40
20
0
Mean 208,9
StDev 7,520
N 1000
Histograma do tempo de atendimento
GRFICO 10 - Histograma das 1000 mdias das reamostras do tempo de espera e atendimento
na fila
Foi calculado o intervalo de confiana para a mdia do modo padro para
que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vcio
presente para o tempo mdio de atendimento foi igual a 0,1152 (0,055% do
valor da estatstica na amostra mestre), considerado pequeno.
Estudo de caso 5: Tempo de processamento de um digestor de vsceras de
aves
As amplitudes foram reamostradas e calculado o desvio padro do
processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi
plotado o histograma que permite verificar a proximidade da distribuio dos
desvios padres do processo com a distribuio Normal. O teste de probabilidade
de aderncia pelo mtodo de Anderson Darling confirmou esta hiptese (p =
0,537).
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
27
Atravs da tcnica Bootstrap, foram obtidos intervalos de confiana para o
desvio padro do processo pelos mtodos Percentil e t. Para o clculo do
intervalo de confiana Bootstrap t foi estimado o desvio padro do processo da
amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram
respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os
mtodos Bootstrap t e Percentil.
A proximidade dos intervalos ocorre devido distribuio ser
aproximadamente Normal alm do vcio calculado pela diferena entre a mdia do
desvio padro das reamostras do processo e o desvio padro do processo da
amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da
estatstica na amostra mestre).
Estudo de caso 6: Verificao da adeso dos alunos a um programa de uso
racional de gua
As respostas para as perguntas foram codificadas como zero quando
negativas e um quando positivas. Atravs da tcnica Bootstrap, foram calculados
os intervalos de confiana para a proporo de respostas afirmativas e seus
resultados comparados com o intervalo de confiana padro.
Para cada resposta obtida para as trs perguntas, foram geradas 1000
reamostras e obtidos os seguintes resultados:
Em relao percepo de adesivos que estavam sendo colados, foi
realizado um teste de aderncia distribuio Normal pelo mtodo de
Kolmogorov Smirnov (p > 0,150), o que possibilita o clculo dos intervalos de
confiana Bootstrap pelo mtodo Percentil = [0,5200 ; 0,8000] e pelo mtodo
Bootstrap t= [0,5243 ; 0,7957]. Como a distribuio da proporo nas reamostras
aproximadamente Normal, foi possvel calcular o intervalo de confiana padro
para proporo e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos
resultaram muito prximos.
Para as 1000 reamostras dos dados que representam o resultado da
pesquisa sobre o aluno que havia notado a alterao dos dispositivos de
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
28
funcionamento das torneiras, foram calculadas as propores cuja distribuio foi
considerada Normal atravs do teste de aderncia pelo mtodo de Kolmogorov
Smirnov (p > 0,150).
Os intervalos de confiana Bootstrap Percentil e t foram calculados e seus
resultados comparados com o clculo do intervalo de confiana padro para
proporo. Os resultados obtidos foram: intervalo de confiana Bootstrap t =
[0,2623 ; 0,5377], intervalo de confiana Bootstrap Percentil = [0,2800 ; 0,5400] e
intervalo de confiana padro = [0,2642 ; 0,4183], todos muito prximos.
O teste de aderncia realizado pelo mtodo de Kolmogorov Smirnov para a
distribuio das propores nas 1000 reamostras das respostas dos alunos
quanto colaborao na diminuio do consumo de gua confirma a aderncia
distribuio Normal (p >0,150).
Os valores encontrados nos clculos dos intervalos de confiana Bootstrap
Percentil, t e padro foram muito prximos, a saber: intervalo de confiana
Bootstrap t = [0,4228 ; 0,6972], intervalo de confiana Bootstrap Percentil =
[0,4200 ; 0,7000] e intervalo de confiana padro = [0,4224 ; 0,5897].
CONCLUSO
Atravs da realizao dos estudos de caso, foi possvel verificar a
adequao da tcnica Bootstrap em situaes presentes no cotidiano.
Os intervalos de confiana e as estimativas encontradas em todos os
estudos de caso foram coerentes e confirmaram a confiabilidade do mtodo para
estimao de parmetros em situaes onde as distribuies das estimativas dos
parmetros eram conhecidas.
O mtodo tambm tornou possvel a estimao de intervalos de confiana
em situaes onde as distribuies dos parmetros so desconhecidas ou
complexas.
Verificou-se, pelos casos estudados, a generalidade de aplicao da
tcnica de estimao atravs da reamostragem e que o mtodo Bootstrap permite
que o clculo do intervalo de confiana seja realizado de modo mais simples e
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
29
abrangente para diversas estatsticas, mesmo quando as distribuies de
probabilidades das mesmas so desconhecidas.
Foi possvel estabelecer o intervalo de confiana adequado para cada
situao diferente.
Quando a estatstica do parmetro estudado tinha distribuio Normal, os
intervalos de confiana Bootstrap pelos mtodos t e Percentil coincidiram e foram
adequados.
Quando a distribuio da estatstica do parmetro estudado no era
Normal, porm existia uma transformao monotnica para a estatstica do
parmetro que tornasse sua distribuio Normal, o intervalo Bootstrap Percentil foi
adequado.
Nos casos em que a distribuio no era Normal com a estimativa pontual
Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram
utilizados os mtodos BCPB e BC
a
. Quando era conhecida a distribuio da
estatstica do parmetro, os intervalos BCPB e BC
a
resultaram mais prximos do
intervalo padro que o intervalo Bootstrap Percentil, confirmando a melhora na
estimao com o uso dos intervalos corrigidos.
O valor pequeno do vis uma indicao de que os valores estimados
devem estar prximos dos verdadeiros valores.
Para cada situao deve ser escolhida a tcnica de clculo de intervalo
Bootstrap mais adequada. Quando houve mais de uma tcnica possvel de ser
utilizada, verificou-se que os intervalos de confianas resultaram muito prximos.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
30
REFERNCIAS
[1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions
for BC
a
confidence intervals. Econometric Theory, v. 18, n. 4, p. 962-984, Aug.
2002.
[2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A.
S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso
racional da gua implantado em um campus da Universidade Presbiteriana
Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING
AND TECHNOLOGY EDUCATION, 2006, Itanham. Anais So Vicente:
COPEC, 2006. 1 CD-ROM.
[3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.
Cambridge: Cambridge University Press, 1997.
[4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors,
confidence intervals, and other measures of statistical accuracy. Statistical
Science , v. 1, n. 1, p. 5577, Feb. 1986.
[5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E.
Fbrica de subprodutos de origem animal: a importncia do balanceamento das
cargas dos digestores de vsceras. Revista Produo, v. 10, n. 2, p. 5-9, 2002.
[6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of
Statistics, v. 16, n. 3, p. 927953, Sep. 1988.
[7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN,
R. Bootstrap methods and permutation tests. In: The practice of business
statistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18.
[8] GONZLEZ MANTEIGA, W.; PRADA SNCHEZ, J. M.; ROMO URROZ, J. J.
The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994.
[9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear
regression analysis. 3rd ed. New York: Wiley, 2001.
[10] MONTGOMERY, D. C.; RUNGER, G. C. Estatstica aplicada e probabilidade
para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003.
Universidade Presbiteriana Mackenzie - II Jornada de Iniciao Cientfica
31
[11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill,
c2006.
[12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de
confiana Bootstrap como ferramenta para classificar raas do nematide de
cisto de soja. Pesquisa Agropecuria Brasileira, Braslia, v. 35, n. 2, fev. 2000.
Disponvel em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-
204X2000000200005 Acesso em: 9 jun. 2006.
[13] PRADO, D. S. Teoria das filas e da simulao. Belo Horizonte:
Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2).