Sie sind auf Seite 1von 9

Pessoal, segue um exemplo do livro de estatstica que utilizei na graduao na disciplina de

Estatstica Econmica II. A disciplina de Estatstica Econmica I (anterior quela) termina


expondo o que so as distribuies (como a normal) e o livro que estou usando aqui, como
vocs vo perceber, aborda o assunto j na sua pgina 189 (ou seja, seria desejvel uma base
melhor para a completa compreenso do assunto). Mesmo assim acho que possvel
melhorarmos o entendimento. Segue ento o exemplo, que se desdobra em vrios e alguns
comentrios meus fazendo referncia aula da prof. Carol.

O livro parte j de um caso concreto1 em que um grupo de desenvolvedores de website


(chamado OurCampus!)busca aprimorar o seu sistema, tendo como varivel relevante para
explicar o rendimento desse site o tempo de abertura da pgina (tempo que leva para carregar
a pgina). Os desenvolvedores dispem de alguns dados obtidos com seus usurios no
passado, so eles:

Mdia de tempo para abertura do site(M): 7 segundos

Desvio Padro (DP): 2 segundos (lembrando: desvio-padro uma medida de disperso dos
dados, ou seja, mede o quanto os dados de que dispomos distam da mdia; mais
precisamente, a raiz quadrada da soma dos desvios em torno da mdia ao quadrado sobre
n-1)

No meu entender, a prof. pulou um ponto importante que a explicao do valor Z da


distribuio normal e como chegar a ele.

Notem que a distribuio normal nada mais do que uma funo de probabilidade que foi
encontrada mediante clculos complexos envolvendo matemtica integral e diferencial. No
entanto a intuio da integral bastante simples: trata-se, no nosso caso, da rea total
debaixo de uma curva. Assim, tabelou-se os dados para as distribuies que se assemelham
normal ( possvel submeter a amostra a teste para verificar se ela ou no uma distribuio
normal) e encontrou-se probabilidades associadas a um nmero padronizado Z (que valem
para qualquer distribuio normal de dados), que nada mais do que quantidades de desvios-
padres que uma distribuio com determinadas caractersticas possui e que correspondem
sempre a uma probabilidade acumulada. Assim, o famoso Z= +- 1,96 a que a prof. fez
referncia quer dizer um ponto que se afasta 1,96 desvios padres da mdia, para mais e para
menos. Como veremos, se os meus dados se aproximam de uma distribuio normal, os seus
valores se encontram 95% das vezes entre 1,96 DP acima e 1,96 DP abaixo da mdia.

Assim, tendo em mos uma distribuio normal de dados, pode-se transformar os valores que
temos nas vrias unidades de medidas (como idade, reais, etc) em quantidade de desvios-
padro em torno de uma mdia; trata-se de transformar uma distribuio de valores reais, em
uma distribuio de iguais caractersticas porm que possui mdia=0 e DP=1, uma distribuio
fictcia que nos simplifica a vida.

A frmula a seguinte (equao 6.2 do livro):

Notem que X a varivel que queremos transformar. Abaixo um grfico feito com os dados do
nosso caso concreto l de cima (M=7, DP=2).

1
BRUNA (2017)
FIGURA 6.4

A escala de X seria o nosso grfico de disperso original (em segundos) e embaixo a escala Z,
que transformou os valores da nossa base de dados em nmeros de desvios-padres.
Reproduzo agora a ntegra da explicao do livro: (Tabela E.2 a tabela normal que a
professora mostrou na sala (o exemplo vai extrair pedaos dessa tabela para as
demonstraes), no se preocupem com ela)2

2
A tabela que inclu no Drive igual utilizada pelo livro, ela traz os valores de probabilidade
conforme a figura que fica no topo (nesse ponto igual utilizada pela professora) e mais
intuitiva, j que traz as probabilidades para os valores de Z positivos e negativos. Notem que
quando padronizamos, a nossa distribuio fica com mdia zero e assim alguns Zs que em
nossa amostra original fazem referncia a valores positivos, se tornam menores que zero, o
que pode nos confundir, j que no faria sentido falar em idade ou salrios negativos! Depois
de pegar o jeito da coisa, vamos notar que, pela sua caracterstica simtrica, bastar girar a
curva normal para perceber que no caso de Zs negativos, basta fazer 1-p, onde p a
probabilidade associada quele mesmo Z, porm positivo (temos um exemplo frente), para
obter as respostas. Assim poderemos trabalhar apenas com o pedao positivo da tabela (que
foi a mostrada em sala).
Notem que o problema colocado em sala semelhante a este. No caso, porm, ao invs de
termos os valores em segundos para da achar a probabilidade, a prof. nos deu a probabilidade
de 95% e tentou heroicamente mostrar qual o intervalo dentro do qual se localizam 95% das
observaes da amostra. Notem que a distribuio bicaudal e os valores se situam em torno
da mdia, para mais e para menos. Assim, determinar um intervalo de confiana de 95%,
quando dispomos de uma tabela como a da prof. (Z<z, ou Z<a na minha tabela; as letras so
convenes) fazer operaes algbricas com as probabilidades que podemos extrair. Assim,
como a tabela acumula a probabilidade desde a cauda esquerda, ser preciso retirar as
pontas da curva que, somadas, representem 95%. Observem que, ao pegarmos direto da
tabela os 95%, obtendo Z=1,645, no errado dizer que temos a rea correspondente a 95%
dos valores, mas temos o valor Z como um limite superior at o qual se encontram 95% das
observaes inferiores a Z, no como um intervalo. Assim, se quisssemos saber a
probabilidade que um tempo de abertura da pgina(em nosso exemplo) seja menor do que
10,29 segundos (substituindo na frmula de Z, com Z=1,465, M=7 e DP=2), teramos como
resposta 95% de chances (o exemplo 6.5 abaixo similar).
Munidos dessas ferramentas, a ideia que, conhecendo da normalidade dos nossos dados,
possamos fazer extrapolaes para todo o universo e submet-las a testes para verificar, com
qual nvel de confiana poderemos fazer afirmaes sobre a populao inteira (mesmo tendo
apenas poucos dados para analisar)

REFERENCIA

LEVINE, David M. [et al.]. Estatstica: teoria e aplicaes. Rio de Janeiro: LTC, 2008.