Sie sind auf Seite 1von 83

Universidade de Braslia

IE - Departamento de Estatstica

Projeto Reuni

Apostila de Probabilidade Estatstica usando o

software R

Iracema Veiga Madeira Mauriz

Relatorio Final

Orientador: Prof. Eduardo Monteiro de Castro Gomes

Braslia

4 de fevereiro de 2011
Sumario

1 Introducao 4

2 Variavel Aleatoria Discreta 4

2.1 Funcao de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Distribuicao Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Distribuicao Binomial . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 Distribuicao Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Variavel Aleatoria Contnua 11

3.1 Funcao de Densidade de Probabilidade - f(x) ou f.d.p . . . . . . . 11

3.2 Distribuicao Uniforme . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3 Distribuicao Normal . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4 Distribuicao Exponencial . . . . . . . . . . . . . . . . . . . . . . 21

3.5 Esperanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Inserindo dados 26

5 Tabelas 29

6 Medidas Descritivas 30

7 Graficos 35
8 Simulando dados 42

9 Amostragem 46

10 Teste de Hipoteses 47

11 Teste para a Media e Proporcao Populacional 48

11.1 Teste para Media com Variancia Desconhecida . . . . . . . . . . 48

11.2 Teste para Media com Variancia Conhecida . . . . . . . . . . . . 51

11.3 Teste de Proporcao . . . . . . . . . . . . . . . . . . . . . . . . . . 54

12 Comparacao de Medias - Teste t pareado 57

12.1 Teste para Comparacao de Duas Medias de amostras indepen-

dentes com Variancias Desconhecidas . . . . . . . . . . . . . . . . 62

12.1.1 Variancias Desconhecidas e Iguais . . . . . . . . . . . . . 62

12.1.2 Variancias Desconhecidas e Diferentes . . . . . . . . . . . 64

12.2 Teste para Comparacao de Duas Medias de amostras indepen-

dentes com Variancias Conhecidas . . . . . . . . . . . . . . . . . 67

13 Teste para Variancia 71

14 Distribuicao Amostral da Media 73


Variaveis Aleatorias Discretas

1 Introducao

Esse material foi desenvolvido no ambito do programa de Bolsas de Gradua-

cao Reuni de Assistencia ao ensino. Teve como objetivo introduzir os estudantes

das disciplinas basicas de estatstica ao Software gratuito e livre de programacao

estatstica R. Os topicos aqui abordados permitem que os alunos desenvolvam

de forma pratica os aspectos teoricos abordados em sala de aula. O material esta

organizado de forma que os topicos abordados em cada secao sao brevemente

revisados e sua aplicacao e exemplificada com a utilizacao do R.

2 Variavel Aleatoria Discreta

O conceito de Variavel Aleatoria Discreta X (v.a X) esta relacionado ao

conceito de uma funcao definida no espaco amostral e assumindo valores

reais, ou seja, uma v.a X estara bem caracterizada se indicarmos os poss-

veis valores x1 , x2 , ..., xn , ...que ela pode assumir e as respectivas probabilidades

p(x1 ), p(x2 ), ..., p(xn ), ... .Define-se, entao, uma v.a X por ser uma funcao, no

espaco amostral , e com valores no conjunto enumeravel de pontos da reta.

4
2.1 Funcao de Probabilidade

A funcao de probabilidade da v.a. discreta X, que assume valores x1 , x2 , ..., xn , ...

e a funcao (xi , p(xi )), que a cada valor de xi associa a sua probabilidade de ocor-

rencia, isto e,

p(xi ) = P (X = xi ) = pi , i = 1, 2, ...

A funcao de distribuicao acumulada ou f.d.a ou f.d F(x), dada uma v.a. X e

dada por:

F (x) = P (X x)

O programa R possibilita calcular operacoes com distribuicoes de probabi-

lidades. Para cada distribuicao ha quatro operacoes indicadas pelas seguintes

letras(para exemplificar utilizou-se a funcao binomial):

d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e

dbinom(x, size).

p: calcula a funcao de probabilidade acumulada F (x) no ponto. Calcula-se

atraves da expressao:pbinom(q, size, prob).

q: calcula o quantil correspondente a uma dada probabilidade, que e calcu-

lada por: qbinom(p, size, prob).

r: gera uma amostra pseudo-aleatoria da distribuicao por meio de rbinom(n, size, prob).

Para gerar sempre a mesma amostra pseudo-aleatoria e preciso usar o co-


mando set.seed(a). Esse comando permite que se escolha um ponto inicial

qualquer, a, para comecar a amostra. Assim, para o exemplo da binomial, usar

primeiramente set.seed(a) e depois rbinom(n, size, prob) para gerar sempre a

mesma amostra pseudo-aleatoria.

2.2 Distribuicao Bernoulli

A distribuicao de Bernoulli e a distribuicao discreta de espaco amostral 0,1

que pode ter como resultado da realizacao de um determinado experimento:

um sucesso(resultado desejado, igual a 1), ou um fracasso(resultado indesejado,

igual a 0), com probabilidades dadas por:

P (X = 1) = p e P (X = 0) = 1 p = q

Dado X = numero de sucessos em uma unica tentativa do experimento realizado.

A sua funcao de probabilidade e dada por:

P (X = x) = px q 1x

2.3 Distribuicao Binomial

A distribuicao binomial e a distribuicao de probabilidade discreta do numero

de sucessos numa sequencia de n tentativas independentes, de forma que cada

tentativa tem como resultado apenas duas possibilidades: sucesso (p) ou fra-

casso (1 p). Logo, a Binomial e uma repeticao de n Bernoulli independentes

com o mesmo parametro p e onde a probabilidade de sucesso e a mesma, per-


manece constante, a cada tentativa ou repeticao do experimento. A funcao de

probabilidade de uma distribuicao binomial e dada por:

n!
b(k; n, p) = P (X = k|n, p) = pk q nk
k!(n k)!

onde n, p sao seus parametros e k= 0,1,...,n.

Obs.: Os tipos de variaveis que podem ser representados pelos modelos dis-

cretos acima apresentados, Bernoulli e Binomial, sao dicotomicos, sim ou nao,

menina ou menino, a favor ou contra.

Exemplo 6.12(pag. 144). Consideremos uma situacao em que uma moeda

seja honesta,isto e, P(sucesso)=P(cara)=0.5. Seja X uma v.a. com distribuicao

Binomial com n=3 e p = 0.5.

1- Calcule as probabilidades abaixo utilizando o R:

a)P (X = 0)
> dbinom(0, 3, 0.5)

[1] 0.125

b)P (X = 1)
> dbinom(1, 3, 0.5)

[1] 0.375

c)P (X < 3) = P (X 2) = P (X = 0) + P (X = 1) + P (X = 2)
> pbinom(2, 3, 0.5)

[1] 0.875
d) Calcular P (1 < X 2) = P (X = 2)

> dbinom(2, 3, 0.5)

[1] 0.375

e) Calcular o terciro quartil da distribuicao binomial.

Para calcular quantis utiliza-se o chamado p-quantil de X, Q(p). Se P (X

Q(p)) p, caso contrario, P (X Q(p)) 1 p, para 0 < p < 1.

> qbinom(3/4, 3, 0.5)

[1] 2

2- Fazer o grafico da funcao de densidade e de probabilidade.

1;0.375 2;0.375
0.35
0.30
0.25
fx

0.20
0.15

0;0.125 3;0.125

0.0 0.5 1.0 1.5 2.0 2.5 3.0

x
Figura 1: Grfico funo de densidade
1.0


0.8
0.6
Fx


0.4
0.2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

x
Figura 2: Grfico Distribuio Acumulada

2.4 Distribuicao Poisson

A distribuicao de Poisson e uma distribuicao discreta que expressa a probabi-

lidade de um determinado numero de eventos que ocorrem em um dado perodo

de tempo ou espaco, caso cada evento seja independente do tempo decorrido

desde o ultimo evento e, ainda, esses eventos devem ocorrer com uma taxa me-

dia conhecida, ,(ou desconhecida, sendo que nesse caso a taxa e estimada). .

A funcao de probabilidade de Poisson e dada por:

e ()k
P (X = k) = ; k = 0, 1, ..., n; > 0
k!

onde = np. Obs.: Os tipos de variaveis que podem ser representados pelo

modelo discreto Poisson sao: dados que representam a ideia de contagem, como
o numero de clientes que chegam em uma loja, ou o numero de chamadas em

uma central telefonica, bem como o numero de brotos encontrados em uma

planta.

Com o R e possvel calcular a densidade, a funcao de probabilidade, o quartil

e gerar uma amostra com os seguintes comandos, respectivamente:

dpois(x, lambda) ppois(q, lambda) qpois(p, lambda) rpois(n, lambda)

Exemplo 6.17 pag.149 Bussab. Uma situacao pratica de interesse na qual a

distribuicao de Poisson e empregada diz respeito a desintegracao de substancias

radioativas. Considere o uranio 238(U 238 ), por exemplo. Cada nucleo de U 238

tem uma probabilidade muito pequena, 4, 9 1018 de se desintegrar, emitindo

uma partcula , em um segundo. Considere, agora, um numero grande n de

nucleos e a v.a. N=numero de nucleos que se desintegram. Admitindo-se que

a desintegracao de um nucleo nao afeta a probabilidade de desintegracao de

qualquer outro nucleo(independencia), a v.a. N tem uma distribuicao binomial,

com parametros n e p, este dado pelo valor acima. Logo, estamos numa situacao

em que podemos usar a funcao de probabilidade da Poisson acima, ou seja,

aproximar probabilidades binomiais por probabilidades de Poisson. Seja X uma

v.a. com distribuicao Poisson com = np = 3, 7.

a)Calcular P(N=0).
> dpois(0, 3.7)

[1] 0.02472353
b) Calcular P(N=2).
> dpois(2, 3.7)

[1] 0.1692325

c) Calcular P (N 2)= P (N = 0) + P (N = 1) + P (N = 2)
> dpois(0, 3.7) + dpois(1, 3.7) + dpois(2, 3.7)

[1] 0.2854331

ou, simplesmente, usar o ppois(2,3.7)


> ppois(2, 3.7)

[1] 0.2854331

Logo, P (N 2)= 0,2854331

3 Variavel Aleatoria Contnua

O conceito de Variavel Aleatoria Contnua X (v.a X) esta relacionado ao

conceito de uma funcao definida no espaco amostral e assumindo valores num

intervalo de numeros reais. Qualquer funcao f, que seja nao negativa e cuja area

total sobre a curva seja igual a unidade, caracterizara uma v.a. contnua.

3.1 Funcao de Densidade de Probabilidade - f(x) ou f.d.p

A area correpondente ao intervalo [a,b) em um histograma indica a proba-

bilidade de a variavel estar entre a e b, que e calculada por meio de

Z b
P (a X b) = f (x)dx
a
Verifica-se, entao, que a f(x) e um indicador da concentracao de probabili-

dade nos possveis valores de X e que a area sob a curva entre dois pontos fornece

a probabilidade de ocorrencia de algum evento. Se a e b forem dois numeros

quaiquer,

P (a X b) = F (b) F (a)

A funcao de distribuicao acumulada ou f.d.a ou f.d F(x), dada uma v.a.

contnua X e dada por:

Z x
F (x) = P (X x), < x < F (x) = f (t)dt

Observe que e possvel encontrar a f.d.p. por meio da f.d.a

dF (x)
F 0 (x) = = f (x)
d(x)

Obs.: Alguns exemplos de v.a. contnuas sao: peso, altura, tempo de vida da

luz.

Assim como para as v.a.discretas, para as v.a. contnuas e possvel obter

com o R a densidade de probabilidade, a f.d.p., a f.d.a, os quantis de uma pro-

babilidade e uma amostra de uma determinada distribuicao. O programa R

possibilita calcular operacoes com distribuicoes de probabilidades. Para cada

distribuicao ha quatro operacoes indicadas pelas seguintes letras (exemplo dos

comandos com a funcao normal padrao, se nao e necessario especificar os para-

metros):
d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e

dnorm(x, mean = 0, sd = 1).

p: calcula a funcao de probabilidade acumulada F (x) no ponto. Calcula-se

atraves da expressao: pnorm(q, mean = 0, sd = 1).

q: calcula o quantil correspondente a uma dada probabilidade, que e calcu-

lada por: qnorm(p, mean = 0, sd = 1).

r: gera uma amostra de n elementos por meio de rnorm(n, mean = 0, sd =

1).

3.2 Distribuicao Uniforme

A distribuicao uniforme e um dos modelos mais simples das v.a. contnuas.

A v.a. X tem uma distribuicao uniforme no intervalo[, ] se sua f.d.p e dada

por:
 1
, se x
f (x; , ) =
0 , caso contrario

Supondo uma f.d.p, onde X U[ = 0, = 1], entao tem-se o Grafico da

Uniforme no R:
1.4
1.2
1.0
y

0.8
0.6

0.0 0.2 0.4 0.6 0.8 1.0

A funcao de distribuicao acumulada da uniforme e encontrada por:



Z x 0 , se x <
x
F (x) = P (X x) = f (x)dx = , se x <

1 , se x

Para a distribuicao uniforme contnua usa-se as funcoes unif(d), sendo que

as letras: p, q, d ou r devem ser colocadas anteriormente, ou seja:

dunif(x, min=0, max=1) punif(q, min=0, max=1) qunif(p, min=0, max=1)

runif(n, min=0, max=1)

Ex.7.8. pagina 174. Um caso particular bastante interessante e aquele em

que = 1/2 e = 1/2. Indicando essa v.a. por U, teremos


1 , se 1/2 u 1/2
f (u) =
0 , caso contrario
Nessa situacao temos que a f.d.a. e dada por

0 , se u 1/2
F (u) = u + 1/2 , se 1/2 u 1/2
1 , se u > 1/2

No R podemos calcular:

a)A densidade de f(u)


> dunif(0.25, min = -0.5, max = 0.5)

[1] 1

> dunif(0.6, min = -0.5, max = 0.5)

[1] 0

Como 1/2 u 1/2, e u = 0, 6, obtem-se f (0.6) = 0. Ja para u = 0, 5,

f (0.6) = 1.

b)P (U .25)
> punif(0.25, min = -0.5, max = 0.5)

[1] 0.75

c)O quantil
> qunif(1, min = -0.5, max = 0.5)

[1] 0.5

d)Calcular P (1/4 U 1/4) = F (1/4) F (1/4) = 1/2


> punif(0.25, min = -0.5, max = 0.5) - punif(-0.25, min = -0.5,

+ max = 0.5)

[1] 0.5
e)Gerar uma amostra pseudo-aleatoria de 3 elementos da uniforme U

(.5, .5).

> runif(3, min = -0.5, max = 0.5)

[1] 0.32855097 0.02604061 0.38964768

3.3 Distribuicao Normal

A v.a. X tem distribuicao Normal com parametros e 2 , com ( < <

) e (0 < 2 < ), se sua densidade e dada por

(x)2
n
f (x; , 2 ) = 1 e 2 2 , se x
2

A f.d.a F (y) de uma v.a. normal X, com media e variancia 2 e obtida

integrando-se f (x; , 2 ) de ate y, ou seja,

Z y
F (y) = f (x; , 2 )dx , y < (1)

A distribuicao Normal e implementada por argumentos que combinam as

letras acima com o termo norm. Supondo a distribuicao Normal padrao N ( =

0, s2 = 1).

Para a funcao de densidade com parametros ( = 0, s2 = 1) no ponto -1

tem-se

> dnorm(-1)

[1] 0.2419707
Outra forma de calcular esse valor seria substituir x por -1 na expressao da

normal padrao, logo,

> (1/sqrt(2 * pi)) * exp((-1/2) * (-1)^2)

[1] 0.2419707

A funcao pnorm(1) calcula a probabilidade P (X 1)

> pnorm(-1)

[1] 0.1586553

O comando qnorm(0.975) calcula o valor de k tal que P (X k) = 0.975.

> qnorm(0.975)

[1] 1.959964

Por fim, o comando rnorm(n) gera uma amostra de n elementos da normal

padrao. Observe que os valores obtidos por esse comando podem variar a cada

comando executado.

> rnorm(10)

[1] 0.37335590 0.91659139 -0.04028924 -1.12255911 -0.22202701 0.07371280

[7] 0.75732008 -0.25158546 -1.29903820 1.15289952

Para gerar sempre os mesmos n elementos da normal padrao, utiliza-se uma

semente, ou seja, um ponto de incio que pode ser qualquer valor inteiro positivo.
> set.seed(577)

> rnorm(10)

[1] -0.2429937 -1.1683717 0.6501176 -0.6705117 1.7867175 0.2490895

[7] 0.1105752 -2.0950771 0.4970406 -1.8447424

Exemplo 7.9(pag. 179). Os depositos efetuados no Banco da Ribeira du-

rante o mes de janeiro sao distribudos normalmente, com media de 10.000, 00

e desvio padrao de 1.500, 00. Um deposito e selecionado ao acaso dentre todos

os referentes ao mes em questao. Encontrar a probabilidade de que o deposito

seja:

a) P (X 10000)

> pnorm(10000, mean = 10000, sd = 1500)

[1] 0.5

b) P (X 10000)

> 1 - pnorm(10000, m = 10000, s = 1500)

[1] 0.5

ou simplesmente por

> pnorm(10000, m = 10000, s = 1500, lower = F)

[1] 0.5
c) P (12000 X 15000)

> pnorm(15000, 10000, 1500) - pnorm(12000, 10000, 1500)

[1] 0.09078216

d) P (X > 20000)

> 1 - pnorm(20000, m = 10000, s = 1500)

[1] 1.308398e-11

2- Fazer o grafico da funcao de densidade e de probabilidade.

a) Para fazer esses graficos toma-se uma sequencia de valores de X e, para

cada um desses se calcula o valor das funcoes f (x) e F (x). Depois une-se os

pontos (x, f (x)) em um grafico e (x, F (x)) no outro.

> par(mfrow = c(1, 2))

> x <- seq(4000, 16000, len = 10000)

> fx <- dnorm(x, 10000, 1500)

> plot(x, fx, type = "l")

> title(sub = "Figura : Grafico da Densidade")

> Fx <- pnorm(x, 10000, 1500)

> plot(x, Fx, type = "l")

> title(sub = "Figura : Grafico da Func~


ao de Distribuic~
ao Acumulada")
1.0
0.00020

0.8
0.6
Fx
fx

0.00010

0.4
0.2
0.00000

0.0

4000 8000 14000 4000 8000 14000

x x
Figura : Grfico da Densidade
Figura : Grfico da Funo de Distribuio Acumulada

b) Obtendo o grafico de P (12000 X 15000)

Primeiramente, define-se o grafico desta distribuicao, usando-se a funcao

plot. Depois, para marcar o grafico utiliza-se da funcao polygon.

> x <- seq(4000, 16000, len = 10000)

> fx <- dnorm(x, 10000, 1500)

> plot(x, fx, type = "l")

> title(sub = "Figura : Grafico da Densidade")

> ax <- c(12000, 12000, x[x > 12000], 15000, 15000)

> ay <- c(0, dnorm(12000), fx[x > 12000], dnorm(15000), 0)

> polygon(ax, ay, dens = 10)


0.00020
fx

0.00010
0.00000

4000 6000 8000 10000 12000 14000 16000

x
Figura : Grfico da Densidade

3.4 Distribuicao Exponencial

A distribuicao de Exponencial e uma distribuicao contnua, com parametro

> 0 e tem sua f.d.p dada por:

1 t

e
, se t0
f (t; ) =
0 , se t < 0

Ex. 7.10. pag.180. O tempo de vida(em horas) de um transistor pode ser

considerado uma v.a. com distribuicao exponencial com = 500. Segue-se que

a vida media do transistor e E(T)=500 horas e a probabilidade de que ele dure

mais do que a media e P (T > 500)=?. Para ilustrar o uso do R podemos obter

a resposta de P (T > 500) usando integracao numerica ou usando a funcao pexp.


Curiosidade: no R e possvel resolver P (T > 500) calculando a integral,

ou seja, por integracao numerica temos que criar uma funcao com a expressao

da exponencial e depois intgrar no intervalo pedido. Esse resultado deve ser

igual ao encontrado utilizando a funcao exponencial disponvel no R,ou seja,

P (T > 500) = 0, 3678.

> fexp <- function(x, lambda = 500) {

+ fx <- ifelse(x < 0, 0, (1/lambda) * exp(-x/lambda))

+ return(fx)

+ }

> integrate(fexp, 500, Inf)

0.3678794 with absolute error < 4.1e-06

Pela funcao pexp com o comando:

> pexp(500, rate = 1/500, lower = F)

[1] 0.3678794

Obs.: P (T > 500) = pexp(500, rate = 1/500, lower = F ) = 0, 3678 e esse

argumento corresponde a 1/ na equacao exponencial.


Grafico de F(t)

0.0020
0.0015
0.0010
fx

0.0005
0.0000

0 500 1000 1500 2000

x
Figura : Grfico da Funo de Densidade

3.5 Esperanca

O valor medio, tambem chamado de esperanca ou expectancia matematica

de X, de uma v.a. X discreta, assumindo valores x1 , ...xn e dada por:

n
X n
X
E(X) = xi P (X = xi ) = xi pi
i=1 i=1

O smbolo usado para indicar a media e E(X) = (X) ou simplesmente .

Ressalta-se que dada uma v.a. discreta X e a sua funcao de probabilidade

P (x), a esperanca matematica de uma funcao h(X) e dada por:

n
X
E[h(X)] = h(xi )p(xi )
i=1
Ja para uma v.a. contnua e sua funcao de densidade p(x), a esperanca

matematica de uma funcao h(X) e dada por:

Z
E[h(X)] = h(xi )p(xi )

Usando a distribuicao exponencial como exemplo, calcula-se a sua esperanca

e variancia dessa distribuicao a partir de

Z
E[X] = xf (x) =
0

e a variancia e
Z
V ar[X] = (x E[X])2 f (x)dx = 2
0

Pode-se obter esses valores no R fazendo a integracao numerica: Primeira-

mente, define-se as funcoes para a esperanca e a variancia e, por fim, integra-se.

Verificando:

Seja X uma v.a. Exp(500), sua esperanca e calculada por:

> e.exp <- function(x, lambda = 500) {

+ ex <- x * (1/lambda) * exp(-x/lambda)

+ return(ex)

+ }

> integrate(e.exp, 0, Inf)

500 with absolute error < 0.00088


Ou simplesmente usanso o seguinte comando:

> ex <- integrate(e.exp, 0, Inf)$value

> ex

[1] 500

A variancia dessa v.a. X e :

> v.exp <- function(x, lambda = 500, exp.x) {

+ vx <- ((x - exp.x)^2) * (1/lambda) * exp(-x/lambda)

+ return(vx)

+ }

> integrate(v.exp, 0, Inf, exp.x = ex)

250000 with absolute error < 6.9

> vx <- integrate(e.exp, 0, Inf)$value

> vx

[1] 500

Vimos a utilizacao do R para calculos e graficos de probabilidades, a seguir

veremos como analisar ou descrever conjuntos de dados.


4 Inserindo dados

Existem diversas formas de se obter um conjunto de dados para utilizacao

com o R. Existem diversos conjuntos de dados disponveis a partir da instalacao

do R e podem ser acessados pela digitacao do nome do banco de dados. O

comando data() gera uma listagem com os bancos de dados disponveis para os

pacotes carregados.

Os dados podem ser digitados, e para isso deve-se criar um objeto de classe

data.f rame e posteriormente utilizar o comando f ix(objeto) para poder digitar

as observacoes em uma planilha.

Uma outra forma de obter um conjunto de dados e pela importacao do

mesmo. A importacao pode ser feita de um disco local ou de algum endereco

na Internet. O exemplo apresentado nessa secao mostra a importacao de um

banco de dados de um arquivo em uma pasta local no computador. Adapta-

coes a programacao para importacao de dados de outro formato ou local po-

dem ser consultados na documentacao do R utilizando por exemplo o comando:

?read.table

Primeiramente, vamos inserir o conjunto de dados hipoteticos de 36 fun-

cionarios da companhia 0 M ilsa0 do livro Estatstica Basica de W.Bussab e P.

Moretin. Para entrar com esses dados deve-se usar o comando data.f rame, pois

ha diferentes tipos de variaveis: categoricas e numericas(qualitativas e quantita-


tivas). Para entrar com estes dados diretemente no R usou-se o editor que vem

com o programa. Para digitar rapidamente estes dados codificou-se as varia-

veis: estado civil(1-Solteiro;2-Casado); grau de instrucao(1-ensino fundamental;

2-ensino medio); regiao(1-Interior;2-Capitel;3-Outro). Note que nessa forma de

inserir os dados alem de digitar os dados na planilha, tambem deve escolher o

nome de cada variaveis. Para isso, basta clicar no nome da variavel e escolher a

opcao CHANGE NAME e informar o novo nome da variavel, ou simplesmente

clicar duas vezes no nome da variavel e digitar o nome. Precisa-se, ainda, in-

formar para o programa que as variaveis codificadas nao sao numericas e sim

categoricas. No R variaveis categoricas sao definidas usando o comando factor().

Por fim, apos digitar os dados pode-se visualiza-los digitando milsa e conserta-

los, caso necessario, por meio do comando fix(milsa). Apos digitar as variaveis

categorizadas, pode-se defini-las usando o comando as.factor() a seguir:

> milsa <- read.table("milsa.txt", head = T)

> milsa$instrucao <- as.factor(milsa$instrucao)

> levels(milsa$instrucao) <- c("fundamental", "medio", "superior")

> milsa$regiao <- as.factor(milsa$regiao)

> levels(milsa$regiao) <- c("interior", "capital", "outro")

Apos a entrada dos dados precisa-se definir uma variavel unica idade a partir

das variaveis ano e mes que forma digitadas. Nesse banco de dados e conveniente
fazer:

> milsa$idade <- round(milsa$ano + milsa$mes/12, digits = 2)

> head(milsa)

civil instrucao filhos salario ano mes regiao idade

1 solteiro fundamental NA 4.00 26 3 interior 26.25

2 casado fundamental 1 4.56 32 10 capital 32.83

3 casado fundamental 2 5.25 36 5 capital 36.42

4 solteiro medio NA 5.73 20 10 outro 20.83

5 solteiro fundamental NA 6.26 40 7 outro 40.58

6 casado fundamental 0 6.66 28 0 interior 28.00

O comando head permite mostrar apenas as seis primeiras linhas do banco

de dados.

Para ver o nome das variaveis contidas no banco, as dimensoes do data-frame

usa-se, respectivamente:

> names(milsa)

[1] "civil" "instrucao" "filhos" "salario" "ano" "mes"

[7] "regiao" "idade"

> dim(milsa)

[1] 36 8
5 Tabelas

Constuindo uma tabela para as variaveis: Qualitativa (estado civil) vs Qua-

litativa (grau de instrucao); Qualitativa (grau de instrucao) vs Quantitativa

(salario) e Qualitativa (grau de instrucao) vs Qualitativa (regiao).

Nessas tabelas de variaveis qualitativas obteve-se tanto as frequencias abso-

lutas quanto as relativas por linha com duas casas decimais. Para essa aproxi-

macao usou-se o comando round.

> civ.gi.tab <- table(milsa$civil, milsa$instrucao)

> civ.gi.tab

fundamental medio superior

casado 5 12 3

solteiro 7 6 3

> round(civ.gi.tab/as.vector(table(milsa$civil)), digits = 2)

fundamental medio superior

casado 0.25 0.60 0.15

solteiro 0.44 0.38 0.19

Na tabela abaixo usou-se de intervalos para quantificar a variavel quantita-

tiva (salario) vs qualitativa (grau de instrucao).


> table(milsa$instrucao, cut(milsa$salario, quantile(milsa$salario)))

(1,7.43] (7.43,9.79] (9.79,13.7] (13.7,23.3]

fundamental 7 2 2 1

medio 1 7 5 4

superior 0 0 2 4

Por fim, fez-se uma tabela entre as variaveis qualitativa (grau de instrucao)

e qualitativa (regiao).

> table(milsa$instrucao, milsa$regiao)

interior capital outro

fundamental 3 4 5

medio 7 5 6

superior 2 2 2

6 Medidas Descritivas

A analise dos dados pode ser feita por meio de medidas de posicao, medidas

de dispersao, graficos, correlacao, dentre outras.

As medidas de posicao central caracterizam os grupos como um todo, descrevendo-

os de forma mais compacta do que as tabelas e os graficos. A moda, media

aritmetica e mediana sao as mais utilizadas para resumir o conjunto de valores

representativos que se deseja estudar. A moda e a observacao mais frequente


do conjunto de dados. A mediana e a observacao que ocupa a posicao central

da serie de observacoes, quando estao ordenadas em ordem crescente. Por fim,

a media aritmetica e a soma das observacoes dividida pelo numero delas.

No R pode-se obter essas medidas facilmente. No exemplo abaixo, para a

variavel qualitativa ordinal, instrucao, calculou-se as seguintes medidas: moda

e mediana(so e calculada para variaveis numericas ou ordinais).

> instrucao.moda <- names(table(milsa$instrucao))[table(milsa$instrucao) ==

+ max(table(milsa$instrucao))]

> instrucao.moda

[1] "medio"

> levels(milsa$instrucao)[median(as.numeric(milsa$instrucao))]

[1] "medio"

Para a variavel filhos pode-se calcular as medidas: mediana(de posicao) e

media.

> median(milsa$filhos, na.rm = T)

[1] 2

> mean(milsa$filhos, na.rm = T)

[1] 1.65
As medidas de dispersao buscam medir a variabilidade de um conjunto de

dados. Dentre as mais usuais medidas de dispersao, destacam-se: a amplitude-

range, variancia-var, desvio padrao-sd, coeficiente de variacao.

O comando summary e uma funcao generica muito util. Essa e usada para

produzir resultados de resumo de variados modelos de funcoes, os quais envolvem

metodos particulares que dependem da classe do primeiro argumento da funcao.

Esse comando gera, entao, diversas respostas dependendo do tipo de funcao e

da variavel usada. Verifica-se, no exemplo a seguir, o uso dessa funcao para

variavel numerica, obtendo as seguintes medidas: Min. 1st Qu. Median Mean

3rd Qu. Max.

No exemplo abaixo calculou-se essas medidas para a variavel salario: mnimo

e maximo, amplitude total, media, desvio padrao, variancia e, por fim, usa-se o

comando summary.

> range(milsa$salario, na.rm = T)

[1] 1.0 23.3

> diff(range(milsa$salario, na.rm = T))

[1] 22.3

> mean(milsa$salario)

[1] 10.74194
> sd(milsa$salario, na.rm = T)

[1] 4.843526

> var(milsa$salario)

[1] 23.45975

> summary(milsa$salario)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.000 7.428 9.785 10.740 13.660 23.300

A funcao tapply aplica a funcao desejada para cada grupo de valores dados

por uma unica combinacao dos nveis de certos fatores de um banco de dados.

No exemplo abaixo usamos essa funcao para calcular as medias, as variancias,

e quartis para a variavel salario discriminadas pelo grau de instrucao, respecti-

vamente.

> tapply(milsa$salario, milsa$instrucao, mean)

fundamental medio superior

7.836667 10.767778 16.475000

> tapply(milsa$salario, milsa$instrucao, var)

fundamental medio superior

8.740679 19.122159 20.271950


> tapply(milsa$salario, milsa$instrucao, quantile)

$fundamental

0% 25% 50% 75% 100%

4.0000 6.0075 7.1250 9.1625 13.8500

$medio

0% 25% 50% 75% 100%

1.0000 8.2750 10.2650 13.5075 19.4000

$superior

0% 25% 50% 75% 100%

10.5300 13.6475 16.7400 18.3775 23.3000

A funcao cor do R calcula a correlacao entre duas variaveis. No exemplo

abaixo, tem-se que a correlacao entre a variavel quantitativa(salario) vs quanti-

tativa(idade) e de aproximadamente 40 %, indicando uma correlacao positiva,

mas nao muito forte.

> cor(milsa$idade, milsa$salario)

[1] 0.4106862
7 Graficos

O grafico de pizza, tambem conhecido como grafico em setores, representa

a composicao de partes de um todo, consistindo em um crculo arbitrario, re-

presentando o todo, dividido em setores, representando as partes de maneira

proporcional. Esse valor normalmente e apresentado em porcentagem.

Ex.2.4,pag.15: Tomemos como ilustracao a variavel Y: grau de instrucao,

exemplificada nas Tabelas 2.2 e 2.3.

O grafico em barras consiste em construir retangulos ou barras, em que uma

das dimensoes e proporcional a magnitude a ser representada ni ou fi , sendo

a outra arbitraria, porem igual a todas as barras. Essas barras sao dispostas

paralela, horizontal ou verticalmente umas as outras.

> par(mfrow = c(1, 2))

> barplot(table(milsa$instrucao), names.arg = c("Fund", "Medio",

+ "Sup"))

> title(sub = "Figura : Grafico de Barras")

> pie(table(milsa$instrucao), labels = round(table(milsa$instrucao)/26,

+ 2), main = "Grau de Instruc~


ao")

> legend(-1, -1.5, c("Fundamental", "Medio", "Superior"), cex = 1,

+ fill = c("white", "lightblue", "mistyrose"))

> title(sub = "Figura : Grafico de Pizza")


Grau de Instruo

15

0.46
10

0.69 0.23
5

Fundamental
Mdio
Superior
0

Fund Mdio Sup

Figura : Grfico de Barras Figura : Grfico de Pizza

Ex.2.5.pag.16: Considere a distribuicao da variavel Z, numero de filhos dos

empregados casados da secao de orcamentos da Companhia MB(Tabela 2.1).


Grfico de Disperso Grfico de Disperso
0.35

0.30
6

0.25


5
Frequncia Absoluta

Frequencia Relativa

0.20

0.15

0.10
2

0.05

0.00
0

0 1 2 3 5 0 1 2 3 5

Filhos Filhos
Alem do grafico em barras, pode-se fazer um grafico de dispersao, unidimensio-

nal(valores sao representados por pontos ao longo da reta). Os valores repetidos

podem ser representados por numeros, indicando o numero de repeticoes, ou

podem ser empilhados um em cima do outro a cada vez que repete.


Grfico de Frequncia Acumulada
20


Frequncia Acumulada

15
10

1 2 3 4 5

Filhos

O box plot e um dos mais usuais graficos da estatstica. Esse grafico re-

presenta a dispersao dos dados, revelando a mediana e os quartis, medidas de

posicao. Atraves de uma representacao com um retangulo e dois segmentos de

reta e possvel verificar a posicao central do conjunto ordenado dos dados. A

base do retangulo central e representada pelo primeiro quartil, ou seja, abaixo

desse ponto estao situadas 25 % das observacoes. A divisao do retangulo repre-

senta a mediana,separatriz ou medida de ordenamento, isto e, acima e abaixo


desse segmento de reta ha 50 % das observacoes. O topo da caixa corresponde

ao terceiro quartil, indicando que acima desse ponto situam-se 25 % das obser-

vacoes e, abaixo, 75 %.

Pode haver, ainda, alguns dados que se apresentam de forma irregular em

relacao dos demais, que sao os valores muitos altos ou muitos baixos, denomina-

dos outliers. Alem disso, pode-se fazer diversos boxplot em um unico grafico, o

que permite comparar as medidas das variaveis em questao. Um exemplo disso

e dado para a variavel salario e regiao.

Ex.2.7.pag.18: O histograma e um grafico de barras contguas, com as bases

proporcionais aos intervalos das classes e a area de cada retangulo proporcional a

respectiva frequencia. Pode-se usar tanto a frequencia absoluta como a relativa.

Obs.: Tanto o grafico em barras como o histograma fornecem uma ideia de como

e a forma da distribuicao da variavel sob consideracao.

> par(mfrow = c(2, 2))

> hist(milsa$salario, ylab = "Frequ^


encia", xlab = "Salario", main = "Histograma")

> boxplot(milsa$salario, xlab = "Salario", main = "Box plot")

> boxplot(milsa$salario ~ milsa$regiao, main = "Box plot da regi~


ao e salario ")
Histograma Box plot

15

20
Frequncia

15
10

10
5

5
0

0 5 10 15 20 25

Salrio Salrio

Box plot da regio e salrio


20
15
10
5

interior capital outro

O ramo-e-folhas tambem permite verificar a forma da distribuicao da varia-

vel, mas a grande vantagem desse grafico e que nao se perde informacao sobre os

dados em si, ou perde-se pouca informacao. A escolha do numero de linhas do

ramo-e-folhas e equivalente a escolha do numero de classes de um histograma.

Quando se tem muitas folhas em cada ramo, pode-se duplicar os ramos, onde

coloca-se folhas de 0 a 4 em uma linha e de 5 a 9 em outra linha. As informa-

coes obtidas no ramo-e-folhas e como se distribuem os valores, se ha outliers,

um valor menos ou mais tpico para o conjunto de dados, se ha assimetria dos

dados.
> stem(milsa$salario)

The decimal point is at the |

0 | 0

2 |

4 | 0637

6 | 379446

8 | 15791388

10 | 5816

12 | 08268

14 | 7

16 | 0263

18 | 84

20 |

22 | 3

Ex.2.9: Os dados abaixo referem-se a dureza de 30 pecas de alumnio(Hoaglin,

Mosteller e Tukey, 1983, pag.13) Nesse exemplo, calculou-se os quantis dos 30

dados das pecas de alumnio, bem como o ramo-e-folhas. Em seguida, fez-se o

seu histograma.
> dados <- c(53, 70.2, 84.3, 69.5, 77.8, 87.5, 53.4, 82.5, 67.3,

+ 54.1, 70.5, 71.4, 95.4, 51.1, 74.4, 55.7, 63.5, 85.8, 53.5,

+ 64.3, 82.7, 78.5, 55.7, 69.1, 72.3, 59.5, 55.3, 73, 52.4,

+ 50.7)

> quantile(dados)

0% 25% 50% 75% 100%

50.70 55.40 69.30 76.95 95.40

A funcao quantile fornece os quantis dos dados ou banco de dados.


> stem(dados)

The decimal point is 1 digit(s) to the right of the |

5 | 1123344

5 | 566

6 | 044

6 | 79

7 | 0011234

7 | 89

8 | 334

8 | 68

9 |

9 | 5
> hist(dados, freq = TRUE, ylab = "Frequ^
encia", xlab = "Pecas de Alumnios",

+ main = "Histograma")

Histograma
10
8
Frequncia

6
4
2
0

50 60 70 80 90 100

Peas de Alumnios

8 Simulando dados

Ao inves de entrar com os dados e possvel simular e utilizar as medidas

descritivas para avaliar os resultados dessa simulacao.

1- Distribuicao Contnua

Primeiramente, simulou-se para a distribuicao contnua normal 50 dados com

media igual a zero e desvio padrao igual a um e obteve-se as medidas descritivas

dessa simulacao. Verificou-se que como os dados sao simulados, os valores da

media e do desvio padrao nao sao exatos como os escolhidos.


a)Normal
> aaa <- rnorm(50, mean = 0, sd = 1)

> mean(aaa)

[1] -0.02986135

> var(aaa)

[1] 0.7819218

> median(aaa)

[1] -0.1035376

> sd(aaa)

[1] 0.8842634

> range(aaa)

[1] -1.948260 1.943953

> summary(aaa)

Min. 1st Qu. Median Mean 3rd Qu. Max.

-1.94800 -0.57210 -0.10350 -0.02986 0.55580 1.94400

Em seguida, obteve-se o histograma e o ramo e folhas desses dados. Verifica-

se que o ramo e folhas apresenta o mesmo formato da distribuicao apresentada

no histograma.
Histograma

15
10
Frequncia

5
0

2 1 0 1 2

Nmeros aleatrios
Figura : Histograma de Nmeros Aleatrios de uma Distribuio Normal

> stem(aaa)

The decimal point is at the |

-1 | 96

-1 | 43220

-0 | 987766655

-0 | 44432211111100

0 | 112234

0 | 566779

1 | 01233

1 | 789
b) Exponencial

Nesse exemplo, simulou-se 500 numeros aleatorias de uma distribuicao ex-

ponencial e, em seguida, obteve-se as suas medidas descritivas, o histograma e

o diagrama de dispersao.
> aaa <- rexp(500)

> mean(aaa)

[1] 0.9095183

> var(aaa)

[1] 0.8742256

> median(aaa)

[1] 0.596399

> sd(aaa)

[1] 0.9350003

> range(aaa)

[1] 0.001699688 5.792387686

> summary(aaa)

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.0017 0.2435 0.5964 0.9095 1.2330 5.7920


Histograma Grfico de Disperso

200

5



150

Observaes
Frequncia

3


100

2










50










1














































































0

0 1 2 3 4 5 6 0 100 300 500

Observaes nmeros aleatrios


Figura : Histograma Figura : Grfico de Disperso

9 Amostragem

O comando sample e utilizado para obter uma amostra de tamanho espe-

cfico com ou sem reposicao, dado uma entrada de dados. O comando usado e

sample(x, size, replace = F ALSE, prob = N U LL).

Primeiramente inserimos os valores de x.

> x <- 1:20

> x

[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Em seguida geramos uma permutacao aleatoria utilizando o comando sample(x)

ou sample(x, replace = F ALSE), bem como uma amostragem com reposicao.


> sample(x)

[1] 1 18 12 15 4 10 5 17 6 16 8 7 2 9 14 19 13 20 11 3

> sample(x, replace = TRUE)

[1] 13 8 1 17 1 1 6 18 6 11 3 8 6 2 5 9 9 19 3 2

E, por fim, geramos cem amostras Bernoulli, com p = 12 .

> sample(c(0, 1), 100, replace = TRUE)

[1] 1 1 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 1 0 1 0 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 1

[38] 1 1 1 0 0 0 0 1 1 1 0 1 1 0 0 1 1 1 1 0 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 1 1

[75] 0 1 1 1 1 1 0 0 1 0 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0

Com o comando sample(x, n) obtemos uma amostra de tamanho n de x,

como no exemplo abaixo, temos uma amostra de 5 elementos dentre os 20.

> sample(x, 5)

[1] 20 19 8 12 18

10 Teste de Hipoteses

Nessa parte estudaremos um dos principais topicos da inferencia estatstica:

testes de hipoteses. Primeiramente apresentaremos o teste para a media com

variancia desconhecida e, em seguida, o teste para media com variancia conhe-

cida.
11 Teste para a Media e Proporcao Populacio-
nal

11.1 Teste para Media com Variancia Desconhecida

Nesse caso nao se tem informacoes sobre a variancia da variavel aleatoria

que esta sendo estudada. A princpio manteremos a suposicao de que a variavel

aleatoria de interesse tenha distribuicao Normal.

Como o desvio-padrao e desconhecido, esse precisa ser estimado. Apos alguns

calculos e supondo que a nossa amostra aleatoria seja representada pelo vetor de

variaveis aleatorias (X1 , ...Xn ), onde X1 N (, 2 ), obtem-se que o estimador

para 2 e a variancia amostral S 2 , isto e,

Pn 2
2 i=1 Xi2 nX
S =
n1

Define-se, entao, a variavel padronizada, que tambem e uma variavel aleato-

ria como,

X X
T = q = S
S2
n
n

Essa variavel T tem uma distribuicao t de Student com (n 1) graus de

liberdade e converge para a distribuicao Normal padrao com grandes amostras.

Exemplo 8.5 (Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 259).: Deseja-se investigar

se uma certa molestia que ataca o rim altera o consumo de oxigenio desse orgao.

Para indivduos sadios, admite-se que esse consumo tem distribuicao Normal
com media 12 cm3 por min. Os valores medidos em cinco pacientes com a

molestia foram: 14,4; 12,9; 15,0; 13,7 e 13,5. Qual seria a conclusao ao nvel de

1 % de significancia?

As hipoteses a serem testadas sao:

H0 : A molestia nao altera a media de consumo renal de oxigenio; Ha : Indi-

vduos portadores da molestia tem media alterada.

Isso equivale a testar em termos de media populacional se:



H0 : = 12
Hipoteses =
H1 : 6= 12

Insere-se os dados e realiza-se o teste de hipotese pelo comando t.test().


> x = c(14.4, 12.9, 15, 13.7, 13.5)

> t.test(x, alternative = "two.sided", mu = 12, conf.level = 0.01)

One Sample t-test

data: x

t = 5.2099, df = 4, p-value = 0.006472

alternative hypothesis: true mean is not equal to 12

1 percent confidence interval:

13.89514 13.90486

sample estimates:

mean of x

13.9
Nesse caso tem-se uma amostra independente X1 ...Xn e objetiva-se verificar

se a media e igual a um valor especfico, 12.0.

Pelo saida do R, obtem-se que o Xobs = 13, 9, tobs


= 5.20, os graus de

liberdade do teste e igual a 4 e o p-valor do teste, 0.006472 . Pela tabela da

distribuicao t-Student com 4 graus de liberdade obtemos os valores da regiao

crtica. Assim,

RC = {t<|t < 4.604 ou t > 4.604}

Por esse resultado, percebe-se que tobs  RC, logo rejeita-se a hipotese nula,

isto e, a molestia tem influencia no consumo renal medio de oxigenio ao nvel

de significancia de um por cento.

Outro resultado importante que o software fornece e o intervalo de confi-

anca(IC). No caso de IC para com variancia desconhecida e dado por:

 
S S
IC(, ) = X t 2 ; X + t 2
n n

No exemplo acima, o IC(, 0.90) = [13.89514; 13.90486]. Logo, como o IC

encontrado nao inclui o valor 12 para , que foi estabelecido na hipotese nula,

rejeita-se H0 .

Alguns topicos relevantes:

Pelo comando t.test() tambem conseguimos fazer testes unilaterais, tendo

apenas que escolher as opcoes lessou greaterem alternative;


A funcao poder do teste e () = 1 (), e a probabilidade de rejeitar

corretamente a hipotese nula dado que ela e falsa, ou seja, e a probabilidade

e se rejeitar H0 como funcao , isto e, e a probabilidade complementar do

erro tipo II, ;

Para analisar os resultados de um teste de hipoteses podemos fixar o ou

usar o p-valor;

11.2 Teste para Media com Variancia Conhecida

Nesse caso se tem informacoes sobre a variancia da variavel aleatoria que

esta sendo estudada. A princpio manteremos a suposicao de que a variavel

aleatoria de interesse tenha distribuicao Normal.

Exemplo 8.3(Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 252) : Um pesquisador deseja

estudar o efeito de certa substancia no tempo de reacao de seres vivos a um

certo tipo de estmulo. Um experimento e desenvolvido com cobaias que sao

inoculadas com a substancia e submetidas a um estmulo eletrico, com seus

tempos de reacao(em segundos) anotados. Os seguintes valores foram obtidos:

9, 1; 9, 3; 7, 2; 7, 5; 13, 3; 10, 9; 7, 2; 9, 9; 8, 0; 8, 6. Admite-se que o tempo de reacao

segue, em geral, o modelo Normal com media 8 e desvio padrao = 2 segundos.

O pesquisador desconfia, entretanto, que o tempo medio sofre alteracao por


influencia da substancia. Neste caso, as hipoteses de interesse sao:

H0 : As cobaias apresentam tempo de reacao padrao;

Ha : As cobaias tem o tempo de reacao alterado.

Isso equivale a testar em termos estatsticos que essas hipoteses envolvem o

parametro , de media populacional,e podem ser escritas como:


H0 : = 8, 0
Hipoteses =
H1 : 6= 8, 0

Dado que o teste envolve , considera-se a media amostral,X, para construir

4
a estatstica de teste; onde X N (, 10 ) e a regiao crtica, RC e dada por:

RC = {x  < : x < xc1 ou x > xc2 }

Fixando = 0, 06, tem-se que:

0.06 = P (erro tipoI)

= P (rejeitar H0 |H0 verdadeira)

= P (X  RC| = 8.0)

= P (X < xc1 ou X > xc2 | = 8.0)



X 8.0 x c 1
8.0 X 8.0 x c1
8.0
=P q < q ou q > q
4 4 4 4
10 10 10 10

= P (Z < zc1 ou Z > zc2 )


(a 8.0) (b 8.0)
zc1 = q zc2 = q
4 4
onde, 10 10

dado xc1 = a e xc1 = b

onde, j = 1, 2 e Z N (0, 1).

Logo, zc1 = 1.88 e zc2 = 1.88.


Renomeando xc1 = a e xc2 = b calculam-se esses valores no R da seguinte

forma:
> v <- sqrt(0.4)

> v

[1] 0.6324555

> a <- (8 - (1.88 * v))

> a

[1] 6.810984

> b <- (8 + (1.88 * v))

> b

[1] 9.189016

Logo, RC = { x  < : x < 6.8 ou x > 9.2}.

Agora, por meio do comando abaixo, calcula-se a media amostral observada.

> x = c(9.1, 9.3, 7.2, 7.5, 13.3, 10.9, 7.2, 9.9, 8, 8.6)

> mean(x)

[1] 9.1

Calculando a media amostral obtem-se que Xobs = 9.1. Como este valor nao

pertence a regiao crtica, aceita-se H0 ao nvel de significancia de 6%, isto e, o

tempo de reacao das cobais submetidas a substancia nao fica alterado.


11.3 Teste de Proporcao

No teste de proporcao sao utilizados os mesmos conceitos dos testes de hi-

poteses para a media populacionais, mas o interesse, nesse caso, e na proporcao

de alguma caracterstica na populacao.

Exemplo 8.4(Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 255).: Um relatorio de uma

companhia afirma que 40% de toda a agua obtida, atraves de pocos artesianos

no nordeste, e salobra. Ha muitas controversias sobre essa informacao, alguns

dizem que a proporcao e maior, outros que e menor. Para dirimir as duvidas,

400 pocos foram sorteados e observou-se, em 120 deles, agua salobra. Qual seria

a conclusao, ao nvel de 3% ?

O primeiro passo e estabelecer as hipoteses nula e alternativa. O parametro

de interesse e a proporcao de pocos com agua salobra dentre todos os pocos no

nordeste. Essa proporcao sera representada por p. Entao, o teste bilateral sera:


H0 : p = 0.4
Hipoteses =
Ha : p 6= 0.4

Sabe-se que o melhor estimador para p e a proporcao amostral p cuja distri-

buicao pode ser aproximada pela distribuicao Normal, ou seja, p N (p, p(1p)
n )

e a regiao crtica desse teste e RC = {x<|x < pc1 ou x > pc2 } Logo, para

= 0.03,e tendo pc1 = a e pc2 = b, os seus valores sao calculados por:


0.03 0.03
P (p < a|H0 ) = e P (p < b|H0 ) =
2 2
Portanto, p N (0.4, 0.40.6 0.24
400 )= p N (0.4, 400 ). Assim,

0.03
= 0.015 = P (p < a|H0 )
2

p 0.4 a 0.4
=Pq < q
0.24 0.24
400 400

Da tabela da N ormal(0, 1) obtem-se que:



a 0.4 b 0.4
2.17 = q e 2.17 = q
0.24 0.24
400 400

Logo, a = 0.347 e b = 0.453. Com isso, RC = {x<|x < 0.347 ou x >

0.453}.
> v <- sqrt(0.24/400)

> v

[1] 0.02449490

> a <- (0.4 - (2.17 * v))

> a

[1] 0.3468461

> b <- (0.4 + (2.17 * v))

> b

[1] 0.4531539

Calculando o pd
obs :

> p <- 120/400

> p

[1] 0.3
Como pd
obs = 0.3 pertence a RC, ha evidencias estatsticas suficientes de que

a hipotese nula deve ser rejeitada ao nvel de significancia de 3%; ou seja, o

relatorio da companhia nao esta correto, a quantidade de toda agua salobra

obtida, atraves de pocos artesianos no nordeste, e diferente de 40%.

Pode-se, ainda, usar o comando prop.test para fazer o teste de proporcao

no R. Nesse exemplo, tem-se os seguintes comandos (onde 120 pocos a agua e

salobra, 400 e o total de pocos, p = 40%):

> prop.test(120, 400, p = 0.4, alternative = "two.sided", conf.level = 0.97)

1-sample proportions test with continuity correction

data: 120 out of 400, null probability 0.4

X-squared = 16.2526, df = 1, p-value = 5.543e-05

alternative hypothesis: true p is not equal to 0.4

97 percent confidence interval:

0.2516625 0.3531082

sample estimates:

0.3
12 Comparacao de Medias - Teste t pareado

No teste de hipotese para comparacao de duas medias ha uma necessidade de

saber como os dados estao dispostos, pois conforme a forma dos dados toma-se

um procedimento diferente. Esse fato ficara mais claro conforme for avancando

na leitura dos topicos abaixo. Por exemplo: se os dados forem pareados, usa-se

um teste t pareado; mas quando os dados sao independentes, usa-se o teste t

condicionado ao conhecimento do valor e igualdade das variancias.

Para amostras dependentes, tem-se duas amostras X1 ,...,Xn e Y1 ,...,Yn , onde

essas observacoes sao pareadas, ou seja, ha uma amostra aos pares (X1 , Y1 ), ...,

(Xn , YN ). Quando as amostras sao pareadas ha a possibilidade de medicao em

unidades amostrais diferentes, mas homogeneas. Nesse caso, representa-se as

medidas tomadas antes e apos a intervencao realizada pelas variaveis aleatorias

Xi e Yi , respectivamente. Assim, chamamos de Di = Yi Xi o efeito produzido

2
para o i-esimo indivduo. Se para i = 1, ..., n, tem-se Di N (D , D ). Logo,

testa-se as seguintes hipoteses:


H0 : D = 0
Hipoteses =
H1 : D 6= 0

O parametro D e estimado pela media amostral D e, nao sabendo o valor

2 2
de D , estima-se esse por SD e obtem-se:

Pn
2 D)2
i=1 (Di
S =
n1
A estatstica do teste e dada por:

D D
T = SD

n

Exemplo 9.1(Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 294).: Uma distribuidora de

combustveis deseja verificar se um novo tipo de gasolina e eficaz na revitalizacao

de motores velhos. Com esse objetivo, seleciona 12 automoveis de um mesmo

modelo com mais de 8 anos de uso e, apos regulagem de seus motores, verifica

o consumo de combustvel. Em seguida, o carro e abastecido com o novo tipo

de combustvel durante 15 semanas, e uma nova afericao do consumo e feita.

Defina as variaveis aleatorias Xi e Yi como o rendimento do automovel i respec-

tivamente antes e apos as 15 semanas. Vemos que Xi e Yi foram medidas em

uma mesma unidade amostral e,a assim, e razoavel assumir que exista alguma

dependencia entre elas. Ressaltamos que, para i 6= j, devemos ter Xi 6= Xj in-

dependentes. O mesmo deve ocorrer para Yi e Yj . Ao medir a caracterstica de

interesse em duas ocasioes, para cada uma das unidades amostrais, pretende-se

diminuir a influencia de outros fatores(muitas vezes impossveis de serem con-

trolados) e ressaltar um possvel efeito do tipo de gasolina no desempenho do

veculo(pag.296).
Os valores observados,em km/l, junto com as diferencas Di , para os 12

automoveis sao

> y = c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6,

+ 10.5, 11.4)

> x = c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8, 9.5, 8, 6.8)

> d = y - x

> d

[1] 3.5 0.9 3.1 1.7 4.0 1.2 4.9 2.4 5.4 1.1 2.5 4.6

Para verificar se o rendimento aumenta ou nao, faz-se um box-plot para as

variaveis x e y e testa se


H0 : D = 0
Hipoteses =
H1 : D > 0

onde, D = E(Y X).

2
Com os dados obtem-se o Dobs = 2, 9 e estima-se D por s2Dobs = 2, 4.

> mean(d)

[1] 2.941667

> var(d)

[1] 2.428106
Box plot

12
10


8
6

Antes Depois

Agora calcula-se a estatstica tobs sob h0 .

Paired t-test

data: y and x

t = 6.5396, df = 11, p-value = 2.097e-05

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

2.133833 Inf

sample estimates:

mean of the differences

2.941667
O comando usado para obter o resultado acima foi t.test(y, x, alternative =

greater, paired = T RU E, mu = 0, conf.level = 0.95). Verifica-se que o inter-

valo de confianca vai de [2.133833 Inf); mas, na verdade, essa informacao serve

apenas para o teste, ou seja, para ver que o valor zero nao esta no intervalo, nao

servindo para a estimativa. Caso queira saber que o verdadeiro valor desse e de

[1.95 3,93], deve calcular manualmente, como abaixo.


> qt(0.975, length(d) - 1)

[1] 2.200985
> mean(d) + 2 * sqrt(var(d)/12)

[1] 3.841316
> mean(d) - 2 * sqrt(var(d)/12)

[1] 2.042017
Usando o comando t.test(d, alternative = greater, mu = 0, conf.level =

0.95), obtem-se resultados iguais ao comando t.test(y, x, alternative = greater,

paired = T RU E, mu = 0, conf.level = 0.95). A diferenca entre esses dois co-

mandos e o uso de d como a diferenca entre y e x, pois os dados sao pareados,

nao precisando usar paired = T RU E.

Com = 0, 05 e da tabela t-Student, obtem-se tc =1,796 e do resultado do R,

tobs =6,5 e, em seguida, o intervalo de confianca [2.133833, [. Logo, rejeita-se a

hipotese nula, verificando que o novo combustvel e eficaz na melhora do rendi-

mento, acarretando diminuicao do consumo para o tipo de veculo considerado

no experimento.
12.1 Teste para Comparacao de Duas Medias de amostras
independentes com Variancias Desconhecidas

Supondo que se tem amostras independentes X1 ...Xn e Y1 ...Yn de duas po-

pulacoes P1 e P2 , testaremos se as medias dessas populacoes podem ser consi-

deradas iguais ou nao.

Observa-se que informacoes adicionais podem fornecer subsdios para o co-

nhecimento dos valores das variancias populacionais, no entanto, e muito difcil

conhecer o valor da variancia em questao. Logo, verifica-se que os processos

geradores dos dados podem auxiliar na obtencao dessa informacao.

12.1.1 Variancias Desconhecidas e Iguais

Exemplo 9.7(Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 305): Digitadores sao trei-

nados em uma empresa em duas turmas distintas. Na primeira, denominada

Turma J, utiliza-se o metodo japones de ensino, ao passo que na segunda turma,

denominada Turma A, utiliza-se um metodo alemao. Deseja-se comparar os dois

metodos e para tanto, 16 alunos de cada turma foram escolhidos aleatoriamente

e uma mesma tarefa foi atribuda a cada um. Ao final do experimento, o tempo

gasto na realizacao da tarefa, para cada aluno, foi anotado. No processo, dois

computadores utilizados pelos alunos selecionados da turma J e tres da turma

A apresentaram problemas que impediram a realizacao da tarefa; o tamanho da


amostra foi assim reduzido para 14 e 13, respectivamente, para as turmas J e A.

Apesar de nao conhecidas, as variancias populacionais para as duas turmas sao

consideradas iguais com base em estudos anteriores. Os dados obtidos foram:

> j = c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14)

> a = c(15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14)

Supoe-se que os dados para a turma J sao representados por variaveis alea-

torias independentes X1 , ..., Xn1 , e Y1 , ..., Yn2 para a turma A. Alem disso, Xi

N (X , 2 ), i = 1, ..., n1 e Yi N (Y , 2 ), j = 1, ..., n2 . Alem disso as hipoteses

a serem testadas sao:


H0 : X = Y
Hipoteses =
H1 : X 6= Y

sendo, D = E(Y X), ou seja, e a diferenca do tempo medio populacional

para os alunos da turma J e da turma A. As amostras dessas turmas fornecem

os seguintes valores:

> mean(j)

[1] 11.57143

> mean(a)

[1] 15.38462

> d = c(mean(j) - mean(a))

> d
[1] -3.813187

Fazendo o teste de hipotese t.

> t.test(j, a, alternative = "two.sided", var.equal = TRUE, mu = 0,

+ conf.level = 0.99)

Two Sample t-test

data: j and a

t = -4.7965, df = 25, p-value = 6.313e-05

alternative hypothesis: true difference in means is not equal to 0

99 percent confidence interval:

-6.029173 -1.597201

sample estimates:

mean of x mean of y

11.57143 15.38462

Logo, os metodos de ensino diferem a um nvel de significancia de 0,01.

12.1.2 Variancias Desconhecidas e Diferentes

Exemplo(Montgomery): A concentracao de Arsenico na agua potavel publica

e um potencial risco a saude. Um artigo de ArizonaRepublic(Sunday, M ay, 27, 2001)

mencionou a existencia de concentracao de Arsenico na agua em partes por bi-


lhao(ppb) em 10 comunidades da regiao metropolitana de Phoenix e 10 comu-

nidades no Arizona rural.

Os dados foram X, Metro Phoenix e Y, Rural Arizona:

> x <- c(3, 7, 25, 10, 15, 6, 12, 25, 15, 7)

> y <- c(48, 44, 40, 38, 33, 21, 20, 12, 1, 18)

A hipotese a ser testada e:


H0 : x = y
Hipoteses =
H1 : x 6= y

Calculando a media, variancia e desvio padrao.


> mean(x)

[1] 12.5

> var(x)

[1] 58.27778

> sd(x)

[1] 7.633988

> mean(y)

[1] 27.5

> var(y)

[1] 235.6111

> sd(y)

[1] 15.34963
Fazendo um grafico para os dados. Box plot

40
30
20
10
0

Metro Phoenix Rural Arizona

Fazendo o teste t.
> t.test(x, y, alternative = "two.sided", var.equal = FALSE, paired = FALSE,

+ mu = 0, conf.level = 0.95)

Welch Two Sample t-test

data: x and y

t = -2.7669, df = 13.196, p-value = 0.01583

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-26.694067 -3.305933

sample estimates:

mean of x mean of y

12.5 27.5
Conclui-se que a hipotese nula e rejeitada, ou seja, ha diferenca estatstica

nas medias de concentracao de Arsenico entre as comunidades.

12.2 Teste para Comparacao de Duas Medias de amostras


independentes com Variancias Conhecidas

Exemplo 9.6(Marcos Nascimento Magalhaes e Antonio Carlos Pedroso de

Lima,Nocoes de Probabilidade e Estatstica da pag 294).: Uma empresa avalia-

dora de imoveis esta estudando as regioes central(E) e oeste(O) da cidade de Sao

Paulo. O objetivo principal e verificar se o preco medio, praticado para imoveis

comerciais de um dado tamanho, e o mesmo nas duas areas. De levantamentos

anteriores, a empresa sabe que a area oeste apresenta uma heterogeneidade de

precos imobiliarios(em UPC-unidade padrao de construcao) maior do que a re-

giao central, sendo os desvios padroes iguais a 0,82 UPC para a regiao oeste e

0,71 UPC para a regiao central. Para verificar se os precos medios sao iguais ou

nao, duas amostras, uma de tamanho 20 e outra de tamanho 18 foram retiradas

aleatoriamente de cada regiao. Os dados sao os seguintes:

> E <- c(41.2, 40.5, 39.6, 39.4, 38.9, 39.1, 40.9, 41.2, 40.4,

+ 40, 40.6, 40.3, 39.2, 40.6, 39.7, 40.3, 40.9, 39.6, 39.7,

+ 41.2)

> O <- c(37.2, 34.9, 38.1, 35.4, 35.7, 37.7, 36.4, 36.6, 36.1,

+ 37.4, 36.1, 35.9, 36.9, 37.4, 37.5, 38, 36.8, 36.4)


Testa-se as hipoteses:


H0 : X = Y
Hipoteses =
H1 : X 6= Y

Primeiramente, calcula-se algumas medidas descritivas e faz-se um boxplot.

> mean(E)

[1] 40.165

> var(E)

[1] 0.5381842

> sd(E)

[1] 0.7336104

> mean(O)

[1] 36.69444

> var(O)

[1] 0.8264379

> sd(O)

[1] 0.9090863
Box plot

41
40
39
38
37
36
35

CentralE OesteO

Percebe-se que os dados sao obtidos de duas populacoes Normais tal que:

2 2
E O
E N (E , 20 ) e O N (O , 18 )

Calculando o valor da variancia de D, onde D=E O:

V arDbarra = V arD = V arE + V arO


Para = 0.05, obtem-se os valores crticos na tabela da Normal padrao.

> LI <- qnorm(0.025) * sqrt(VarDbarra) + 0

> LI

[1] -0.4902283

> LS <- qnorm(0.975) * sqrt(VarDbarra) + 0

> LS

[1] 0.4902283
ou entao calcula-se:

LI LS
P (rejeitarH0 |H0 verdadeira) = P (DRC|E O = 0) = P (Z < ou Z > )
0.06 0.06

onde LI=Limite Inferior e LS= Limite Superior.

Logo, RC = {d  < : d < 0.49 ou d > 0.49}.

Como Dobs = 40.2 36.7 = 3.50 pertence a regiao crtica, rejeita-se H0 , ou

seja, os imoveis situados nas regioes central e oeste tem precos medios diferentes

ao nvel de significancia de 0.05.

Exemplo(wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html): Su-

ponha que uma fabrica de carros diga que um modelo faca 25 km por litro. Um

consumidor pede para que 10 donos desse modelo calcule quantos km por litro

e o valor medio foi de 22 com desvio padrao de 1.5. Essa afirmacao da fabrica

de carros e verdadeira?

Nesse caso temos o seguinte teste de hipotese:


H0 : = 25
Hipoteses =
H1 : 6= 25

Para testa-la, usando o R, simplesmente informa-se ao R o tipo de teste

conveniente. Para esse exemplo, a funcao t.test nao ira funcionar ( o conjunto

de dados ja esta resumido), entao nos estamos por nossa conta.


Calcula-se o teste estatstico e depois o p-valor.

> xbar = 22

> s = 1.5

> n = 10

> t = (xbar - 25)/(s/sqrt(n))

> t

[1] -6.324555

> pt(t, df = n - 1)

[1] 6.846828e-05

Logo, rejeita-se H0 , ou seja, a afirmacao da fabrica de carros nao e confiavel.

13 Teste para Variancia

Conforme vimos acima, se as variancias sao iguais ou diferentes, conhecidas

ou nao, tem-se que realizar procedimentos diferentes em cada caso. Assim, e

preciso verificar a igualdade de variancias, o que sera exposto nesse topico. O

teste para variancia tem como objetivo estudar a dispersao dos valores em uma

ou mais populacoes, atraves de suas variancias.


Exemplo do R help.: Verifique se X e Y tem as mesmas variancias.

Primeiramente faz um teste F para comparar as duas variancias. Em seguida

analisa os resultados e faremos o box-plot dos dados.

H0 : x2 = y2

Hipoteses =
H1 : x2 6= y2

Dado que X N (0, 4) e Y N (1, 1), faremos:

Entrada de dados.

> x <- rnorm(50, mean = 0, sd = 2)

> y <- rnorm(30, mean = 1, sd = 1)

Grafico box plot para as variaveis.

> boxplot(x, y, main = "Box plot", names = c("X", "Y"))

Box plot
4
2
0
2
4

X Y
Teste de igualdade de variancia pelo comando var.test:
> var.test(x, y)

F test to compare two variances

data: x and y

F = 4.5284, num df = 49, denom df = 29, p-value = 4.43e-05

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

2.275171 8.519799

sample estimates:

ratio of variances

4.528396

Portanto, ao nvel de significancia de 0,05 , ha evidencias de que as variancias

sao diferentes, dado que o valor testado, 1, nao se encontra no intervalo de

confianca do teste. Logo, rejeita-se H0 .

14 Distribuicao Amostral da Media

A distribuicao amostral da estatstica X, a media amostral, e o estudo das

medias de todas as possveis AAS de tamanho n de uma populacao, ou seja,

dada uma populacao identificada pela variavel aleatoria X, cujos parametros

sao a media populacional = E(X) e a variancia populacional 2 = V ar(X),


retira-se todas as AAS, calcula a media de cada uma delas e, em seguida, estuda-

se as propriedades da distribuicao amostral obtida.

Como exemplo gera-se uma AAS de 50 unidades de uma Uniforme(runif (50)),

dessa populacao tira-se as AAS(combn),calcula-se suas medias(mean) e varian-

cias(var) e, no final, faz o histograma com as medias de cada uma das as amos-

tras(hist)e verifica-se que quanto maior o tamanho da amostra mais ela tende

para uma distribuicao Normal.


> require(caTools)

> aaa <- combn(1:50, 5)

> vet <- runif(50)

> amostra <- function(indice) {

+ vet[indice]

+ }

> amostra(c(1, 3, 5))

> amostra <- apply(aaa, 1, amostra)

> todas <- apply(aaa, 1, amostra)

> medidas <- apply(todas, 2, mean)

> mean(vet)

> var(vet)

> mean(medidas)

> var(medidas)
> hist(medidas)

Os dados abaixo mostram a media(0,4970966) e a variancia(0,06781833) da

populacao e a media(0,4970966) e a variancia(0,01220731) da distribuicao amos-

tral da media com n=5, bem como o histograma dessa distribuicao. Podemos

verificar, facilmente, que as medias da populacao e a media final das amostras

de tamanho 5 sao iguais, mas as variancias nao. Isso se da porque a distribuicao

2
amostral da media tem media e variancia n , onde e 2 sao, respectivamente

a media e a variancia da populacao. Verifica-se,entao, essa diferenca, calculando

a relacao entre essas duas variancias.


[1] 0.4970966

[1] 0.06781833

[1] 0.4970966

[1] 0.01220731

> varpop <- var(vet)

> varamos <- var(apply(todas, 2, mean))

> varcalc <- varpop/5

Percebe-se, entao, que o valor da variancia calculada(varcalc) e igual ao valor

da variancia da distribuicao amostral da media. Logo, tem-se que a variancia da

distribuicao amostral e igual a razao entre a variancia populacional e o tamanho

da amostra, no caso, n=5.


Histograma

3e+05
2e+05
Frequncia

1e+05
0e+00

0.2 0.4 0.6 0.8

n=5

Quando o tamanho da amostra aumenta, independentemente da forma da

distribuicao da populacao, a distribuicao amostral de X aproxima-se cada vez

mais de uma distribuicao Normal, resultado esse conhecido como TLC, Teorema

Limite Central. Observe que:

2
E(X) = e V ar(X) =
n

Agora iremos gerar 100 amostras de tamanho 5 da distribuicao de Poisson(1)

usando o comando set.sedd e rpois.

> set.seed(123)

> aaa <- rpois(500, 1)

> aaa <- matrix(aaa, ncol = 5)


> dim(aaa)

[1] 100 5

O proximo passo e calcular a media de cada uma dessas 100 amostras.

> ybarras <- apply(aaa, 1, mean)

Dando continuidade, aumenta-se o tamanho de amostra para n = 200 e

repete-se o procedimento.

> bbb <- rpois(20000, 1)

> bbb <- matrix(bbb, ncol = 200)

> dim(bbb)

[1] 100 200

Calcula-se a media de cada uma dessas 100 amostras.

> xbarras <- apply(bbb, 1, mean)

A seguir verifica-se a distribuicao de Y e de X para n = 5 e n = 200,

respectivamente, fazendo os seus histogramas.


Histograma Curva Normal

6
25

5
Frequncia

Frequncia

4
15

3
2
5

1
0

0
0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0

n=5 y

Histograma Curva Normal

6
25

5
Frequncia

Frequncia

4
15

3
2
5

1
0

0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0

n=200 x

No exemplo seguinte mostra-se como a distribuicao amostral do estimador para

a media populacional, X, se modifica de acordo com o aumento no tamanho de

amostra. No primeiro comando plotamos dois graficos em um unico eixo. O

primeiro exemplo e para n=10, n=50 e o terceiro para a populacao.

> curve(dnorm(x, 5, 5/sqrt(10)), -20, 20, ylim = c(0, 0.6), col = "violet",

+ ylab = "Frequ^
encia", main = "Distribuc~
ao Amostral da Media")

> curve(dnorm(x, 5, 5/sqrt(50)), -20, 20, ylim = c(0, 0.6), add = T,

+ col = "orange", ylab = "Frequ^


encia", main = "Distribuc~
ao Amostral da Media")

> curve(dnorm(x, 5, 5), -20, 20, ylim = c(0, 0.6), add = T, col = "red",

+ ylab = "Frequ^
encia", main = "Distribuc~
ao Amostral da Media")

> legend(-21, 0.6, c("Populac~


ao", "n=50", "n=10"), cex = 1, fill = c("red",
+ "orange", "violet"))

> title(sub = "Figura : Grafico da Normal")

Distribuo Amostral da Mdia


0.6

Populao
n=50
0.5

n=10
0.4
Frequncia

0.3
0.2
0.1
0.0

20 10 0 10 20

x
Figura : Grfico da Normal

Note como a variancia da media amostral depende do tamanho da amostra.

O grafico vermelho, da populacao, a distribuicao e semelhante a distribuicao

Normal. Ja o grafico violeta e laranja, com uma amostra de tamanho 10 e 50,

respectivamente, tambem apresenta distribuicao Normal, porem com variancia

menor. Como as distribuicoes sao normais, o grafico esta centrado em torno da

media. O que influencia mais e a alteracao da variancia, ou seja, quanto menor

a variancia, a estimativa fica cada vez melhor.


Referencias

Bussab, Wilton de O. and Morettin, Pedro A. (2008). Estatstica Basica,5 ed.

Editora Saraiva.

Magalhaes, Marcos Nascimento and Lima, Antonio Carlos Pedroso de (2004).

Nocoes de Probabilidade e Estatstica, 6 ed. EdUsp.

Douglas C. Montgomery, George C. Runger (2007). Applied statistics and

probability for engineers,4 ed. Editora John Wiley & Sons, Ltd.

Murrell, Paul (2006). R Graphics. Editora Chapman & Hall/CRC.

Kuhnert, P.; Venables, B.(2005). An Introduction to R: Software for Sta-

tistical Modelling & Computing. CSIRO Mathematical and Information

Sciences:Cleveland, Australia

Peternelli, L.A.; Mello, M.P. de.(2007). Conhecendo o R: Uma visao Estats-

tica. Editora UFV: Universidade Federal de Vicosa .

Beasley, Colin Robert (2004). Bioestatstica Usando R. Apostila de exemplos

para o Biologo.Universidade Federal do Para Campus de Braganca.

Crawley, Michael J.(2007)The R Book. Editora Wiley & Sons, Ltd

Torgo, Lus(2006). Introducao a Programacao em R. Editora Grupo de Mate-

metica e Informatica, Faculdade de Economia, Universidade do Porto


CSI Math Department,Hypothesis Testing Technical report

URL http://wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html

. Acesso em 18 de novembro 2010.

R Development Core Team (2001-2010). R Installation and Administration.

Technical report URL http://www.r-project.org/. Acesso em 10 de abril

2010.

R Development Core Team (2001-2010). R Data Import/Export. Technical

report

URL http://www.r-project.org/. Acesso em 23 de setembro 2010.

Lumley,Thomas. (2006). R Fundamentals and Programming Techniques. Te-

chnical report URL http://www.google.com.br/. Acesso em 18 de outubro

2010. R Development Core Team and UW Dept of Biostatistics

Borries, George Freitas von (2007). Introducao a Linguagem de Programacao

R. Technical report URL http://aprender.unb.br/course/view.php?id=1725

. Acesso em 15 maio 2010.

Monteiro, Leadro R. e Gomes-Jr, Jose Louvise (2006). Introducao a Biometria

utilizando R. Technical report.

URL cran.r-project.org/doc/contrib/biometria.pdf . Acesso em 15 abril

2010.
Junior, Paulo Justiniano Ribeiro (2005). Curso sobre o programa computaci-

onal R. Technical report.

URL http://www.leg.ufpr.br/Rpira/Rpira.pdf. Acesso em 9 abril 2010.

Baron, Jonathan .R reference card. Technical report.

URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 20 de

setembro 2010.

Short, Tom.R Reference Card.(2004) Technical report.

URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 2 de

dezembro 2010.

Downloads and Links. Technical report.

URL http://www.winedt.com/download.html. Acesso em 13 de abril de

2010.

The R Project for Statistical Computing. Technical report.

URL http://www.r-project.org/. Acesso em 9 de abril 2010.

Download and install Tinn-R for Windows. Technical report.

URL http://www.sciviews.org/Tinn-R/index.html. Acesso em 11 abril 2010.

Download Now! Technical report.

URL http://sourceforge.net/projects/tinn-r/. Acesso em 12 abril 2010.


R Development Core Team e R Foundation for Statistical Computing (2008)R:

A Language and Environment for Statistical Computing Technical report.

URL http://www.R-project.org. Acesso em 13 de janeiro 2011.

Das könnte Ihnen auch gefallen