Beruflich Dokumente
Kultur Dokumente
CONTÁBEIS E ATUARIAIS
autor
DIEGO BEVILACQUA MELI
1ª edição
SESES
rio de janeiro 2018
Conselho editorial roberto paes e gisele lima
Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrônico ou mecânico, incluindo fotocópia e gravação) ou arquivada em
qualquer sistema ou banco de dados sem permissão escrita da Editora. Copyright seses, 2018.
isbn: 978-85-5548-545-9.
1. Covariância e correlação 7
Covariância 9
Correlação 16
Correlação e causalidade 21
Distribuição normal 69
Distribuição normal padronizada 71
Tabela padronizada 72
Estimativa da média de uma população 79
Tipos de erros 90
Prezados(as) alunos(as),
Bons estudos!
5
1
Covariância e
correlação
Covariância e correlação
Muitas vezes um usuário procura mensurar se duas variáveis têm relação entre
si para tomar determinada decisão. O gerente de marketing pode querer saber,
por exemplo, se propaganda veiculada na televisão no último final de semana teve
reflexo no consumo dos clientes da loja.
Neste capítulo aprenderemos como calcular a relação entre duas variáveis por
meio de dois importantes conceitos, a saber, covariância e correlação. Essas medi-
das fornecem um valor para que possa se determinar se há relacionamento entre
duas variáveis. Por exemplo, a número de horas que a propaganda foi ao ar e o
número de vendas da loja.
OBJETIVOS
• Definir covariância e correlação;
• Conhecer a aplicabilidade da covariância e correlação;
• Calcular covariância e correlação;
• Entender sobre correlação e causalidade.
capítulo 1 •8
Covariância
COMPANHIA A COMPANHIA B
Depressão –20 0,05
Recessão 0,10 0,20
Normal 0,30 –0,12
Expansão 0,50 0,09
capítulo 1 •9
De acordo com a tabela 1.1, você pode notar que em um cenário de depressão,
o retorno esperado da Companhia A é de –20,00%, enquanto que a da Companhia
B é de 5,00%. Já em um período econômico tido como normal, os retornos pas-
sam a ser 30,00% para a Companhia A e –12,00% para a Companhia B.
Além disso, também foi calculada a média, que, em termos de finanças,
significa o retorno esperado da ação. Observe que a média (retorno esperado) da
Companhia A é de 17,50% e da Companhia B, por sua vez, é de 5,50%. Antes de
avançarmos, que tal relembrar calcular a média? Para tanto, basta somar os valores
e dividir pela sua quantidade, ou seja:
−0, 20 + 0,10 − 0, 30 − 0, 50
Companhia A = = 0,175 = 17, 50%
4
−0, 50 + 0, 20 − 0,12 − 0, 09
Companhia B = = 0, 055 = 5, 50%
4
capítulo 1 • 10
Perceba, no entanto, que o valor fornecido pela HP 12-C é o desvio padrão
amostral. Para encontramos o desvio padrão populacional, basta fazer a seguinte
sequência, após digitar todos os dados:
EXEMPLO
capítulo 1 • 11
No Microsoft Excel®, a média pode ser encontrada utilizando a função média, enquanto
que o desvio padrão amostral pela função desvpad.a e o desvio padrão populacional pela
função desvpad.p. um exemplo pode ser verificado na tabela 1.2.
(R At − R A ) X (R Bt − R B )
Em que RAt e RBt são os retornos de Companhia A e Companhia B, res-
pectivamente, no cenário t, e R A e R B são os retornos esperados (médias) das
duas empresas.
capítulo 1 • 12
A tabela 1.3 demonstra as etapas de 1 a 3 até encontrar a covariância.
DIFERENÇA DIFERENÇA
TAXA DE TAXA DE
EM RELAÇÃO EM RELAÇÃO PRODUTO DAS
RETORNO RETORNO
CENÁRIOS AO RETORNO AO RETORNO DIFERENÇAS
DA CIA A DA CIA B
ESPERADO ESPERADO (RAt– RA)X(RBt– RB)
RAt RBt
(RAt– RA) (RBt– RB)
–0,375 –0,005 (0,05 0,001875
Depressão –0,20 0,05
(–0,20 – 0,175) – 0,0655) (–0,375 x –0,005)
–0,010875
Recessão 0,10 –0,075 0,20 0,145
(–0,075 x 0,145)
–0,021875
Normal 0,30 0,125 –0,12 – 0,175
(0,125 x –0,175)
0,011375
Expansão 0,50 0,325 0,09 0,035
(0,125 x –0,175)
Tabela 1.3 – Cálculo da covariância. Ross, Westerfield e Jaffe, 2007, p. 209. Adaptado.
capítulo 1 • 13
o resultado for neutro (zero ou muito próximo de zero), pressupõe que não há
relação entre os ativos, ou melhor, não há relação entre duas variáveis.
Em outras palavras, um valor positivo para a covariância indica uma associa-
ção linear positiva entre duas variáveis (x e y, por exemplo); essa característica evi-
dencia que quando o valor de x aumenta, o de y também irá aumentar. Contudo,
se o valor da covariância for negativo, existirá uma associação linear negativa entre
x e y, significando que quando o valor de x aumenta, o valor de y irá diminuir.
E, como já descrito, quando o valor é próximo de zero, pode-se inferir que não
há associação linear entre as variáveis x e y. As figuras 1.1, 1.2 e 1.3 mostram a
interpretação da covariância.
capítulo 1 • 14
Note, caro leitor, que a covariância tem interpretação difícil em relação ao
seu valor numérico, uma vez que ele pode assumir valores em qualquer intervalo.
Anderson, Sweeney e Williams (2011, p. 100) comentam que um valor positivo
elevado da covariância poderia apontar para uma relação linear positiva forte e que
um valor negativo elevado, em contrapartida, indicaria relação linear de intensida-
de negativa forte. Como a medida de covariância depende das unidades de medida
de x e y (altura e peso, por exemplo), podem-se obter valores muito elevados para
uma variável, o que impacta no resultado obtido.
Assim, fica a indagação: que valores são muito ou pouco relacionados? Como
evitar que as variáveis sejam afetadas pelas unidades de medidas? Para resolver esses
problemas é utilizado o conceito de correlação, que iremos ver no próximo tópico.
EXEMPLO
No Microsoft Excel®, a covariância pode ser encontrada por meio da função
covariação.p ou covariação.s. a primeira é para dados populacionais, enquanto a segunda
é para dados amostrais. A tabela 1.4 demonstra como calcular.
Cov xy =
∑ ( x i − x )( y i − y )
n
capítulo 1 • 15
Quando a covariância for amostral, então a definição será:
Cov xy =
∑ ( x i − x )( y i − y )
n −1
Correlação
Em que:
ρ AB é a correlação de A com B.
σ A e σB são os desvios padrão.
capítulo 1 • 16
No exemplo estudado das Companhias A e B, o desvio padrão dos retornos
esperados de ambas as empresas foram calculados. Esses desvios são necessários
para encontrar a correlação. Sendo assim, o cálculo é:
Cov (R A ; R B )
ρ AB = Corr (R A ; R B ) =
σ A X σB
−0, 004875
ρ AB = Corr (R A ; R B ) = = −0,1639
0, 2586 x 0,1150
Você, leitor, deve ter notado que o desvio padrão sempre é positivo. Desse
modo, o resultado da correlação sempre terá o mesmo sinal da covariância, além
da interpretação ser a mesma, quer dizer, se a correlação entre as variáveis for posi-
tiva, então podemos dizer que as variáveis são positivamente correlacionadas. Se
for negativa, então dizemos que são negativamente correlacionadas e, quando for
igual zero (ou próximo a zero), então não há correlação entre as variáveis.
A vantagem de utilizar a correção é que ela sempre será um valor entre –1 e
+1, conforme figura 1.4. Tal feito é obtido graças à padronização das variáveis –
quando da divisão pelo produto dos desvios padrões.
–1
-1 0 +1
capítulo 1 • 17
valores mais próximos do 0 sugerem maior dispersão”. A tabela 1.5 ilustra os con-
ceitos apresentados.
DESCRIÇÃO O DIAGRAMA DE
VALOR DE R RELACIONAMENTO DISPERSÃO
LINER
y
Relacionamento positivo.
+1,00
perfeito
x
y
Relacionamento positivo.
Cerca de +0,70
moderado
x
y
x
y
Relacionamento negativo,
cerca de 0,70
moderno
x
y
Relacionamento negativo
-1,00
perfeito
x
Tabela 1.5 – Diagramas de dispersão e os valores de correlação. Stevenson (2001, p. 369).
EXEMPLO
No Microsoft Excel®, a correlação pode ser calculada por meio da função correl.
A tabela 1.5 8 evidencia como proceder.
capítulo 1 • 18
Tabela 1.6 – Cálculo da correlação no Excel.
E agora, que tal aprendermos como calcular tanto a correlação quanto a co-
variância na calculadora financeira HP 12-C? Basta executar a seguinte sequência
de comandos:
É importante notar que a média (0,175 e 0,055) foram adicionados nos cál-
culos como registros da calculadora. Somente dessa forma, é possível obter o valor
populacional da covariância. Se a média não for adicionada, então o valor obtido
será o amostral (–0,0065).
De acordo com as figuras 1.5, 1.6 e 1.7, é possível observar os três casos bá-
sicos para as correlações dos retornos das Companhias A e B. As figuras demons-
tram situações quando a correlação é positiva e perfeita (figura 1.5), quando a
correlação é negativa e perfeita (figura 1.6) e quando inexiste correlação entre os
retornos (figura 1.7).
capítulo 1 • 19
Retornos
– A
B
Tempo
+ B
– A
Tempo
Obs.: o título A tem retorno superior à média quando o título B tem retorno
inferior à média, e vice-versa. Ross, Westerfield e Jaffe (2007, p. 211)
Retornos
0
B
– A
Tempo
capítulo 1 • 20
Correlação e causalidade
O verdadeiro perigo na utilização de relações para fins preditivos que não tenham sido
validades em termos de causa e efeito é que as “relações” podem se modificar, ou que
modificações deliberadas na variável “causal” possam não conduzir às modificações es-
peradas na variável “efeito” (STEVENSON, 2001, p. 389).
ATIVIDADES
01. Uma seguradora deseja verificar se há QUANTIDADE RENDA
REGIÃO
relação entre a quantidade de sinistros e a DE SINISTRO MÉDIA
renda média dos segurados das regiões de Norte 28 R$ 4.500,00
uma cidade em um determinado ano. Os da-
Sul 15 R$ 8.000,00
dos obtidos estão de acordo com a tabela
Leste 42 R$ 2.200,00
a seguir:
Oeste 34 R$ 3.600,00
capítulo 1 • 21
a) Calcule a correlação.
b) Calcule a covariância.
c) Interprete a correlação.
05. Um analista atuarial de uma empresa de plano de saúde desejar saber se há relação
entre a idade média de determinada característica de pessoas e a quantidade de doenças
apresentadas nos últimos 5 anos. Tal análise será útil para as diretrizes do novo plano de
saúde que a empresa deve lançar. Com base na tabela a seguir, faça o que se pede.
Homem casado 35 6
Home divorciado 38 8
Mulher solteira 26 3
Mulher casada 32 5
Mulher divorciada 40 2
capítulo 1 • 22
REFLEXÃO
Neste capítulo você aprendeu sobre covariância e correlação. Foi apresentado que o
usuário tomador de decisão muitas vezes requer o conhecimento do grau de relacionamento
de duas variáveis para compreender melhor o processo de relação e, por consequência, in-
fluenciar na tomada de decisão. Você aprendeu definir e calcular tanto a covariância quanto
a correlação, por meio de fórmulas algébricas, da calculadora financeira HP 12-C e também
via Microsoft Excel®.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
ASSAF NETO, A.; LIMA, F. G. Curso de Administração Financeira. 2. ed. São Paulo: Atlas, 2011.
ROSS, S. A.; WESTERFIELD, R. W.; JAFFE, J. F. Administração Financeira. Tradução de Antônio
Zoratto Sanvicente. 2. ed. São Paulo: Atlas, 2007.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.
capítulo 1 • 23
capítulo 1 • 24
2
Regressão linear
simples
Regressão linear simples
Imagine que uma empresa do ramo varejista, que comercializa, sobretudo,
produtos eletrodomésticos, deseja ser capaz de prever quais clientes são bons ou
maus pagadores com base em sua renda, dado um histórico de vendas anteriores e
a sua relação com a inadimplência.
Por meio da regressão linear simples, é possível obter uma equação que é capaz
de prever, com base em dados passados (renda e inadimplência, nesse exemplo)
se o atual cliente seria um bom ou mau pagador. Assim como na correlação, a
regressão se baseia na relação entre duas ou mais variáveis.
OBJETIVOS
• Definir regressão linear simples;
• Diferenciar variável dependente e independente;
• Calcular regressão linear simples;
• Compreender a aplicabilidade da técnica.
Introdução
Bruni (2012, p. 224) comenta que tanto a correlação quanto a análise de re-
gressão têm por objetivo estimar numericamente “o grau de relação que possa ser
identificado entre populações de duas ou mais variáveis, a partir da determinação
obtida com base em amostras selecionadas destas populações focalizadas”. Logo,
você pode perceber que a regressão também é uma medida que busca mensurar e
compreender a relação entre duas ou mais variáveis.
Em outra explicação, Fávero et al. (2009, p. 345) argumenta que a análise de
regressão é uma técnica de dependência (também conhecida por confirmatória)
que tem por objetivo desenvolver modelos com um conjunto de variáveis (cha-
madas de explicativas) que podem influenciar uma ou mais variáveis dependentes.
Desse modo, é possível elaborar modelos preditivos.
Anderson, Sweeney e Williams (2007, p. 428) explicam que na termino-
logia da análise de regressão, a “variável que é prevista é dita variável dependente.
capítulo 2 • 26
A variável ou variáveis usadas para prever o valor da variável dependente denomi-
nam-se variáveis independentes”.
ATENÇÃO
Variável dependente é a variável que será prevista no modelo. Ela também é conhecida
por variável explicada.
Variável independente é a variável (ou variáveis) usada para prever o valor da variável
dependente. Ela também é conhecida por variável explicativa.
Quando a análise de regressão envolve apenas duas variáveis, isto é, uma variá-
vel independente e uma variável depende, ela é chamada de regressão linear sim-
ples. A relação entre essas duas variáveis tende a se aproximar de uma linha reta.
capítulo 2 • 27
©© NIKITRIY | SHUTTERSTOCK.COM
A equação anterior é uma estimativa que relaciona a altura com o peso dos
alunos de uma sala de aula. Lembra que a variável dependente é preditiva? Pois
bem, se quisermos agora, saber (ou prever) o peso de um aluno, basta fazer a subs-
tituição na equação. Por exemplo, qual seria o peso previsto de um aluno que tem
1,80 m de altura? Pela equação, o peso dele seria:
capítulo 2 • 28
Por meio da equação da regressão linear simples, o peso previsto do aluno
que tem 1,80 m de altura seria de 79,20 kg. Note, prezado leitor, que o valor
encontrado é uma estimativa, um valor previsto, com base nos dados obtidos da
população ou amostra do estudo que, nesse caso, foram os pesos e alturas dos
22 alunos de uma sala de aula.
O modelo de regressão proposto seria melhor reescrito como:
y = β0 + β1 χ + ∈
E (y) = β0 + β1χ
γ = b0 + b1χ
capítulo 2 • 29
Modelo de Regressão Dados Amostrais
y = β0 + β1 x + ∈ x y
Equação de Regressão
x1 y1
E(y) = β0 + β1 x
x2 y2
Parâmetros Desconhecidos
. .
β0, β0
xn yn
Equação de Regressão
b0 e b1 Estimada
Produzem estimativas de yˆ = b0 + b1 x
β0 e β1 Estatística da amostra
b0, b0
capítulo 2 • 30
vez, pesa 60 kg e mede 1,62 metro. O aluno mais pesado é o 18, com 98 kg, e os
mais altos são os alunos 4 e 11, com 1,95 metro cada.
PESO ALTURA
ALUNO
(EM KG) (EM METROS)
i yi xi
1 76 1,74
2 60 1,62
3 95 1,89
4 91 1,95
5 73 1,72
6 75 1,80
7 96 1,87
8 66 1,66
9 70 1,75
10 69 1,70
11 95 1,95
12 73 1,78
13 62 1,64
14 56 1,55
15 86 1,88
16 86 1,90
17 62 1,59
18 98 1,88
19 83 1,88
20 60 1,68
21 82 1,90
22 85 1,84
Tabela 2.1 – Dados sobre os pesos e alturas de alunos de uma sala de aula.
capítulo 2 • 31
120
100
80
Peso (em kg)
60
40
20
0
1.4 1.5 1.6 1.7 1.8 1.9 2
Altura (em metros)
Leitor, observe o gráfico contido na figura 2.2. Quais análises ou prévias con-
clusões você pode fazer? Aparentemente o peso dos estudantes aumenta conforme
sua altura também se eleva. Observe ainda que essa relação tende a se aproximar
de uma linha reta crescente, evidenciando uma relação linear e positiva entre x
(altura) e y (peso).
Por se tratar de uma amostra, devemos utilizar a equação de regressão estima-
da para representar a relação entre o peso e altura:
γ i = b0 + b1χi
Além disso, é preciso também saber que yi é o peso observado (real) do alu-
no i e que γ i representa o valor estimado do peso do aluno i. Logo, todo aluno
da amostra terá um valor observado de peso (yi) e um valor estimado de peso
( γi). Anderson, Sweeney e Williams (2007, p. 432) explicam que “para que a reta
capítulo 2 • 32
de regressão estimada produza um ajuste eficiente para os dados, queremos que
as diferenças entre os valores de venda observados e os valores de venda estimados
sejam pequenos”.
“Assim, o método dos mínimos quadrados utiliza dados amostrais para pro-
duzir os valores b0 e b1 que minimizam a soma dos quadrados dos desvios entre
os valores observados da variável dependente yi e os valores estimados da variável
dependente” (ANDERSON; SWEENEY; WILLIAMS, 2007, p. 432). A equação
que representa o método dos mínimos quadrados é:
( )
2
min ∑ y i − γ i
Em que:
yi = valor observado da variável dependente para a i-ésima observação;
γ = valor estimado da variável dependente para a i-ésima observação.
i
Para encontrar os valores de b0 e b1 que minimizam a equação supracitada,
utiliza-se o cálculo diferencial, conforme demonstrado na sequência:
b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ )
2
b0 = y − b i χ
Em que:
χi = valor da variável independente para a i-ésima observação;
yi = valor da variável dependente para a i-ésima observação;
χ = valor médio da variável independente;
γ = valor médio da variável dependente.
Sabe-se ainda que b0 e b1 são chamados de interseção e inclinação da reta na
equação de regressão estimada, respectivamente. Para desenvolver a equação de re-
gressão estimada pelo método dos mínimos quadrados, o exemplo da tabela 2 con-
tinuará sendo utilizado. A tabela 2.2 foi desenvolvida para a explicação dos cálculos.
capítulo 2 • 33
(xi – –x)
Alunos yi xi xi – –x yi – –y (yi – –y) (xi – –x)2
1 76 1,74 –0,04 –1,23 0,05 0,00
Média
77,23 1,78 – – – –
(χy)
capítulo 2 • 34
O cálculo de b1, isto é, da inclinação da reta, é da seguinte maneira:
b1 =
∑ ( χi − χ ) ( γ i − γ )
∑ ( χi − χ )
2
31, 50
b1 =
0, 31
b1 = 100, 99
b0 = y − b1 χ
b0 = 77, 23 − 100, 99 X 1, 78
b0 = 102, 58
y i = b0 + bi χi
y i = −102, 58 + 100, 99χ
Agora, caro aluno, convido para rever a equação no início do item 2.1. Viu só
como foi que chegamos naqueles valores? Foi uma regressão linear simples estima-
da por meio do método dos mínimos quadrados.
Uma importante consideração sobre a equação encontrada: como o valor de b1
(inclinação da reta) é positivo (100,99), indica que, conforme a altura aumenta, o
peso tende também a aumentar, ou seja, quanto mais alto for o aluno, maior será
o seu peso.
Vamos supor, por ora, que a equação de regressão estimada pelo método dos
mínimos quadrados descreve adequadamente a relação entre x e y. Assim, pode-
mos, por meio da equação, prever o valor de y para determinado valor de x. Ou
seja, se soubermos a altura de determinado aluno, podemos prever seu peso.
capítulo 2 • 35
Imagine que três novos alunos entraram na turma. Vamos prever seus pesos?
99 Aluno 1: 1,62 metro;
99 Aluno 2: 1,82 metro;
99 Aluno 3: 1,96 metro.
120
100
y = –102,58 + 100,99x
80
Peso (em kg)
60
40
20
0
1.4 1.5 1.6 1.7 1.8 1.9 2
Altura (em metros)
capítulo 2 • 36
Ainda sobre o método dos mínimos quadrados, Anderson, Sweeney e Williams
(2007, p. 435) explicam que
O método dos mínimos quadrados fornece uma equação de regressão estimada que
minimiza a soma de desvios quadráticos entre os valores observados da variável depen-
dente yi e os valores estimados da variável depende ŷ. O critério dos mínimos quadrados
é usado para escolher a equação que fornece o melhor ajuste. Se algum outro critério
fosse usado, por exemplo, minimizar a soma dos desvios absolutos entre yi e ŷ, uma
equação diferente seria obtida. Na prática, o método dos mínimos quadrados é o mais
amplamente usado.
capítulo 2 • 37
3. Na tela que se abrir, clique em Suplementos e depois no botão Ir.
capítulo 2 • 38
Agora você possui a ferramenta Análise de Dados, que permite fazermos a regres-
são, pelo método dos mínimos quadrados, via Excel®. Para o exemplo, a tabela 2.2 será
utilizada. Copie os valores para o Excel® e depois, na aba Dados, clique em Análise de
Dados e, na sequência, selecione o item Regressão, conforme figura 2.4.
Clicando em OK, uma nova tela irá surgir, como demonstrado na figura 2.5.
Preste muita atenção nessa tela!
A tela evidenciada na figura 2.5 é onde se deve colocar os dados para efetuar
a análise de regressão. O Intervalo Y de entrada é onde se colocam os dados da
capítulo 2 • 39
variável depende y e o Intervalo X de entrada é onde se colocam os dados das
variáveis independentes x.
Você deve checar o item Rótulos, caso, no momento de seleção dos dados, for
também selecionado os rótulos das variáveis. Por exemplo, ao selecionar a variável
Y, além dos dados, também deverá ser selecionada a célula C3 (figura 2.5).
Clique no ícone indicado na figura 2.6 para inserir os dados da variável Y. No
caso, são os dados referentes aos pesos dos alunos.
capítulo 2 • 40
Figura 2.7 – Regressão no Excel – selecionando os dados.
capítulo 2 • 41
O resultado da regressão irá aparecer em uma nova planilha, conforme elucida
a figura 2.9. Antes de prosseguirmos, é importante ressaltar que muito do conteú-
do do resultado da regressão será abordado no próximo capítulo. Então, por ora,
não se preocupe em interpretar todos os resultados.
ATIVIDADES
01. (Adaptado de Anderson, Sweeney e Williams (2007)). Foram coletados dados de uma
amostra de dez restaurantes de uma determinada franquia que atualmente é localizada pró-
xima aos campos universitários. A ideia é desenvolver, por meio da regressão linear simples,
um modelo que faça previsão de vendas para novas unidades do restaurante. Os dados estão
na tabela a seguir.
capítulo 2 • 42
POPULAÇÃO DE VENDAS TRIMESTRAIS
RESTAURANTE ESTUDANTES (EM MILHARES DE DÓLARES) Y
(EM MILHARES) X
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
02. Conceitue:
a) Variável dependente; b) Variável independente.
03. Um professor de uma determinada universidade deseja elaborar uma equação de re-
gressão que verifique a relação entre as faltas e a nota. Além disso, com a equação estimada,
o professor poderá prever a nota do aluno de acordo com a quantidade de faltas. A amostra
foi coletada em uma sala de aula, conforme tabela a seguir:
capítulo 2 • 43
ALUNO QUANTIDADE DE FALTAS NOTA
10 0 9,0
11 4 7,0
12 4 6,0
13 5 7,0
14 7 2,0
15 1 9,0
REFLEXÃO
Neste capítulo você aprendeu sobre regressão, uma medida que busca mensurar e com-
preender a relação entre duas ou mais variáveis. Especificamente, você aprendeu sobre a
regressão linear simples, que foca no estudo de apenas duas variáveis, uma dependente e
outra independente. Você também aprendeu que o objetivo da regressão é desenvolver um
modelo preditivo que explica a relação entre as variáveis. Por fim, outra contribuição, foi a
apresentação do cálculo da regressão, tanto de maneira manual quanto de maneira compu-
tacional, por meio do Microsoft Excel®.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
BRUNI, A. L. SPSS Guia Prático para Pesquisadores. São Paulo: Atlas, 2012.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.
capítulo 2 • 44
3
Regressão linear
simples e regressão
linear múltipla
Regressão linear simples e regressão linear
múltipla
OBJETIVOS
• Aprender conceitos para aplicar e avaliar o poder preditivo da regressão;
• Definir regressão linear múltipla;
• Conhecer os problemas de heterocedasticidade e multicolinearidade;
• Calcular regressão linear múltipla;
• Compreender a aplicabilidade da técnica.
Coeficiente de determinação
capítulo 3 • 46
uma medida que explica a eficiência dos ajustes da equação de regressão estimada.
Gujarati e Porter (2011, p. 95) dizem que o coeficiente de determinação mensura
a qualidade do ajustamento da linha de regressão ajustada a um conjunto de
dados, isto é, o quão “bem” uma linha de regressão amostral é adequada aos dados.
Gujarati e Porter (2011, p. 95) exemplificam o r² utilizando o diagrama de
Venn, conforme pode se observar na figura 3.1. O círculo Y representa a variação
da variável dependente y, enquanto que o círculo X representa a variação da va-
riável independente x. Nas figuras onde os círculos estão sobrepostos, uma área
sombreada indica o quanto a variação da variável y é explicada pela variação da
variável x. Quanto maior a sobreposição entre as figuras, ou seja, quanto maior a
área sombreada, maior é a explicação da variável y pela variável x. A área sombrea-
da seria o cálculo numérico representado por r².
Y X Y X Y X
Y X
Y=X
Y X
Ainda de acordo com a figura 3.1, você já percebeu que, conforme as figuras
avançam de (a) para (f ), maior é o poder de explicação do r². Em (a), o r² é zero,
uma vez que nenhuma variação de y é explicada por x. Por outro lado, em (f ), a
variação de y é totalmente explicada por x, o que quer dizer, que r² é igual a 1.
Assim, pode-se deduzir que o r² varia de 0 a 1 – e quanto mais próximo de 1, mais
a variável dependente é explicada pelas variações da(s) variável(eis) x.
O coeficiente de determinação, portanto, demonstra uma medida da eficiên-
cia de ajuste da equação de regressão estimada. Em termos técnicos,
capítulo 3 • 47
O valor da SSE evidencia uma medida do erro ao se usar a equação de re-
gressão estimada para estimar os valores da variável dependente. Assim, o SSE é a
soma dos quadrados dos erros:
( )
2
SSE = ∑ y i − y i
Além da SSE, também é necessário conhecer a soma total dos quadrados (total
sum of squares). Essa medida fornece o erro de usar o γ para estimar y. Assim, o
SST é:
( )
2
SSE = ∑ y i − y i
( )
2
SSE = ∑ y i − y i
SSR=SST-SSE
(∑ y y )
2
i i
r2 =
(∑ y 2i )(∑ y 2i )
capítulo 3 • 48
Bom, que tal irmos para um exemplo prático a fim de compreendermos me-
lhor o cálculo envolvendo o coeficiente de determinação? Pois bem, vamos reto-
mar o exemplo apresentado no Capítulo 2, que diz respeito entre a relação do peso
e altura de alunos de uma determina sala de aula. A tabela 3.1 revela os valores
outrora mostrados.
PESO ALTURA
ALUNO I (EM KG) (EM METROS)
Yi Xi
1 76 1,74
2 60 1,62
3 95 1,89
4 91 1,95
5 73 1,72
6 75 1,80
7 96 1,87
8 66 1,66
9 70 1,75
10 69 1,70
11 95 1,95
12 73 1,78
13 62 1,64
14 56 1,55
15 86 1,88
16 86 1,90
17 62 1,59
18 98 1,88
19 83 1,88
20 60 1,68
21 82 1,90
22 85 1,84
Tabela 3.1 – Dados sobre os pesos e alturas de alunos de uma sala de aula.
capítulo 3 • 49
Se o leitor se lembra, com base na tabela 1 foi calculada a equação de regres-
são estimada:
ŷi=-102,58+100,99x
ALTURA
ALUNO PESO (EM KG) PESO PREVISTO
(EM METROS) ^
I yi y = – 102,58+100,99x
xi i
1 76 1,74 73,14
2 60 1,62 61,02
3 95 1,89 88,29
4 91 1,95 94,35
5 73 1,72 71,12
6 75 1,80 79,20
7 96 1,87 86,27
8 66 1,66 65,06
9 70 1,75 74,15
10 69 1,70 69,10
11 95 1,95 94,35
12 73 1,78 77,18
13 62 1,64 63,04
14 56 1,55 53,95
15 86 1,88 87,28
16 86 1,90 89,30
17 62 1,59 57,99
18 98 1,88 87,28
19 83 1,88 87,28
capítulo 3 • 50
A tabela 3.2 mostrou, com base na equação de regressão estimada, o peso
previsto para cada valor de x (altura). Por exemplo, o aluno 1, que pesa original-
mente 76 kg e que possui uma altura de 1,74 m, no modelo de regressão estimado,
sua altura prevista foi de 73,14 kg (73,14= –102,58+100,99×1,74). Logo, há um
erro de 2,86 kg (76 – 73,14). E o que o SSE mede? O erro de usar a equação de
regressão estimada! Mais, o SSE é a soma dos quadrados do erro. Compreendeu?
Devemos então calcular cada erro, achar o seu quadrado e somar. Esse será o SSE,
conforme exposto na tabela 3.3.
capítulo 3 • 51
A soma da coluna do Erro² (Erro elevado ao quadrado) será o SSE. O so-
matório é, portanto, SSE = 490,97. Uma vez calculado o SSE, procede-se com a
mensuração do SST, que, como já exposto, mensura o erro envolvido no uso da
média (γ ) para estimar y. Os cálculos são apresentados na tabela 3.4.
PESO ALTURA
ALUNO DESVIO DESVIO²
(EM KG) (EM METROS)
I Yi – Y (Yi – Y)2
Yi Xi
1 76 1,74 –1,23 1,51
SST = 3.671,86
capítulo 3 • 52
No cálculo do SST, o desvio, diferença entre o valor de y e sua média, deve
ser calculado. A média é simplesmente calculada sobre a variável yi – que, aliás, já
foi calculado no capítulo 2. A média da variável yi é 77,23. Desse modo, o desvio
encontrado para o aluno 1, é a diferença entre seu peso original, 76, em relação à
média, 77,23, perfazendo uma diferença de –1,23 (76 – 77,23).
Na sequência, dado que a SST é a soma total dos quadrados, basta elevar
ao quadrado cada desvio encontrado: (–1,23)² = 1,51. A soma da coluna Desvio²
será o SST, que, neste exemplo, foi o valor de 3.671,86.
Uma que o SSE e o SST foram encontrados, e sabendo que o SSR é a
diferença entre o SST e SSE, temos que:
SSR=SST-SSE
SSR=3.671,86-490,97
SSR=3.180,90
3.180, 90
r2 =
3.671, 86
r2 = 0,8662
capítulo 3 • 53
Figura 3.2 – R² no Excel
O problema da heterocedasticidade
capítulo 3 • 54
resíduos podem apresentar correlação com uma (ou até mais) variável explicativa
e, desse modo, podem variar em função desta variável”.
Em outras palavras, tal erro está, na maioria das vezes, associado aos outliers.
Um outlier é uma variável de valor atípico, de grandeza muito maior em relação
às demais. Fávero et al. (2009, p. 358) cita que em pesquisas de contabilidade e
finanças, é comum existir grandes diferenças nos valores observados em determi-
nada variável.
Por exemplo, o tamanho do ativo e a receita de vendas. São valores que vão
ter muita discrepância, uma vez que existem empresas com receita muito grande
e outras com receita muito pequena; o mesmo valo para o tamanho do ativo: há
empresas enormes e empresas pequenas.
Uma forma de mitigar o problema de heterocedasticidade é escalonando as
variáveis ou até mesmo eliminando os outliers. No caso da receita de vendas, é
comum, nos estudos da área, escalonar pelo ativo total, ou seja, dividir a receita
de vendas pelo ativo da empresa. Desse modo, a variável receita fica padronizada
pelo ativo total da companhia, evitando discrepância. Se a variável de interesse for
o ativo total, é comum, nas pesquisas, usar tal variável pelo seu logaritmo natural.
O problema da multicolinearidade
Fávero et al. (2009, p. 359) argumenta que “muitas das variáveis explicativas a
serem consideradas em um modelo podem apresentar comportamentos semelhan-
tes, ou seja, entre algumas delas pode existir correlação elevada”.
Como algumas variáveis podem ser altamente correlacionadas, quando da
análise da regressão múltipla, o problema de multicolinearidade pode surgir.
Como então verificar se há esse tipo de problema entre as variáveis? Basta fazer a
correlação entre elas, conforme aprendido no capítulo 1. Se houver alta correlação
entre as variáveis explicativas, então alguma delas precisará ser removida. Pode-se
ainda empregar a técnica de Análise Fatorial no conjunto de variáveis altamen-
te correlacionadas.
Kennedy (2003) apud Fávero et al. (2009, p. 359) destacam que “problemas
de multicolinearidade não dependem, de fato, de relação teórica ou linear entre as
variáveis explicativas, mas sim da relação linear dos dados que estão sendo utiliza-
dos, ou seja, o problema pode estar na amostra”.
Você pode, por exemplo, querer desenvolver uma regressão linear múltipla
para verificar se há relação entre o retorno da ação e os indicadores de liquidez das
capítulo 3 • 55
empresas. Perceba que é bem provável que haverá alta relação entre os indicadores
de liquidez corrente, seca e imediata, por exemplo. Um único indicador de liqui-
dez, nesse caso, bastaria no modelo e evitaria o problema exposto.
y = β0 + β1 χ1 + β2 χ2 + + βp χp + ∈
ŷ = β0 + β1 χ1 + β2 χ2 + + bp χp
Em que b0, b1, b2, ..., bp são as estimativas de β0, β1, β2, ..., βp e ŷ é o valor
estimado da variável dependente.
Para estimar a regressão múltipla, o Método dos Mínimos Quadrados
(MQO) também será empregado. O MQO usa dados amostrais (b0, b1, b2, ..., bp)
para generalizar para a população (β0, β1, β2, ..., βp).
Na regressão linear simples, utilizamos cálculos manuais para estimar os va-
lores de b0 e b1. Todavia, na regressão linear múltipla, os cálculos se tornam com-
plexos e inviáveis para o escopo deste livro e assunto. Dessa maneira, os cálculos
serão apresentados com o auxílio do Microsoft Excel®. O exemplo a ser utilizado
tem base em Anderson, Sweeney e William (2007, p. 490).
O exemplo aborda uma empresa de transporte rodoviário que busca otimi-
zar melhores programas de trabalho. Os gerentes da empresa acreditavam que o
tempo total diários das viagens estaria relacionado com o número de milhas per-
corridas ao fazerem as entregas diárias. Outra variável foi acrescida, o número de
entregas. A tabela 3.5 demonstra os dados.
capítulo 3 • 56
TAREFA DE X1 = MILHAS X2 = NÚMERO DE Y = TEMPO DE
ENTREGA PERCORRIDAS ENTREGAS VIAGEM (HORAS)
1 100 4 9,3
2 50 3 4,8
3 100 4 8,9
4 100 2 6,5
5 50 2 4,2
6 80 2 6,2
7 75 3 7,4
8 65 4 6,0
9 90 3 7,6
10 90 2 6,1
Tabela 3.5 – Dados sobre os as milhas, entregas e tempo de viagem. Anderson, Sweeney
e William (2007, p. 490).
capítulo 3 • 57
A respeito da multicolinearidade, um teste de correlação ajuda a verificar.
Aplicando a função correl do Microsoft Excel®, que executa a correlação entre
duas variáveis, nas variáveis explicativas x1 e x2, obtemos o valor de 0,1620, evi-
denciando uma baixa correlação positiva. Logo, deduzimos que não há multico-
linearidade dos dados.
Desse modo, podemos prosseguir com a regressão sem qualquer tipo de even-
tuais problemas.
No Excel, utilizando os mesmos dados. Na aba Dados, clique em Análise de
Dados e, na sequência, selecione o item Regressão, conforme figura 3.4.
capítulo 3 • 58
Clicando em OK, uma nova tela irá surgir, como demonstrado na figura 3.5.
É a mesma tela demonstrada no capítulo 2 – nada mudou até aqui!
capítulo 3 • 59
Selecione os dados da variável y (Tempo de Viagem) como demonstrado na
figura 3.7 e aperte o botão Enter.
O mesmo deve ser feito paras as vaiáveis x1 e x2. Isso mesmo. Ao invés de se-
lecionar apenas uma variável, você deverá selecionar todas as demais! Nesse caso,
temos duas variáveis, então seleciona Milhas Percorridas e Número de Entregas,
como mostrado na figura 3.8.
capítulo 3 • 60
Figura 3.9 – Regressão Múltipla no Excel – dados selecionados.
Caro leitor, muita atenção é necessária para a análise da figura 3.11. Ela nos
traz informações importantíssimas a respeito do modelo de regressão encontrado.
Vamos primeiramente ao coeficiente de determinação, o R² (R-Quadrado). O
valor encontrado de 0,9038 releva o poder de explicação do modelo. Ou melhor,
mostra o quanto da variação em y (variável dependente) é explicada pelas varia-
ções nas variáveis x (independentes) – é um altíssimo poder explicativo!
capítulo 3 • 61
Além disso, embora não abordado, logo na sequência vem a informação do
R-quadrado ajustado. Ela é uma alternativa ao R² tradicional, pois faz um ajuste
ao modelo levando em consideração a quantidade de variáveis e observação. Na
prática, ele é mais utilizado que o R² e sempre terá seu valor um pouco reduzido.
O R² ajustado revelou um valor de 0,8763, ainda assim, uma excelente explicação.
Prosseguindo, na tabela seguinte, chamada ANOVA, o que nos importa, para
esse tipo de análise, é o F de significação. Esse teste é usado para testar se a regres-
são é significativa. Ele faz um teste global visando testar uma relação entre as va-
riáveis independentes com a dependente. Para a regressão ser significativa, o Teste
F precisa fornecer um valor menor que 0,01. Observe que o valor encontrado de
0,00027624 é menor que 0,01, portanto o modelo é significativo!
Outra análise importante diz respeito ao Teste T (Stat t). Ele vai testar cada
variável de forma independente para assegurar que haja uma relação estatisti-
camente significativa entre as variáveis. Devemos observar a coluna p-valor da
figura 3.11. O valor para a interseção não importa, mas sim o das variáveis x1 e
x2. Assim como no Teste F, o valor para o Teste T também ter que ser menor que
0,01 para ser significativo. Em verdade, como há vários níveis de significância, o
usual é que os valores possam ser < 0,10, < 0,05 ou < 0,01. Quanto menor, mais
significativo é!
Pois bem, para a variável x1, o p-valor (0,000453) < 0,01, portanto, é signifi-
cativa. A variável x2 tem o p-valor (0,004157) também é menor que 0,01 e tam-
bém é significativa. Percebemos então que tanto o teste global (Teste F) quanto o
teste individual (Teste T) são significativos. É comum, caro leitor, que em modelos
de muitas variáveis, uma outra não ser significativa. Não há problema substan-
ciais, conquanto que o Teste F e o R² sejam satisfatórios.
Por fim, vamos estabelecer a nossa equação estimada da regressão li-
near múltipla:
capítulo 3 • 62
ATIVIDADES
01. Um analista financeiro deseja saber se há relação entre o custo de capital próprio da
empresa (Ke) e as variáveis Liquidez Corrente (LC), Endividamento Geral (EG) e Retorno
sobre o Ativo (ROA). Ele coletou uma amostra aleatória de 10 empresas em um determinado
período. Os resultados estão na tabela a seguir:
Pede-se:
a) Verifique se há multicolinearidade dos dados.
b) Faça a regressão linear múltipla.
c) Qual o R²? O modelo é bom?
d) O modelo de regressão é significativo?
e) Elabore a equação estimada da regressão múltipla.
REFLEXÃO
Neste capítulo você se aprofundou nos conceitos de regressão linear simples, aprenden-
do sobre o coeficiente de determinação. Também aprendeu sobre a regressão linear múltipla,
começando pelos problemas de heterocedasticidade e multicolinearidade. Na sequência, um
exemplo prático da aplicação da técnica foi exposto, utilizando duas variáveis explicativas. Foi
ensinado a analisar uma regressão: R-quadrado, R-quadrado ajustado, Teste de Significância
capítulo 3 • 63
(Teste F) e Teste T. Como o modelo de regressão linear múltipla envolve cálculos complexos,
o Microsoft Excel® foi utilizado para nos auxiliar.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.
GUJARATI, D. N.; PORTER, D. C. Econometria Básica. 5. ed. Porto Alegre: AMGH Editora LTDA,
2011.
capítulo 3 • 64
4
Estimação por
intervalo
Estimação por intervalo
Neste capítulo vamos aprender a fazer a estimação por intervalo. Antes, con-
tudo, uma discussão aprofundada sobre a distribuição normal é feita. Vamos rever
como calcular a variável padronizada Z e como encontrar a área sob a curva, isto
é, a probabilidade.
Após essa discussão inicial, a estimação por intervalo será estudada. Iremos
aprender como estimar a média de uma população quando o desvio padrão é
conhecido e também no caso de ele ser desconhecido. Nesse caso, importantes
conceitos, como o intervalo de confiança e a margem de erro serão determinados.
OBJETIVOS
• Conhecer estimativas pontuais e intervalores;
• Relembrar e/ou conhecer a distribuição normal;
• Aprender a calcular o valor padronizado Z;
• Saber encontrar a área sob a curva de uma distribuição normal;
• Estimar a média de uma população quando o desvio padrão é conhecido;
• Estimar a média de uma população quando o desvio padrão é desconhecido.
Introdução
capítulo 4 • 66
a partir de uma amostra aleatória. Os principais parâmetros, você leitor já conhe-
ce: média e desvio padrão.
A margem de erro, por sua vez, demonstra a quantidade de erro de uma
amostral aleatória que está incluída nos resultados da pesquisa. Em outras pa-
lavras, expressa a probabilidade de o resultado ser próximo aos 100% se toda a
população fosse pesquisada e não somente uma amostra.
ATENÇÃO
Estimativa pontual é a estimativa única de um parâmetro populacional.
Estimativa intervalar dá um intervalo de valores possíveis, no qual se admite esteja o
parâmetro populacional.
(STEVENSON, 2001, p. 195)
capítulo 4 • 67
A tabela 4.1 mostra exemplos de estimativas, tanto do tipo pontual quanto
do tipo intervalar.
TIPO DE ESTIMATIVA
PARÂMETRO PONTUAL INTERVALAR
POPULACIONAL
1. O americano médio conso- 1. O consumo médio de carne
me 40 lb de carne por ano. no país está entre 30 e 50 lb
2. Um carro típico de 6 cilin- por pessoa por ano.
MÉDIA dros faz 15 milhas por galão. 2. Um carro típico de 6 cilin-
dros faz entre 12 e 18 milhas
por galão.
1. Vinte e dois por cento da po- 1. Entre 18% e 26% da po-
pulação se opõe a um aumento pulação há oposição a um au-
do limite de velocidade. mento do limite da velocidade.
PROPORÇÃO 2. A proporção de estudantes 2. A proporção de estudantes
fumantes é de 43%. fumantes está entre 37% e
49%.
1. O desvio padrão da quilome- 1. O desvio padrão da quilome-
tragem de um pneu radial é de tragem de um pneu radial está
2.000 milhas. entre 1.500 e 2.500 milhas.
DESVIO PADRÃO 2. O desvio padrão da tempe- 2. O desvio padrão da tempera-
ratura numa piscina não aque- tura numa piscina não aqueci-
cida é da ordem de 5º F. da está entre 2º F e 8º F.
Uma vez que não se pode esperar que um estimador por ponto produza o valor exato
do parâmetro populacional, uma estimação por intervalo frequentemente é calculada
adicionando-se e subtraindo-se um valor, denominado margem de erro, ao estimador
por ponto (ANDERSON; SWEENEY; WILLIAMS, 2011, P. 272).
capítulo 4 • 68
Anderson, Sweeney e Williams (2011, p. 272) explicam que a finalidade de
uma estimação por intervalo “é fornecer informações sobre quão próximo o es-
timador por ponto, produzido pela amostra, está do valor do parâmetro popula-
cional. Por exemplo, a forma geral de uma estimação por intervalo de uma média
populacional é:
χ ∓ margem de erro
ρ ∓ margem de erro
Nessa mesma linha de raciocínio, Stevenson (2001, p. 198) alerta que “à me-
dida que aumenta o tamanho amostral, o desvio padrão da distribuição amostral
diminui”. Isso significa dizer que grandes amostras tendem a produzir médias
amostrais mais próximos da média e, portanto, demonstrando uma menor varia-
bilidade da distribuição.
Para se estimar a média de uma população, primeiramente é necessário
saber se o desvio padrão populacional é conhecido ou não. Todavia, antes de avan-
çarmos nessa discussão, uma pequena revisão sobre distribuição normal deve
ser feita.
Distribuição normal
capítulo 4 • 69
140 165,6
capítulo 4 • 70
Bruni (2011, p. 138) complementa a discussão alegando que os conceitos à
respeito da distribuição normal são simples: “em torno na média, valor central,
registra-se alta concentração de frequências ou probabilidade maior de ocorrência.
À medida que nos afastamos da média, as frequências são reduzidas”.
Por exemplo, imagine que o peso de um grupo de pessoas seja normalmente
distribuído. Considerando uma média de 74 kg, pode-se inferir que pessoas deste
grupo, com peso entre 72 e 76 kg, estão altamente concentradas em torno da mé-
dia. Por outro lado, a chance de encontrar pessoas com 120 kg é distante.
capítulo 4 • 71
Ainda de acordo com a figura 4.2, nota-se que, considerando que determi-
nada variável tenha distribuição normal, aproximadamente 68% de seus valores
estarão no intervalo de um desvio padrão da média, para cada lado (– a +).
Considerando dois desvios padrões a contar da média (–2 a +2), cerca de
95% dos valores estarão neste intervalo. E, finalmente, dentro do intervalo de
três desvios padrões a contar da média (–3 a +3), cerca de 99,7% dos valores
estarão contidos. O importante é saber que essa distribuição é válida para todas as
distribuições normais.
Tabela padronizada
A tabela padronizada tem como objetivo facilitar o cálculo das áreas e probabi-
lidades sob a curva da distribuição normal, uma vez que cálculos complexos preci-
sariam ser realizados para tal obtenção. Em vez de utilizar médias e desvios padrões
distintos, em seus lugares uma variável padronizada, chamada de Z, é calculada.
Para Bruni, (2011, p. 140), a variável padronizada Z “apresenta o afastamento
em desvios padrões de um valor da variável original em relação à média. O uso
de Z permite calcular probabilidades com o auxílio de tabelas padronizadas, que
tornam os cálculos mais simples”.
O valor de Z é apresentado, em sua forma algébrica, como se segue:
χ−µ
Z=
σ
Em que:
Z é a variável padronizada (número de desvios padrões a contar da média);
x é o valor arbitrário;
µ é a média da distribuição normal;
é o desvio padrão.
capítulo 4 • 72
O primeiro passo, sugerido didaticamente, consiste na representação sob a curva
da área desejada, conforme figura 4.3, 140 é igual ao valor da média e deve ser
representado no centro da curva simétrica. O valor 165,60 é superior à média e
deve ser representado à direita.
140 165,6
Como temos todas as variáveis necessárias (média, desvio padrão e valor arbi-
trário), podemos encontrar o valor de Z. Basta substituir na equação:
Para x = 140:
140 − 140
Z=
20
Z=0
Para x igual à própria média, o valor encontrado sempre será zero. Assim, não
é necessário proceder com o cálculo de x igual à própria média.
Para x = 165,60
165, 60 − 140
Z=
20
Z=1,28
capítulo 4 • 73
Foi encontrado o valor de 1,28 para Z. Esse valor, por sua vez, deverá ser
empregado para encontrar, na tabela padronizada, a área sob a curva, nesse caso,
a área entre 140 e 165,60, que justamente será a probabilidade de um candidato
ter obtido uma pontuação entre esses dois valores. A tabela 4.2 demonstra um
tipo de tabela padronizada. Podem existir outras. Nesta apostila, a tabela adotada
é aquela que mostra a metade direita da distribuição, isto é, o valor da média ()
a um dado valor x.
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
capítulo 4 • 74
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
Tabela 4.3 – Área sob a curva para Z igual a 1,28. Bruni (2011). Adaptado.
capítulo 4 • 75
Logo, o cruzamento da linha com a coluna é justamente o número 1,28. O
valor da área, por sua vez, é o 0,3997 ou 39,97%. Isso quer dizer que a probabili-
dade de encontrar um candidato com pontuação entre 140 e 165,6 pontos é igual
a 39,97%.
Prosseguindo com o exemplo de Bruni (2011), imagine agora que o pesqui-
sador queira saber qual a probabilidade de encontrar um candidato que fez uma
pontuação entre 127,4 e 140 pontos. A figura 4.4 ilustra a área sob a curva.
127,4 140
Z = – 0,63
capítulo 4 • 76
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
Tabela 4.4 – Área sob a curva para Z igual a 0,63. Bruni (2011). Adaptado.
Z = –1,14
capítulo 4 • 77
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
Z = 0,85
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
Sendo assim, a área encontrada sob a curva para Z entre –1,14 e 0,85 é igual
a 0,3729 + 0,3023 = 0,6752 ou 67,52%. Isso quer dizer que a probabilidade de
um candidato escolhido ao acaso ter uma pontuação entre 117,2 e 157 pontos é
igual a 67,52%.
Após você relembrar ou conhecer a respeito da distribuição normal de pro-
babilidade, você está apto a avançar e estudar sobre a estimação da média de
uma população.
capítulo 4 • 78
Estimativa da média de uma população
Bruni (2011, p. 183) apresenta um fluxograma, representado pela figura 4.6, so-
bre a estimação da média populacional a partir de um conjunto de dados amostrais.
O valor de σ
Sim é conhecido? Não Aumente o tamanho da
Use s para amostra para n ≥ 30 para
estimar σ poder realizar o
Sim Use s para
estimar σ procedimento de inferência
Figura 4.6 – Estimação da média para populações finitas. Bruni (2011, p. 83).
COMENTÁRIO
Nota:
é o desvio padrão populacional;
s é o desvio padrão amostral.
capítulo 4 • 79
Média da população: desvio padrão conhecido
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
capítulo 4 • 80
Procurando na tabela 4.7, encontramos o valor de 0,4750. Ele está justamente
no encontro de 1,9 com 0,06, evidenciando uma variável Z de valor 1,96. Para
os demais valores, consulte a tabela 4.8. De toda forma, fica a dica para o leitor
encontrar os valores de Z quando se tem a área.
CONFIANÇA Z
DESEJADA
90% 1,65
95% 1,96
99% 2,58
χ = 24, 2
n = 36
σ = 3, 0
σχ 3 23,220 a
95% 1,96 χ ∓ 1, 96 24, 2 ∓ 1, 96
36
24, 2 ∓ 0, 980
n 25,180
σχ 3 23,110 a
99% 2,58 χ ∓ 2, 58 24, 2 ∓ 2, 58 24, 2 ∓ 1, 290
36 25,690
n
Tabela 4.9 – Intervalos de confiança para μx quando se conhece x. Stevenson (2001, p. 199).
capítulo 4 • 81
Você deve ter notado na tabela o e. Ele é chamado de erro de estimação. Para
Stevenson (2001, p. 199) ele se refere “ao desvio (diferença) entre a média amos-
tral e a verdade média da população”. Logo, o intervalo
σχ
χ∓z
n
χ ∓ erro
Lembra-se agora do início deste capítulo quando foi abordado sobre a pes-
quisa de intenção de votos? Pois bem, é justamente o que foi apresentado. Você
aprendeu como calcular o intervalo e a margem de erro. No exemplo apresenta-
do na tabela 4.9, o erro foi de 0,825 para um nível de confiança de 90%, 0,980
para 95% e 1,290 para 99%.
capítulo 4 • 82
ÁREA NUMA 0,010 0,020 0,050 0,100 0,200 0,500
CAUDA
ÁREA EM DUAS 0,005 0,010 0,025 0,050 0,100 0,250
CAUDAS
GRAUS DE VALORES DE t
LIBERDADE
1 63,657 31,821 12,706 6,314 3,078 1,000
2 9,925 6,965 4,303 2,920 1,886 0,816
3 5,841 4,541 3,182 2,353 1,638 0,765
4 4,604 3,747 2,776 2,132 1,533 0,741
5 4,032 3,365 2,571 2,015 1,476 0,727
6 3,707 3,143 2,447 1,943 1,440 0,718
7 3,499 2,998 2,365 1,895 1,415 0,711
8 3,355 2,896 2,306 1,860 1,397 0,706
9 3,250 2,821 2,262 1,833 1,383 0,703
10 3,169 2,764 2,228 1,812 1,372 0,700
11 3,106 2,718 2,201 1,796 1,363 0,697
12 3,055 2,681 2,179 1,782 1,356 0,695
13 3,012 2,650 2,160 1,771 1,350 0,694
14 2,977 2,624 2,145 1,761 1,345 0,692
15 2,947 2,602 2,131 1,753 1,341 0,691
16 2,921 2,583 2,120 1,746 1,337 0,690
17 2,898 2,567 2,110 1,740 1,333 0,689
18 2,878 2,552 2,101 1,734 1,330 0,688
19 2,861 2,539 2,093 1,729 1,328 0,688
20 2,845 2,528 2,086 1,725 1,325 0,687
21 2,831 2,518 2,080 1,721 1,323 0,686
22 2,819 2,508 2,074 1,717 1,321 0,686
23 2,807 2,500 2,069 1,714 1,319 0,685
24 2,797 2,492 2,064 1,711 1,318 0,685
25 2,787 2,485 2,060 1,708 1,316 0,684
26 2,779 2,479 2,056 1,706 1,315 0,684
27 2,771 2,473 2,052 1,703 1,314 0,684
28 2,763 2,467 2,048 1,701 1,313 0,683
29 2,756 2,462 2,045 1,699 1,311 0,683
capítulo 4 • 83
A distribuição t utiliza o conceito de graus de liberdade (n – 1) para encontrar
os valores de t. Nesta apostila, não iremos nos aprofundar sobre o t de Student. O
que importa saber é o valor de t para um dado nível de confiança, como mostrado
na tabela 4.11.
CONFIANÇA t
DESEJADA
90% 1,711
95% 2,064
99% 2,797
CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA
Sχ 1, 5 19,4867 a
90% 1,711 χ ∓ 1, 711 20 ∓ 1, 711 20 ∓ 0, 5133
n 25 20,5133
Sχ 1, 5 19,3808 a
95% 2,064 χ ∓ 2.064 20 ∓ 2, 064 20 ∓ 0, 6192
n 25 20,6192
Sχ 1, 5 19,1609 a
99% 2,797 χ ∓ 2.797 20 ∓ 2, 797 20 ∓ 0, 8391
n 25 20,8391
Vale salientar mais uma vez que para amostras com mais de 30 elementos
(n > 30), o valor de t pode ser aproximado por Z. Então, se a amostra for menor
que 30, necessariamente a distribuição precisa ser normal. Logo, se o desvio pa-
drão populacional for conhecido, então se usa Z, caso contrário, logo se emprega t.
capítulo 4 • 84
ATIVIDADES
01. O departamento de RH de uma empresa foi uma pesquisa sobre os salários dos seus
350 funcionários. A média salarial foi de R$ 2.350,00 e o desvio padrão populacional encon-
trado foi de R$ 1.900,00. Calcule a margem de erro e o intervalo de confiança para cada um
dos seguintes níveis confiança:
a) 90% b) 95% c) 99%
02. Uma seguradora fez uma pesquisa com os segurados de um bairro para conhecer a sua
idade média. Foram entrevistados 28 segurados e estes possuíam idade média de 32,6 anos.
Considerando um desvio padrão amostral de 4,5 anos, calcule a margem de erro e o intervalo
de confiança para cada um dos seguintes níveis confiança:
a) 90% b) 95% c) 99%
Obs.: considere uma distribuição aproximadamente normal.
03. Considere o enunciado do exercício anterior. Todavia, dessa vez se sabe que o desvio
padrão é populacional e seu valor é de 3,8 anos. Sendo assim, calcule a margem de erro e o
intervalo de confiança para cada um dos seguintes níveis confiança:
a) 90%
b) 95%
c) 99%
REFLEXÃO
Neste capítulo você aprendeu como fazer estimativas por intervalos. Foi discutida a di-
ferença entre estimativa pontual a intervalar. Na sequência, você estudou (ou relembrou)
sobre a distribuição normal. Diversos exemplos sobre o assunto foram abordados. Uma vez
conhecida a distribuição Z, foi possível fazer estimativas intervalares quando o desvio padrão
populacional é conhecido, além de calcularmos também a margem de erro. Por fim, também
verificamos como fazer estimativa por intervalo utilizando a distribuição t de Student.
capítulo 4 • 85
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia.
Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Editora Atlas, 2011.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.
capítulo 4 • 86
5
Testes de hipóteses
e intervalos de
confiança
Testes de hipóteses e intervalos de confiança
Neste capítulo vamos aprender sobre os principais testes de hipóteses, sua apli-
cabilidade para análise de regressão e trazer exemplos. Além do mais, veremos o
que correspondem os intervalos de confiança e sua aplicabilidade. Você será capaz
de aplicar os testes avaliando vários aspectos da regressão analisando, buscando
aprimorar sua análise.
OBJETIVOS
• Aprender a construção e aplicação de testes de hipóteses;
• Conhecer e saber utilização os principais testes de hipóteses para análise de regressos;
• Aprender sobre intervalo de confiança;
• Saber tomar decisões a partir dos testes.
capítulo 5 • 88
Quanto à construção das hipóteses alternativas, ela pode assumir três for-
mas possíveis: duas pela desigualdade e uma pela igualdade (ANDERSON et al.,
2011). Tomamos o mesmo exemplo das notas dos alunos, poderíamos, portanto,
construir:
capítulo 5 • 89
Vejamos a aplicação de alguns destes testes.
Tipos de erros
A partir das hipóteses, dois tipos de erro podem ser encontrados. O primeiro
erro ocorre quando se rejeita uma hipótese nula verdadeira (Erro do tipo I). O
segundo erro ocorre quando não rejeita uma hipótese nula falsa (Erro do tipo II)
(FÁVERO, 2009). O quadro a seguir sintetiza os erros:
capítulo 5 • 90
O teste unicaudal busca verificar se o valor é estatisticamente maior (menor)
que a média, diferente do teste bicaudal, no qual as duas caudas são consideradas
simultaneamente. Dessa forma, a hipótese nula é construída em termos de igual-
dade, enquanto a hipótese alternativa pela diferença.
Ho: µ = µ0
H1: µ ≠ µ0
capítulo 5 • 91
Teste para comparação de duas médias
χ − µ0
Zc =
σ/ n
Caso o valor da estatística pertencer à região crítica, isto é, se zc < –zt ou zc > zt,
rejeita-se a hipótese nula. Se –zt ≤ zc ≤ zt, não se rejeita H0, conforme a figura
a seguir:
–Zt 0 Zt
Figura 5.3 – Intervalo de confiança para variância conhecida. Anderson et al. (2011).
Adaptado.
Ho: µ ≥ 3
H1: µ < 3
capítulo 5 • 92
Foi selecionada uma amostra de 36 embalagens que apresentou uma média
de 2,92 kg e sabe que o desvio padrão da população () é 0,18 kg. Dessa forma:
2, 92 − 3
Zc = = −2, 67
0,18 / 36
σ σ
x – zc x x + zc
n n
Figura 5.4 – Intervalo de Confiança para variância conhecida. Stevenson (2011). Adaptado.
capítulo 5 • 93
Exemplo (adaptado de FÁVERO et al., 2009):
Considere uma variável aleatória com distribuição normal e variância conheci-
da de 25. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18.
Construa um intervalo de confiança de 95% (zc = 1,96) para a média populacional
σ σ
P χ − Zc µ < χ + Zc = 95
n n
5 6
P 18 − 1, 96 < µ < 18 + 1, 96 = 95%
16 16
P (15, 55 < µ < 20, 45) = 95%
χ − µ0
tc =
s2 / n
capítulo 5 • 94
bilateral com a hipótese nula afirma que o tempo médio de pintura é 690 minutos
(µ = 690). A hipótese alternativa contesta a hipótese nula (µ ≠ 690).
Ho: µ = 690
H1: µ ≠ 690
A hipótese nula será rejeitada quando o valor t calculado (tc) estiver na região
crítica, região de rejeição da hipótese nula. O ponto que determina a separação
dessa região é obtido pela Tabela t (anexo II), denominado de t tabelado (tt). Essa
tabela é composta pelo nível de significância (α) em suas colunas e o grau de liber-
dade (ϕ) em suas linhas.
Por definição, utilizaremos 0,05 de significância. A expressão número de graus
de liberdade (ϕ) representa o número total de observações da amostra (= n) menos
o número de restrições independentes (lineares) impostas a ele. Em outras pala-
vras, é o número de observações independentes dentre um total de n observações.
A regra geral é a seguinte: graus de liberdade = n – k, sendo k o número de parâ-
metros estimados (GUJARATI; PORTER, 2011).
Verificando a Tabela T, o valor tt = 3,106. A figura a seguir ilustra os dados:
capítulo 5 • 95
Como o valor pertence à região crítica (região de rejeição), o teste rejeita à hi-
pótese nula. Logo, o tempo médio de pintura de um caminhão é estatisticamente
diferente de 690 minutos.
Exemplo (Excel)
O teste t também pode ser realizado no Excel. Vejamos o exemplo a seguir de
duas amostras que foram coletadas sobre a quantidade de unidades produzidas
mensalmente em uma fábrica de eletrodomésticos.
Amostra X 107 119 104 115 128 124 121 113 106 127 111 126
Amostra Y 145 143 157 154 170 162 147 148 161 144 139 166
Neste teste vamos avaliar se existe diferença entre duas médias de dois gru-
pos diferentes:
Ho: µx = µy
H1: µx ≠ µy
capítulo 5 • 96
Seleciona-se o intervalo de cada grupo de amostra e preenche-se a hipótese de
diferença da média, conforme a seguir:
Observação 12 12
gl 22
Stat t 2,5444
capítulo 5 • 97
A partir do p-valor destacado em amarelo, observa-se que as amostras são
estatisticamente iguais a 5% de significância.
x – tc s x x + tc s
n n
Figura 5.8 – Intervalo de Confiança para variância desconhecida. Fávero et al. (2009).
Adaptado.
s s
P χ − tc < µ < χ + tc = 95%
n n
5 5
P 18 − 2,131 < µ < 18 + 2,131 = 95%
16 16
P (15, 34 < µ < 20, 66 ) = 95%
capítulo 5 • 98
Comparação de duas médias populacionais (Teste T)
O Teste t de Student também pode ser utilizado para comparação de duas mé-
dias populacionais a partir de 2 amostras aleatórias independentes. Ou seja, busca-
se testar se as médias de duas amostras aleatórias (X1, ..., Xn, Y1, ..., Yn) extraídas
da mesma população são ou não significativamente diferentes. Considera-se que
as amostras têm distribuição normal com variâncias desconhecidas, porém iguais:
tc =
( χ − y ) − (µ χ − µ y )
1 1
S = +
nχ ny
Em que:
S =
(n − 1)S · + (n − 1)S ·
χ χ
2
y y
2
nχ + ny − 2
tc =
( χ − y ) − (µ χ − µ y )
s χ· 2 sy· 2
+
nχ ny
capítulo 5 • 99
Fixando a região crítica com a tabela da distribuição t de Student a partir do
nível de significância definido, a conclusão é feita de forma similar ao teste ante-
rior: se o valor da estatística pertencer à região crítica, isto é, se tc < –tt ou tc > tt,
rejeita-se a hipótese nula. Se –tt ≤ tc ≤ tt, não se rejeita H0
Como o valor da estatística pertence à região crítica, isto é, tt < –1,734, rejei-
ta-se a hipótese nula, logo concluímos que as médias populacionais são diferentes.
capítulo 5 • 100
Teste t em Análise de Regressão
Ho: βi =0
H1: βi ≠ 0
β 1
T=
( )
EP β1
Em que:
EP: erro padrão do parâmetro β estimado
Exemplo
Considere os seguintes dados anuais de uma empresa de alimentos:
VOLUME DE
ANO DIVIDENDOS P&D VENDAS
1 1200 40 300
2 1500 80 400
3 1900 90 200
capítulo 5 • 101
VOLUME DE
ANO DIVIDENDOS P&D VENDAS
4 1300 100 300
5 1100 60 200
6 800 30 200
7 835 30 200
8 980 40 350
9 1150 70 400
10 1300 70 400
ERRO
COEFICIENTES STAT T VALOR-P
PADRÃO
Interseção 652,0968 274,8406 2,3726 0,0494
β 1 10, 6815
t P& D = = = 3, 4933
( )
EP β1
3, 0577
−0, 3294
t VOLUME DE VENDAS = = 0, 3839
0, 8581
capítulo 5 • 102
Dado que são 10 observações com 7 graus de liberdade (n-k) e o nível de
significância estabelecido em 5%, o valor da estatística tabelado é igual a 2,8412
(anexo II). Como o valor da estatística t para a variável volume de vendas está
no intervalo de não rejeição, não se rejeita a hipótese nula de que seu coeficiente
é estatisticamente igual a zero. Dessa forma, a variável volume de vendas não é
estatisticamente significante para explicar as variações na distribuição de lucro e
poderia ser retirada do modelo.
capítulo 5 • 103
Rejeitar H0 Não Rejeitar H0 Rejeitar H0
α α
– = 0,025 = 0,025
2 2
capítulo 5 • 104
O valor do teste é calculado, conforme a fórmula a seguir:
R2
FC (K , n − K ) =
Vari�ncia Explicada
=
(K − 1)
Vari�ncia nªo Explicada 1 − R 2
n−K
Em que:
R² = coeficiente de determinação
K= número de parâmetros do modelo
N = número de observações.
Área de 5%
Área de 1%
F
0 3,14 5,26
Figura 5.12 – Teste F (Região Crítica – Teste Unilateral à direita). (GUJARATI; PORTER,
2011).
capítulo 5 • 105
Exemplo
Retomemos ao exemplo utilizado na seção 5.5. Vejamos na tabela a seguir,
retirada do modelo de regressão realizado no Excel:
F DE
GL SQ MQ F SIGNIFICAÇÃO
Regressão 2 614465,3 307232,7 6,339601 0,026842124
Resíduo 7 339237,2 48462,46
Total 9 953702,5
ATIVIDADES
01. Julgue as afirmativas a seguir em falso (F) e verdadeiro (V).
a) O nível de significância corresponde à probabilidade de cometer o erro do tipo I, de se
rejeitar uma hipótese nula verdadeira.
b) O intervalo de confiança só pode ser determinado caso a variância da população
seja conhecida.
c) A hipótese nula é a hipótese principal a ser testada pelos testes de hipóteses formula-
dos sempre pela diferença dos parâmetros da população.
d) Os testes paramétricos são os que apresentam premissas (pressupostos) sobre a distri-
buição de parâmetros da população.
02. Deseja-se estimar a média de idade de uma população com distribuição normal e va-
riância 2 = 100. Uma amostra de 30 elementos foi retirada dessa população e apresentou
média igual a 32. Construa um intervalo de confiança de 95% para a média populacional.
capítulo 5 • 106
03. Aplique o teste adequado para comparar as duas médias populacionais a partir de
duas amostras aleatórias independentes listadas nas tabelas a seguir (cada amostra em
uma linha).
Amostra X 30 42 27 38 51 47 44 36 29 50 34 49
Amostra Y 68 66 80 77 93 85 70 71 84 67 62 89
04. Uma pesquisa foi realizada em uma empresa, para verificar se o salário era relacionado
com os anos de experiência (Exp) e a pontuação no teste de aptidão (Nota). Para tanto,
foram coletadas 20 observações. Considere os seguintes valores extraídos da regressão
(tabela a seguir) e calcule e interprete a estatística t, considerando 5% de significância.
05. A seguir estão apresentados os dados de uma empresa durante 15 anos. Os gestores
dessa empresa buscam saber de a Liquidez Geral (LG) e o Endividamento explicam as varia-
ções no Retorno sobre o Patrimônio Líquido (ROE). Com base nos dados a seguir, analise se
as variáveis são significativas isoladamente (Teste T) e conjuntamente (Teste F).
capítulo 5 • 107
OBSERVAÇÃO ROE LG ENDIVIDAMENTO
11 0,30 0,70 0,46
REFLEXÃO
Neste capítulo vimos sobre os testes de hipóteses, intervalo de confiança e sua aplicação
em regressões. Alguns outros testes de avaliação de regressão podem ser realizados com
a ajuda de softwares estatísticos tais como Stata, SPSS, E, Eviews, dentre outros. Os testes
variam de acordo com o modelo utilizado, seja regressão linear ou múltipla, séries temporais,
corte transversal ou dados em painéis e a forma de estimação do modelo, seja por MQO
(Mínimo Quadrados Ordinários), MMG (Método dos Momentos Generalizados) ou MMV (Mé-
todo da Máxima Verossimilhança). Este material busca dar uma visão geral sobre os métodos
quantitativos. Mas é importante a noção que a escolha do método deve-se adequar ao que se
procura investigar, buscando os testes específicos para cada método adotado.
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.
GUJARATI, D. N.; PORTER, D. C. Econometria Básica. 5. ed. Porto Alegre: AMGH Editora LTDA,
2011.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.
capítulo 5 • 108
GABARITO
Capítulo 1
01.
a) –0,9907
b) –20.906,25 (populacional), –27.875,00 (amostral)
c) Correlação negativa praticamente perfeita. O valor encontrado permite concluir que
há relação entre a renda e a quantidade de sinistros. No caso, como o sinal do
coeficiente é negativo, conclui-se que quanto maior a renda, menor a quantidade
de sinistros.
02. Covariância mede como duas variáveis movimentam-se ao mesmo tempo em relação a
seus valores médios, isto é, como os seus valores co-variam, se relacionam.
04.
Correlação: 0,4484
Covariância: 0,0344 (populacional), 0,0365 (amostral)
capítulo 5 • 109
A correlação é positiva (0,4484), porém fraca. Sempre quando uma ação subir, a outra
tende a acompanhá-la, ou seja, subir também. E, quando uma ação cai, a outra também tende
a cair.
05.
Capítulo 2
01.
capítulo 5 • 110
RESTAURANTE χi χi χi–χ Yi–Y (χI–χ)(Yi–Y) (Xi–X)
8 20 169 6 39 234 36
9 22 149 8 19 152 64
10 26 202 12 72 864 144
Totais ∑ 140 1.300 - - 2.840 568
Média x y 14 130 - - - -
Cálculo de b1:
b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ)
2, 840
b1 =
568
b1 = 5
Cálculo de b0:
b0 = y − b1 x
b0 = 130 − 5x14
b0 = 60
=b +b χ
yi 0 i i
y i = 60 + 5χ
02.
a) variável dependente é a variável que será prevista no modelo. Ela também é conhe-
cida por variável explicada.
capítulo 5 • 111
b) variável independente é a variável (ou variáveis) usada para prever o valor da variá-
vel dependente. Ela também é conhecida por variável explicativa.
Cálculo de b1:
b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ)
2
−84, 33
b1 =
106, 93
b1 = 0, 789
capítulo 5 • 112
Cálculo de b0:
b0 = y − b1 χ
b0 = 6, 83 − −0, 789 χ 4, 07
b0 = 10, 04
y i = b0 + bi χi
y i = 10, 04 − 0, 789χ
Capítulo 3
01.
a) Correlações:
LC e EG: –0,6197 LC e ROA: 0,071 EG e ROA: –0,054
As correlações mostram existir correlação apenas entre LC e EG. Uma correlação nega-
tiva forte. Logo, há indícios de que há multicolinearidade entre tais variáveis.
b) Neste caso, temos três variáveis explicativas (Liquidez Corrente – LC, Endividamen-
to Geral – EG e Retorno sobre o Ativo – ROA). Você precisa selecionar todas elas!
capítulo 5 • 113
c) O R² foi de 0,4905. Contudo, quando se verifica o R² ajustado, o poder explicativo
se reduz substancialmente, 0,2358.
d) O Teste F (0,2266) foi maior que 0,01. O modelo não é significativo!
e) γ = 0,036+0,029χ1 – 0,023χ2 + 0,9916χ3
Capítulo 4
01. O primeiro passo para a resolução do exercício é descobrir qual tipo de distribuição ele
pertence. Como n > 30 (350), então utilizamos a distribuição normal. Sabe-se que o desvio
padrão populacional também é conhecido. Dessa forma:
CONFIANÇA
Z FÓRMULA CÁLCULO E INTERVALO
DESEJADA
σχ 1900
90% 1,65 χ ∓ 1, 65 2.350 ∓ 1, 65 2.350 ∓ 167, 57 182,43 a 2.517,57
n 350
σχ 1900
95% 1,96 χ ∓ 1, 96 2.350 ∓ 1, 96
350
2.350 ∓ 199, 05 2.150,94 a 2.549,06
n
σχ 1900
99% 2,58 χ ∓ 2, 58 2.350 ∓ 2, 58
350
2.350 ∓ 262, 03 2.087,98 a 2.612,02
n
02. Como n < 30, distribuição aproximadamente normal e é conhecido o desvio padrão
amostral (s), então devemos utilizar a distribuição t de Student.
CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA
Sχ 4, 5
90% 1,711 χ ∓ 1, 711 32, 6 ∓ 1, 711
28
32, 6 ∓ 1, 455 31,14 a 34,06
n
Sχ 4, 5
95% 2,064 χ ∓ 2.064 32, 6 ∓ 2, 064
28
32, 6 ∓ 1, 755 30,84 a 34,36
n
capítulo 5 • 114
CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA
Sχ 4, 5
99% 2,797 χ ∓ 2.797 32, 6 ∓ 2, 797
28
32, 6 ∓ 2, 379 30,22 a 34,98
n
CONFIANÇA
Z FÓRMULA CÁLCULO E INTERVALO
DESEJADA
σχ 3, 8
90% 1,65 χ ∓ 1, 65 32, 6 ∓ 1, 65
28
32, 6 ∓ 1,18 31,42 a 33,78
n
σχ 3, 8
95% 1,96 χ ∓ 1, 96 32, 6 ∓ 1, 96
28
32, 6 ∓ 1, 41 31,19 a 34,01
n
σχ 3, 8
99% 2,58 χ ∓ 2, 58 32, 6 ∓ 2, 58
28
32, 6 ∓ 1, 85 30,75 a 34,45
n
Capítulo 5
01. . V, F, F, V.
03. Assim o p-valor é igual 0,5000 – 0,4962 = 0,0038. Esse valor indica uma pequena
probabilidade de se obter uma média amostral de 2,92 (e uma estatística z de –2,67). Uma
vez que essa probabilidade é melhor que o nível de significância (0,05), rejeita-se H0. Logo
a quantidade média das embalagens não é maior/igual a 3 kg.
capítulo 5 • 115
04.
Interseção 0,515579
Exp 7,070173
Nota 3,243336
06.
capítulo 5 • 116
capítulo 5 • 117
capítulo 5 • 118
capítulo 5 • 119
capítulo 5 • 120