Beruflich Dokumente
Kultur Dokumente
Ao conjunto das variáveis consideradas, combinando com o modo como elas se relacionam,
dá-se o nome de “modelo matemático” do fenômeno. Quanto a qualidade de um dado
modelo, duas observações devem ser feitas: uma, é que ela é diretamente proporcional à
significância das variáveis para o fenômeno considerado; outra, é que, na prática, modelos
preditos são impossíveis simplesmente porque não há como identificar, e muito menos
controlar, todas as variáveis envolvidas nos fenômenos em estudo (exceção feita a alguns
testes realizados em condições muito especiais em laboratório).
Portanto, os resultados fornecidos pelos modelos são sempre, bem ou mal, aproximados. Isso
faz com que os modelos precisem ser avaliados antes de aplicados. Para medir a qualidade de
um dado modelo matemático podemos aplicá-lo a situações reais cujos resultados reais com
os teóricos, obtivermos valores razoavelmente próximos, o modelo é bom. No entanto, se
1
constatarmos grandes disparidades entre eles, deveremos reavaliar tanto as variáveis
consideradas quanto as relações entre elas. A regressão linear é chamada "linear" porque se
considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os
modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de
regressão não-linear.
Principais Aplicações
Procedimento Matemático
Em termos matemáticos, e para funções simples (uma variável dependente explicada
por uma única independente), o processo consiste nas seguintes etapas:
3
em x Veja a figura 2. O processo de estimação do modelo deve ser feito de forma a diminuir
ao máximo possível os valores dos erros encontrados.
Figura1
Observe que os valores de x estão diretamente associados aos valores de y que são
inteiramente explicados pelos valores de x. Portanto, quando x = 3 temos y=6
Já o modelo estatístico costuma envolver a determinação do melhor modelo exato ou
preciso. Se aceita que, uma relação do tipo y= a + bx, possa existir outras variáveis que
interfiram nos valores de Y. O modelo matemático pode ser representado por y = a + bx + e,
onde e consiste em um erro associado ao processo de terminação dos valores de y como base
em x Veja a figura 2. O processo de estimação do modelo deve ser feito de forma a diminuir
ao máximo possível os valores dos erros encontrados.
4
Figura 2
Regressão Linear Simples
O termo regressão é usado para designar a expressão de uma variável dependente (Y)
em função de outra (X), considerada independente. Diz-se regressão de Y sobre X. Se a relação
funcional entre elas é expressa por uma equação de 1º grau, cuja representação geométrica é
uma linha reta, a regressão é dita linear.
Postulada a existência de uma relação linear entre duas variáveis, pode-se representar
aquele conjunto de pontos pela equação da reta: yi = a + bxi, que expressa o valor de Y em
função de X.
Y é a variável dependente, ou resposta
X é a variável independente, ou explanatória
É importante ressaltar que a análise simples de regressão linear apenas se preocupa em
determinar a forma numérica de associação entre x e Y. Não estabelece nenhuma relação de
causa.
No processo de determinação da equação de regressão linear simples, objetiva-se elaborar
a equação geral da reta, como o modelo y = ax + b. Assim, devem ser determinadas as duas
constantes.
No processo de valores das constantes a e b, costuma-se aplicar o método dos mínimos
quadrados, desenvolvidos originalmente por Legendre e aperfeiçoados pelas idéias de Galton
e Pearson. O método permite obter o valor das duas constantes a e b, determinando a reta
estimada, ou equação de regressão. Não será desenvolvida aqui a dedução das fórmulas, no
entanto ao aplicarmos o método dos mínimos quadrados teremos três características
importantes relacionadas como a reta obtida:
5
a) É mínima a soma dos quadrados dos desvios para a reta de regressão, menor que a de
qualquer outra reta de ajuste;
b) É igual a zero a soma algébrica dos desvios verticais entre o valor da ordenada de dada
ponto da amostra analisada e correspondente ordenada da reta estimada;
c) A reta estimada passa pelo ponto de coordenadas (x,y), que correspondem à medida
dos pares da amostra.
A reta estimada de regressão é y = a + bx, onde:
Y= valor calculado na reta de regressão para os valores de x
a = ordenada do intercepto da reta no eixo y
b= coeficiente angular da reta de regressão
O método dos mínimos quadrados determina que a e b devem ser obtidos de modo que:
(∑ X )(∑ Y )
∑ XY − n ∑X ∑Y
b= e a = Y − b X onde X = eY=
(∑ X )2 n n
∑X 2
−
n
Há algumas hipóteses a serem consideradas na aplicação do método dos mínimos
quadrados:
a) Para cada valor de x haverá possíveis valores para y
b) A variável y é aleatória
c) Para cada valor de x há uma distribuição condicional de y que é normal
d) S desvios-padrões de todas as distribuições condicionais são iguais
Para ilustrar a aplicação do método dos mínimos quadrados, observe o exemplo de
uma empresa que analisou a relação entre os gastos como publicidade e vendas nos
últimos anos. Os dados coletados (todos em mil reais) estão apresentados na tabela
seguinte.
6
Representando em gráfico a relação entre x e y, formamos o diagrama de dispersão,
exibida na figura 3, nota-se a inexistência de uma relação linear exata. A disposição
dos pontos, porém sugere o fato de se aceitar a construção de uma estimativa linear,
que minimize os erros dos ajustes.
Para ajustar uma reta aos dois pontos, considere n = 5 já que o número de par analisados
foi igual a 5 e aplicando a fórmulas:
(∑ 41)(∑ 96)
∑ 981 − 5 41 96
b= = 2.0884 X = = 8.2 Y= = 19.2
(∑ 41)2 5 5
∑ 429 − 5
a = 19,2 – (2,0884)(8,2) = 2,751, portanto a equação de regressão será:
7
y= 2.0751 + 2.0884x
Com base nos valores obtidos para a e b, é possível determinar que a reta que melhor ajusta
os pontos é do tipo y= 2.0751 + 2.0884x. A reta de ajuste pode ser vista no diagrama de
dispersão abaixo, são os pontos ajustados para os novos valores de y cuja notação é ,
portanto temos que é o y ajustado:
X y
Coeficiente de determinação
(∑ X)
2
b ∑ X −
2 2
n
R2 = Onde 0 ≤ R 2 ≤ 1
(∑ Y )2
∑Y 2 − n
Quanto mais próximo o coeficiente de determinação estiver da unidade melhor será o ajuste.
Assim para o nosso exemplo temos:
(41) 2
2,0884 2 429 −
5
R2 = 2
= 0.93 como o coeficiente está próximo da unidade temos
2278 −
(96)
5
um bom ajuste, ou seja, os gastos como publicidade influenciam as vendas
8
Correlação
(∑ X )(∑ Y )
∑ XY − n
rxy = onde − 1 ≤ rxy ≤ 1
( X )
∑ X − ∑
2
(∑ Y ) 2
2
n
∑ Y − 2
n
. quanto mais próximo r estiver de + 1, mais próximo estarão os pontos de ajuste integral de
uma reta crescente;
. quanto mais próximo r estiver de -1, mais próximos estarão os pontos de ajuste integral a
uma reta decrescente;
. se r = 0, não existe nenhuma relação numérica linear para os pares de valores da amostra
analisada.
Correlação positiva
9
Quando o valor do coeficiente de correlação for r = 1
Correlação negativa
Correlação nula
10
Utilizando o nosso exemplo vamos calcular o coeficiente de correlação.
(41)(96)
981 −
rxy = 5 = 0,96
(41)
2
(96) 2
429 − 5 2278 − 5
Portanto temos uma correlação positiva forte, já que = 0,96
O teste t pode ser usado para testar a hipótese de que o coeficiente de correlação entre duas
variáveis é igual a zero, contra a hipótese de que é diferente de zero. Como foi visto
anteriormente o coeficiente de correlação varia entre -1 e+1. Se o coeficiente de correlação
for igual a zero, não existe correlação linear entre elas. Mas e se o coeficiente calculado for
= 0,20? Não se pode julgar o valor desse coeficiente sem saber o tamanho da amostra.
Quando a amostra é muito pequena, mesmo coeficiente de correlação como valores altos têm
pouco significado. Para aplicar teste t será utilizado a seguinte formula;
O t encontrado é o t calculado
= 8,313
Já o t tabelado para uma significância de 0,05 como n-2 graus de liberdade, ou seja, 5-
2=3 observado na tabela da distribuição t de Student é igual 3,18 e, portanto nos leva a
considerar que existe um alto grau de correlação, pois t calculado é maior que t
tabelado.
Para buscar na tabela divida o nível de significância por 2 , ou seja, 0,05/2 = 0,025 l e
faça a interseção como o grau de liberdade n-2= 3 , cujo valor encontrado será 3,18.
11
Análise no software SISVAR
Como podemos observar os valores calculados conferem com os analisados pelo SISVAR
12
a = 2.0751 b = 2.0883 R2 = 0.93 e rxy = 0,96
13
14
Exercícios de Correlação e Regressão Linear
Idade (X1) 1 2 3 4 5 6 7 8 9 10
Peso (Y) 60 100 120 150 200 210 310 320 330 360
Pede-se:
2) Sorteamos 5 pessoas adultas, num centro urbano e a cada uma fizemos as seguintes
perguntas:
a) Complete a tabela.
b) Determine os parâmetros a e b da reta de regressão.
c) Calcule o coeficiente de determinação
11. Uma empresa recolheu informação relativa à relação existente entre as notas no teste
de
admissão (X) e uma certa medida de produtividade (Y).
X Y X*Y X2 Y2
8 21
10 29
14 30
16 43
18 45
20 48
a)Complete a tabela.
b) Determine os parâmetros a e b da reta de regressão.
16
c) Calcule o coeficiente de determinação
12) Suponha que os dados a seguir tenham sido obtidos de 10 pacientes que sofrem de
enfisema. Esses dados registram o número de anos que cada paciente fumou e tragou
(X), versus um diagnóstico médico subjetivo sobre o grau em que os pulmões dos
pacientes foram afetados (Y).
X 20 15 10 10 20 25 25 10 10 20
Y 55 60 50 30 70 30 60 60 70 60
14. Calcule o coeficiente de correlação relativo à tabela abaixo que apresenta as notas
de Cálculo e Estatística de catorze alunos (n=14) e:
Cálculo (xi) 8 7 4 9 6 4 7 6 5 8 2 7 3 6
Estatística 7 9 4 7 5 6 9 6 8 9 4 6 2 7
(yi)
15. A tabela abaixo apresenta os dados referentes à variação do preço de venda do seu
produto (yi) em função do preço de custo (xi):
xi 40 50 70 75 80 95 110 120
yi 130 140 145 160 160 170 180 200
17
c) trace a reta no diagrama de dispersão;
d) determine x quando y = 165 e x quando y = 190.
16). A tabela abaixo apresenta valores que mostram como o comprimento de uma barra
de aço varia conforme a temperatura:
Temperat. (graus C) 10 15 20 25 30
Comprim/o (mm) 1003 1005 1010 1011 1014
18
19) A tabela a seguir relaciona os pesos (em centenas de libras) e as taxas de consumo
de combustível em rodovia (em milhas/galão) para uma amostra de carros de passeio
novos.
Peso x 29 35 28 44 25 34 30 33 28 24
Combustível y 31 27 29 25 31 29 28 28 28 33
a) Construa o diagrama de dispersão;
b) Ache o valor do coeficiente de correlação linear;
c) Determine a equação de regressão;
d) Se um carro pesa de 4200 libras, qual será o consumo de combustível?
e) Com base nos resultados, espera-se um maior consumo de combustível se adquirir
um carro mais pesado?
20) A tabela a seguir dá os pesos (em libras) de restos de comida descartados por uma
amostra de residências, juntamente com o tamanho destas.
21) Fez-se um estudo para investigar a relação da idade (em anos) e a CAS
(Concentração de Álcool no Sangue) medida quando os motoristas intoxicados
condenados foram presos pela primeira vez.
Idade 17,2 43,5 30,7 53,1 37,2 21,0 27,6 46,3
CAS 0,19 0,20 0,26 0,16 0,24 0,20 0,18 0,23
a) Construa o diagrama de dispersão;
b) Ache o valor do coeficiente de correlação linear;
c) Determine a equação de regressão;
d) Se uma pessoa de 21 anos de idade foi condenada e presa por dirigir embriagada,
qual será o nível de álcool no seu sangue?
e) Com base nos resultados, parece haver relação do nível de CAS e a idade da pessoa
testada?
22) A tabela a seguir dá o número (em milhares) de armas automáticas registradas,
juntamente com a taxa de criminalidade (em crimes por100.000), para estados
selecionados aleatoriamente.
Armas automáticas 11,6 8,3 3,6 0,6 6,9 2,5 2,4 2,6
Taxa de criminalidade 13,1 10,6 10,1 4,4 11,5 6,6 3,6 5,3
a) Construa o diagrama de dispersão;
b) Ache o valor do coeficiente de correlação linear; faça o teste t
c) Determine a equação de regressão;
d) Em um estado com 10.000 armas automáticas registradas, qual será a taxa de
criminalidade?
e) Com base nos resultados, os crimes com armas de fogo parecem estar relacionados
com as armas automáticas?
19
Bibliografia
Obras Referenciadas
20