Sie sind auf Seite 1von 9

Regressão Linear Simples

1. Ajustamento da Linha de Regressão


Quando trabalhamos com uma relação entre duas ou mais variáveis medidas ao nível de
intervalo, a representação gráfica desta relação toma a forma de um eixo de coordenadas cartesianas
(ortogonais). Por exemplo, sendo x e y duas destas variáveis, teríamos:

onde cada ponto representa o valor de x e de y para uma dada observação. Esta representação
gráfica é chamada de “diagrama de dispersão”. Suponhamos agora o seguinte exemplo: temos duas
variáveis cuja relação queremos estudar – sejam elas, digamos, “educação do indivíduo” (medida em
“anos de escolaridade completa”) e “rendimentos do indivíduo” (medida em “Reais por dia de
trabalho”). Os valores observados foram

individuo i
1 2 3 4 5 6 7 8 9 10
X: Educação 10 3 2 11 15 7 9 13 8 12
Y: Rendimentos 20 6 4 22 30 14 18 26 16 24

Como todos os valores de x e y são positivos, a representação gráfica pode ser limitada ao
quadrante superior à direita do eixo cartesiano.

1
Se imaginarmos entre os pontos observados uma infinidade de outros pontos com a mesma
tendência (implicando na possibilidade de uma infinidade de valores entre os pontos assinalados
tanto em X como em Y), teremos no gráfico uma linha que sumariza a relação entre as duas
variáveis. Esta linha é chamada de “regressão linear de Y a partir de X”, expressando a forma da
relação entre X e Y. No exemplo acima, obviamente a equação de regressão é dada por

A variável à esquerda da igualdade é dita “dependente” e a variável à direita é dita


“independente”. Como temos apenas uma variável independente a equação obtida acima é chamada
de “regressão linear simples”, por oposição à regressão linear múltipla, a qual envolve duas ou mais
variáveis independentes.
Na equação de regressão acima, o valor de X é multiplicado pela constante 2, normalmente
notada pela letra β. Assim nessa equação β=2, o β representando substantivamente “a quantidade de
mudança em Y devido a uma mudança unitária em X”. No nosso exemplo, o acréscimo de uma
unidade em X está associado a um acréscimo de 2 unidades em Y. Ou seja, em termos do conteúdo
das variáveis propostas, cada ano adicional de escolaridade obtida implica num aumento de
rendimentos na ordem de 2 reais por dia de trabalho.
Nada nos impede porém – exceto por considerações teórico-causais- de considerar X a
variável dependente e Y a variável independente. Neste caso

E aqui a equação da regressão é, obviamente

Freqüentemente a linha de regressão não passa pela origem do eixo cartesiano, uma vez o
valor zero da variável independente pode não corresponder a zero na variável dependente. Por
exemplo, no caso de educação e rendimentos, indivíduos analfabetos (isto é, X=0) tem rendimentos
diferentes de zero (i.e., ). Assim, a linha de regressão entre X e Y neste caso poderia ter a
forma

2
A equação de regressão desta linha é , onde aparece um novo elemento na
equação: é a chamada “constante de regressão” e é notada como α, representando a quantidade da
variável dependente para o valor zero da variável independente (neste caso, ).
Generalizando, podemos dizer que a equação da linha de regressão tem a forma da equação da linha
reta (daí se chamar “regressão linear”).

Até agora vimos casos em que aumentos em X correspondiam a aumentos em Y. Estes casos
indicam que X e Y são positivamente relacionados e, evidentemente
Mas no caso

Com equação
X e Y são negativamente relacionados uma
vez que um aumento unitário em X implica num
decréscimo em Y, sendo naturalmente

Obviamente, se X e Y não são relacionados, aumentos em X não alteram Y e, portanto,

3
Evidentemente, nos casos empíricos raríssimamente encontramos situações em que a linha de
regressão se ajusta perfeitamente a todos os pontos observados.
Uma situação mais normal seria, por exemplo, termos

Ainda assim, podemos pensar em ajustar uma linha reta a estes dados (conforme expresso
graficamente acima), se estivermos dispostos a interpretar as diferenças (desvios) em relação à esta
reta como perturbações aleatórias substantivamente irrelevantes. Apenas agora, para uma observação
i qualquer o valor de Y “predito” pela equação de regressão não mais coincide necessariamente com
o valor real observado para naquele ponto. A essa diferença entre o valor observado e o valor
“predito” pela equação de regressão denominaremos “erro” (de predição) e notaremos .
Assim podemos expressar a relação entre X e Y para a observação i pela equação:

Cabe agora perguntar “como calcular α e β quando nossas observações possuem um termo de erro”?

O Critério dos Mínimos Quadrados

Expressemos o valor “predito” pela equação de regressão como

4
e o valor observado como

O método para se estimar α e β baseia-se no fato de que o erro cometido ao se usar a equação de
regressão para se estimar a observação é

O critério dos mínimos quadrados prioriza que a equação de regressão (ou seja, os valores de α e de
β) deve ser tal que este erro seja o mínimo possível. Por razões semelhantes à que nos leva a usar
desvios quadráticos no caso do cálculo de variância, o método dos mínimos quadráticos propõe que
se tornem mínimos os erros quadráticos. Ou seja, minimiza-se a soma dos erros quadráticos

obtendo-se os valores de α e β que tornam esta soma mínima. Observe-se que a soma a ser
minimizada é

A minimização de S envolve algumas operações de cálculo, especificamente a equação das


derivadas parciais de S em relação a α e a β (parâmetros que queremos encontrar) a zero. Isto é,
envolve fazer

ou seja,

ou seja,

Dividindo as equações acima por 2 e tomando somatório, obtemos o seguinte sistema de equações

5
Do que resulta

Resolvendo o sistema pelo método de Cramer obtemos:

Ora, sabemos que, por definição da média, e . Então podemos escrever:

Para o nosso exemplo, podemos calcular

Observação
1 5 20 25 100 400
2 1 5 1 5 25
3 0 5 0 0 25
4 7 40 49 280 1600
5 8 30 64 240 900
6 9 35 81 315 1225
7 4 5 16 20 25
8 3 5 9 15 25
9 5 15 25 75 225
10 8 40 64 320 1600
∑ 50 200 334 1370 6050

6
Logo

Erro Padrão de Estimativa

Nos casos do tipo visto, em que a linha de regressão não se ajusta perfeitamente aos dados,
existe um erro de estimativa associado à regressão como um todo. Paralelamente ao que é feito no
caso do desvio-padrão em relação à média, no caso em que temos apenas uma variável, vamos
calcular um “desvio médio quadrático” em relação à linha de regressão.
Este é chamado “erro padrão de estimativa”, definido como

Nota: A divisão por (N-2) ao invés de N é uma correção para a amostra, tal como é o caso da divisão
por (N-1) na variância.

Computacionalmente, o erro de estimativa é

Para o nosso exemplo, o erro de estimativa é

e o erro padrão de estimativa:

Correlação

É importante, no entanto, possuirmos uma medida do grau ou intensidade da associação entre


as variáveis, indicativo de quão bem o modelo se ajusta. Em outras palavras, precisão saber o poder
explicativo ou preditivo de X em relação a Y.

7
Pelo visto acima, o erro de estimativa corresponde à idéia de variância da distribuição
condicional de Y dado X, ou seja, à variação ou erro médio de Y dado um valor determinado qualquer
de X.
Assim, podemos pensar numa medida que consiste na comparação deste “erro total dado X”
(erro que subsiste após a introdução de X na análise de Y) com o “erro total de Y com X
desconhecido”, isto é, a variância de Y:

Chamado “Coeficiente de Alienação”

Entenda-se este coeficiente como a proporção de variação total de Y que permanece “não
explicada” pelo conhecimento de X. Ou seja, a proporção das diferenças de Y que X não consegue
explicar.
Para obtermos a parcela da variância de Y de fato explicada por X, chamado de “coeficiente
de determinação”, subtraímos de 1:

Extraindo a raiz quadrada do coeficiente de determinação, obtemos o chamado “coeficiente de


correlação” (de Pearson), que nos dá o grau de associação entre X e Y.

com por definição

1. Observe-se que a base interpretativa da correlação não reside no coeficiente em si mas em seu quadrado: o
“coeficiente de determinação”. É este coeficiente que nos dá a medida facilmente interpretável do poder
explicativo de X sobre Y: a proporção da variância de Y explicada por X.
2. Outro ponto importantíssimo é quando analisamos uma correlação estamos implicitamente
assumindo uma relação (modelo) linear entre as variáveis.

No nosso exemplo envolvendo e rendimentos, obtivemos


A variância de Y é dada por ou seja

8
Assim, implicando que o coeficiente de determinação é
, ou seja, X explica 79,5% da variação de Y.

A correlação entre X e Y é, portanto, .

Nota: Para o cálculo direto do coeficiente de correlação pode-se usar a expressão

Das könnte Ihnen auch gefallen