Beruflich Dokumente
Kultur Dokumente
- Na janela Frequencies, selecione todas as variáveis desejadas, para que apareçam no campo
“Variable(s):”
- Clique em “Statistics...” e na nova janela selecione as medidas que deseja calcular, depois clique em
“Continue”
- Clique em “Charts...” selecione “Histograms:” e “With normal curve”, depois clique em “Continue” o
Clique em “OK”
- Para explorar os dados através de agrupamentos clique em Analyze -> Descriptive Statistics ->
Explore...
2. TESTE DE NORMALIDADE
É necessário analisar se uma variável tem ou não distribuição normal. Assim, selecionam-se os comandos
de acordo com a imagem a seguir.
Em seguida é aberta uma janela, onde se escolhe a variável cuja distribuição pretende-se analisar,
conforme imagem a seguir:
3
Escolha a opção Plots, em Boxplots – dai escolha Factor levels together; em Descriptive escolha Stem-
and-leaf e Histogram. Escolha, ainda, Normality plots with tests e Continue.
Colocar em Ok para obter o output da análise.
4
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
ValorAPT
,155 81 ,000 ,855 81 ,000
O
AREA ,107 81 ,023 ,957 81 ,008
IDADE ,123 81 ,004 ,928 81 ,000
ENERGIA ,186 81 ,000 ,943 81 ,001
a. Lilliefors Significance Correction
O comando Explore produz ainda uma sequência de gráficos, como o histograma (equivale à
representação gráfica de uma tabela de freqüências) e o boxplot (caixa de bigodes).
Quanto ao boxplot: é a representação em forma de gráficos dos quartis da distribuição; apresenta de forma
compacta, diversas informações sobre um conjunto de dados.
A caixa é formada pela mediana (linha central) e pelos quartis inferior e superior (percentis 25 e 75).
A mediana dá uma estimativa de tendência central; a altura das caixas (percentil 75 percentil 25 é a
amplitude interquartil (interquatil e range) e estima a variabilidade dos dados.
A presença ou não de simetria é dada pela posição da mediana (central ou mais próxima dos quartis).
As linhas verticais que saem da caixa são conhecidas como whiskers (bigodes de gato em inglês).
Nas séries assimétricas, os dados máximos e mínimos distanciam-se das hinges de Tukey (percentil 75-
percentil 25), sendo os seus valores assinalados separadamente no boxplot com um pequeno círculo
(outliers) e os valores que se distanciam substancialmente são considerados extremos (extremes) e são
assinalados com um asterisco (Figura a seguir).
A regra que adotamos para identificação dos valores atípicos se baseia na amplitude interquartil AIQ,
definida como a distância entre o primeiro e o terceiro quartis:
AIQ = Q3 – Q1
Note que AIQ é o comprimento da caixa. Quaisquer valores abaixo de Q1 ou acima de Q3 por mais de
1,5×AIQ serão considerados valores atípicos e terão tratamento especial no boxplot.
Assim, serão valores atípicos os valores x tais que x < Q1 – 1,5×AIQ ou x > Q3 + 1,5×AIQ Os valores
que se encontram entre (Q1 – 1,5×AIQ) e (Q3 + 1,5×AIQ) são chamados valores adjacentes e sua
representação se completa (lembre-se de que já representamos os 50% centrais com a caixa!) traçando
uma linha que vai de Q1 até o menor valor adjacente (isto é, o valor mínimo dos dados, excluídos os
valores atípicos) e outra que vai de Q3 até o maior valor adjacente (isto é, o valor máximo dos dados,
excluídos os valores atípicos).
Referências
SHAPIRO, S.S.; WILK, M.B. An analysis of variance test for normality (complete samples). Biometrika,
v.52, p.591-611, 1965.
Fávero, L.P.; Belfiore, P.; Silva, F.L. da; Chan, B.L. Análise de dados: modelagem multivariada para
tomada de decisões. Rio de Janeiro: Elsevier, 2009. 646p.
2. MULTICOLINEARIDADE
O tema multicolinearidade, batizado por Frish (1934) designa a existência de uma “relação perfeita” ou
“exata” entre algumas ou todas as variáveis explicativas (independentes) do modelo de regressão.
- Por que o modelo de regressão linear clássico pressupõe a ausência de multicolinearidade entre as
variáveis independentes os x’s?
Se a multicolinearidade for perfeita, os coeficientes da regressão das variáveis x’s são indeterminados e
seus erros-padrão infinitos.
Se a multicolinearidade for menos que perfeita, o coeficiente de regressão embora determinado, terão
grandes erros-padrão (com relação aos próprios coeficientes), o que significa que os coeficientes não
podem ser estimados com grande precisão ou exatidão.
- O método de coleta de dados: tomar uma amostragem com uma faixa limitada de valores pelos
regressores da população;
- Restrições do modelo ou da população amostral: regressão do consumo de energia elétrica contra renda e
tamanho da residência;
- Especificação do modelo: acréscimos de termos polinomiais de um modelo, sobretudo quando a
amplitude da variável x for pequena;
Observação: outro motivo de multicolinearidade é o caso de séries temporais, pode ser que os
regressores apresentem uma tendência comum (aumentam ou diminuem ao longo do tempo).
Em casos de quase ou de alta multicolinearidade, é muito provável que nos deparamos com as seguintes
conseqüências:
1- Embora sejam estimadores lineares não viesados, os estimadores de MQO têm grandes variâncias e
covariâncias, tornando difícil uma estimação precisa;
10
2- Devido à conseqüência 1, os intervalos de confiança tendem a ser muito mais amplos, levando à
aceitação imediata da hipótese nula igual a zero (isto é, o verdadeiro coeficientes populacionais igual a
zero);
- A velocidade com que as variâncias e covariâncias aumentam pode ser entendida como um fator de
inflação da variância (FIV):
Este fator mostra como a variância de um estimador é inflacionada pela presença da multicolinearidade.
À medida que a colinearidade aumenta, a variância de um estimador aumenta, e no limite, pode tornar-se
infinita.
- O fator de inflação da variância e outra notação usada é VIFj . Assim, o VIFj é dado por
Verificamos que VIFj mede o quanto a variância do coeficiente é inflacionada por sua colinearidade.
Geralmente, o VIF é indicativo de problemas de multicolinearidade se VIF>10, mas alguns autores
consideram VIF>5.
Assim Fatores de inflação de variância (VIF) medem o quanto a variância dos coeficientes de regressão
estimados está inflada em comparação a quando as variáveis preditoras não são relacionadas linearmente.
Use para descrever quanta multicolinearidade (correlação entre preditores) existe em uma análise de
regressão. A multicolinearidade é problemática porque pode aumentar a variância dos coeficientes de
regressão tornando-os instáveis e difíceis de interpretar.
Pode-se usar as seguintes orientações para interpretar o VIF:
11
.
Quando não existe colinearidade. Aproximado de 1.
1.3 No SPSS
12
Coefficientsa
Model Unstandardized Standardize t Sig. Collinearity Statistics
Coefficients d
Coefficients
B Std. Error Beta Tolerance VIF
(Constant) -160,181 31,986 -5,008 ,000
AREA 1,481 ,083 ,847 17,850 ,000 ,901 1,110
1
IDADE -3,064 ,740 -,190 -4,138 ,000 ,959 1,042
ENERGIA ,877 ,197 ,209 4,459 ,000 ,918 1,089
a. Dependent Variable: ValorAPTO
As variáveis independentes não são colineares, pois o VIF< 5 e o fator de tolerância está próximo de 1.