Beruflich Dokumente
Kultur Dokumente
1 Introdução
Variável ordinal é uma variável qualitativa, onde suas categorias além de serem mutu-
amente exclusivas e exaustivas, indicam uma ordem de magnitude. A variável escola-
ridade é um bom exemplo. Identificando as categorias com números, teremos:
• 1=fundamental 1;
• 2=fundamental 2;
• 3=ensino médio;
• 4=curso profissional;
• 5= ensino superior.
Sabemos que um indivíduo da categoria 2 apresenta-se numa ordem superior ao da ca-
tegoria 1. Não significa, entretanto, que o valor 2 seja o dobro do valor 1; assim como
não significa que a diferença entre as categorias 2 e a 3 seja igual à diferença entre as
categorias 4 e 5.
Regressão logística ordinal é usada para prever uma variável dependente ordinal
dado uma ou mais variáveis independentes. Pode ser considerada como uma generali-
zação de regressão linear múltipla ou como uma generalização de regressão logística
binomial. Por exemplo, você poderia usar a regressão logística ordinal para prever a
crença de que o imposto é muito alto (variável dependente, medida numa Likert de
4 pontos de "discordo totalmente"a "concordo totalmente"), com base em duas variá-
veis independentes: idade e renda. Tal como acontece com outros tipos de regressão,
regressão logística ordinal também pode utilizar as interações entre as variáveis inde-
pendentes para prever a variável dependente.
2 Suposições do modelo
Quando você escolhe analisar os dados por meio de regressão logística ordinal, uma
parte crítica do processo envolve a verificação dos dados para certificar-se de que os
mesmos são adequados para este tipo de análise. Na verdade, a regressão logística
ordinal tem quatro premissas que temos de considerar:
A questão crucial é: "Como é que vamos mostrar que essas categorias têm uma
ordem?". Em outras palavras, "Como é que nós representamos a ordem das categorias
em nossas análises?"
Vamos estudar o tipo mais popular de regressão logística ordinal, que usa categorias
cumulativas. Especificamente, vamos usar as probabilidades cumulativas de regressão
logística ordinal com chances proporcionais. O estudo desse modelo, nos proporciona:
O SPSS tem um procedimento chamado GENLIN que pode executar muitos tipos
diferentes de modelo linear generalizado (GLM) - incluindo regressão ordinal - e que
pode ser executado através de caixas de diálogo. Este procedimento só está disponível
no SPSS Módulo Avançado. No entanto, o SPSS tem outro procedimento separado
chamado PLUM que se dedica à execução somente modelos de regressão ordinal e que
também pode ser executado através de caixas de diálogo. Ele está disponível em Mó-
dulo Base de SPSS. Ambos os procedimentos - GENLIN e PLUM - têm suas vantagens
e desvantagens.
5 Exemplo
Os impostos têm a capacidade de provocar respostas fortes em muitas pessoas, en-
quanto alguns acreditam que eles são muito altos, outros pensam que deveria ser maior.
Nota: Para os leitores que não estão familiarizados com o sistema político britâ-
nico, estamos tomando uma abordagem estereotipada para as três principais partidos
políticos, segundo o qual os liberais democratas e do Trabalho são partes em favor de
altos impostos e os conservadores são um grupo favorecendo impostos mais baixos.
Modelos de regressão logística, como outros tipos de regressão, não permitem a en-
trada direta de variáveis categóricas na equação, porque eles vão ser interpretada como
uma variável contínua. Por exemplo, se você codificou gênero como "1" para o sexo
masculino e "2" para a feminino, e entrou com essa codificação diretamente em uma
equação de regressão, a equação de regressão vai "pensar" que as mulheres são duas
vezes os homens em vez de duas categorias separadas. Para resolver este problema,
uma série de variáveis dicotômicas codificadas como "0" e "1" devem ser criadas, de
tal modo que estas novas variáveis representem toda a informação a partir da variável
categórica original, mas sem os problemas de interpretação. Estas variáveis dicotômi-
cas são chamados de variáveis Dummys.
Para uma regressão logística ordinal, você normalmente tem pelo menos três va-
riáveis: a variável dependente e duas ou mais variáveis independentes (embora seja
possível para executar uma regressão logística ordinal com apenas uma variável inde-
pendente). Neste exemplo, temos uma variável dependente e três variáveis indepen-
dentes, que são:
Rode uma regressão linear multipla: Imposto = Neg-proprio + Idade + con + trab
e selecione no combo ESTATÍTICA: Diagnóstico de colinearidade
Você só precisa de consultar a coluna VIF (Variance Inflation Factor), se for verifi-
cado um valor VIF de 10 ou maior - você pode ter um problema co-linearidade. Neste
exemplo, todos os valores de VIF são bem menores que 10, então a suposição de não
colinearidade está satifeita.
9 Procedimento
PLUM e GENLIN são os procedimentos do SPSS que podem ser usados para execu-
tar uma regressão logística ordinal e testar a hipótese de odds proporcionais discutidas
anteriorente.
Para execultcar os procedimentos acima, faremos uso dos Modelos Lineares Gene-
ralizados (GLM), lembrando que lançameos mãos desta classe de modelos quando a
resposta não segue necessariamente uma distribuição normal. O GLM é utlizado, por
exemplo, no caso da regressão logística. Este precedimento, segue abaixo.
Além disso, você vai usar o procedimento PLUM para prever as probabilidades e
outras medidas estatísticas úteis.
Explicação: O SPSS tem um procedimento omnibus que lida com toda uma série de
diferentes modelos lineares generalizados utilizando seu comando GENLIN, incluindo
regressão logística ordinal. O procedimento GENLIN tem uma série de vantagens,
incluindo a saída de testes estatísticos omnibus para variáveis categóricas e a expres-
são das estimativas de parâmetros como odds ratio e seus intervalos de confiança de
95%, para citar apenas dois. Embora o comando PLUM possa ser usado para gerar es-
tas mesmas estatísticas, o procedimento é muito mais trabalhoso e baseia-se na sintaxe.
Regressão logística ordinal com PLUM. As instruções a seguir mostram como exe-
cutar o procedimento PLUM no SPSS.
Existem dois principais objetivos que você pode conseguir com a saída de uma
regressão logística ordinal:
1. Determinar qual das suas variáveis independentes (se houver) tem um efeito es-
tatisticamente significativo sobre a sua variável dependente; e
2. Determinar o quão bem o seu modelo de regressão logística ordinal prevê a va-
riável dependente.
Em termos de (1) para as variáveis independentes categóricas (por exemplo, "Par-
tido político que votou", que na Grã-Bretanha, tem 3 grupos: "conservadores", "Traba-
lhista" e "liberais democratas"), você será capaz de interpretar as chances de que um
grupo (por exemplo, os defensores "conservadores") tem um valor maior ou menor em
seu variável dependente (por exemplo, um valor mais elevado poderia ser afirmando
que eles "concordo", que "imposto é muito alto", em vez de afirmando que eles "Dis-
cordo") em comparação com o segundo grupo (por exemplo, "Trabalhista"apoiantes).
Em termos de (1) para variáveis contínuas (por exemplo, "Idade", medidos em anos),
você vai ser capaz de interpretar como uma única unidade de aumento ou diminuição
nessa variável (por exemplo, um aumento de um ano ou diminuição da idade), está
associada com as chances de seu variável dependente com um valor maior ou menor
(por exemplo, um aumento de um ano na idade dos participantes aumenta as chances
de que eles consideraram o imposto demasiado alto).
idade), é improvável que os tamanhos das células sejam adequadas. Portanto, antes de
começar com a interpretação de qualidade geral de ajuste do seu modelo, você tem que
avaliar o tamanho da célula (incluindo células sem contagem).
Cada linha do arquivo gerado representa um padrão celular; isto é, o SPSS chama
de "níveis variáveis dependentes por combinações de valores de variáveis de previ-
são"na tabela de Aviso.
2
O teste Deviance indicou que o modelo se ajusta bem aos dados observados, χ(272)
= 232,618, p-value = 0,960.
O teste de Pearson indicou que o modelo não está bem ajustado aos dados observa-
2
dos, χ(272) = 745,367, p <0,001.
9.5 Pseudo R2
Há uma série de medidas em regressão ordinal que tentam fornecer uma medida simi-
lar a "variância explicada" que é comum nos mínimos quadrados de regressão linear.
No entanto, aqui, estas medidas não têm a interpretação direta que elas tem em regres-
são linear ordinária e muitas vezes são, portanto, referidas como "pseudo"R2 . Estas
medidas são encontrados na tabela abaixo:
As três medidas descritas aqui Cox e Snell, Nagelkerke e McFadden são as três
medidas mais comuns de R2 . Nenhuma dessas medidas são particularmente boas e seu
uso não são universalmente apreciados. Há algum pensamento que a medida McFadden
pode ser a melhor medida das três.
Você pode ver que a estatística de ajuste do modelo dado por -2 log likelihood =
389,711 para o modelo só com intercepto em relação ao modelo com o intercepto e
todas as variáveis independentes -2 log likelihood = 301,800. Lembre-se que quanto
menor o valor desta estatítica, melhor o ajuste. Como tal, quanto maior for a diferença
entre os dois modelos, melhor as variáveis independentes são para explicar a variável
resposta. A diferença entre os dois valores de probabilidade é apresentada na coluna
"Qui-quadrado" (ou seja, 389,711-301,800 = 87,911), com 4 graus de liberdade e é
Se você não estiver familiarizado com o termo ’parâmetro’, este é apenas um outro
nome para um coeficiente no seu modelo. Os parâmetros neste modelo consistem dos
limiares (você pode pensar destes intercepta como, embora este não é exatamente o que
eles representam) e os coeficientes de inclinação. Você também aprendeu na introdução
que o tipo de modelo de regressão ordinal estamos executando produz uma equação
para cada um dos J-1 logitos cumulativos, onde J é o número de categorias da variável
dependente ordinal. Como existem quatro categorias da variável Imposto, existem três
logitos cumulativos e portanto três equações. Lembre-se também, que a suposição de
odds proporcionais restringe os coeficientes de declividade serem o mesmo para todas
as três equações, por isso é apenas os limites que diferem entre os três equações. Os
resultados para os diferentes limiares são destacadas a seguir:
Para a maior parte, você só vai precisar usar as equações na forma acima, se você
quer prever probabilidades para valores dados das variáveis independentes. probabili-
dades previstas são explicadas mais adiante. Também é possível interpretar os coefici-
entes de inclinação em termos de probabilidades de logaritmo.
estimativas dos parâmetros GENLIN - variáveis dicotômicas A interpretação das
variáveis dicotômicas é sem dúvida o mais fácil dos diferentes tipos de variável inde-
pendente e estabelece o cenário para interpretar o caso um pouco mais complicado de
variáveis politômicos (ou seja, as variáveis categóricas com três ou mais categorias).
A variável dicotômica, Neg-Proprio, indica se um participante é proprietário de uma
empresa. Este é realçado na tabela de estimativas de parâmetros abaixo, juntamente
com um lembrete das categorias de esta variável:
A codificação desta variável foi tal que os participantes que eram donos de empre-
sas (Neg-proprio=Sim) foram codificados ".00"e aqueles que não possuem o próprio
negócio (Ng-proprio=Não) foram codificados "1.00". Por padrão, para variáveis ??ca-
tegóricas, o procedimento GENLIN faz a última categoria a categoria de referência.
A partir da tabela acima, você pode ver que o coeficiente para Neg-prorpio Sim é
0,665. Esta estimativa do parâmetro (coeficiente angular) representa a alteração na pro-
babilidade de log de estar nesta categoria, em vez de a categoria de referência; ou seja,
é uma comparação de ser proprietário de uma empresa (ou seja, Neg-proprio=Sim)
versus não ser proprietário de uma empresa (ou seja, Neg-proprio=Não).
No entanto, ele não explica o que, ou como, as partes diferem. Portanto, depois
de ter estabelecido que o efeito global da política é estatisticamente significativa, você
pode examinar os coeficientes produzidos pelo SPSS na tabela de estimativas de pa-
râmetros, como mostrado abaixo (rótulos de categoria foram adicionados para maior
clareza):
Se você já usou outros testes estatísticos, como a análise de variância, você pro-
vavelmente usou comparações de pares (testes post-hoc), ou seja, depois de encontrar
um resultado omnibus estatisticamente significativa para uma variável categórica. No
entanto, para uma regressão logística ordinal, você não tem esse luxo. Até agora, de
ter executado as seguintes comparações ’pares’:
• Os liberais vs Trabalhista
• Os conservadores vs Trabalhista
Geralmente quando você executa testes post-hoc, você executa todas as compara-
ções de pares; isto é, cada grupo é comparado com o outro grupo de tal modo que não
há comparações entre pares de grupos que não tenham sido feitos. Considerando as
três categorias da variável de política, existem três possíveis combinações de compara-
ções que podem ser feitas usando esses três grupos: os dois você já fez e um terceiro,
conservadores contra liberais:
Como tal, precisamos executar esta comparação final. Isso não pode ser facilmente
alcançado utilizando o procedimento GENLIN, então você vai precisar recodificar as
variáveis ??originais para que os liberais são codificados "3"e as outras duas categorias
são codificados "1"e "2"; não importa qual, rodar novamente para obter o que deseja.
da tabela acima, você pode ver que o odds ratio é 1.274. Para uma variável contínua,
isto significa que uma mudança de uma unidade de idade (isto é, um aumento de um
ano de idade) está associado com uma razão de chances de 1,274; isto é, para cada
aumento de um ano de idade, as chances de considerar impostos muito altos aumenta
em 1.274 vezes.