Sie sind auf Seite 1von 25

Regressão Logística

para variáveis ordinais

Aulas de apoio: Estatística, Cálculo I e Matemática financeira


Análise estatística: Trabalhos acadêmicos e profissionais

Professor: José Alberto


whatsapp: +55(11) 97525-3343
homepage: www.sosestatistica.com.br
e-mail: sosestatistica2015@gmail.com
Skype: sosestatistica
Regressão logística ordinal

1 Introdução
Variável ordinal é uma variável qualitativa, onde suas categorias além de serem mutu-
amente exclusivas e exaustivas, indicam uma ordem de magnitude. A variável escola-
ridade é um bom exemplo. Identificando as categorias com números, teremos:
• 1=fundamental 1;
• 2=fundamental 2;
• 3=ensino médio;
• 4=curso profissional;
• 5= ensino superior.
Sabemos que um indivíduo da categoria 2 apresenta-se numa ordem superior ao da ca-
tegoria 1. Não significa, entretanto, que o valor 2 seja o dobro do valor 1; assim como
não significa que a diferença entre as categorias 2 e a 3 seja igual à diferença entre as
categorias 4 e 5.

Regressão logística ordinal é usada para prever uma variável dependente ordinal
dado uma ou mais variáveis independentes. Pode ser considerada como uma generali-
zação de regressão linear múltipla ou como uma generalização de regressão logística
binomial. Por exemplo, você poderia usar a regressão logística ordinal para prever a
crença de que o imposto é muito alto (variável dependente, medida numa Likert de
4 pontos de "discordo totalmente"a "concordo totalmente"), com base em duas variá-
veis independentes: idade e renda. Tal como acontece com outros tipos de regressão,
regressão logística ordinal também pode utilizar as interações entre as variáveis inde-
pendentes para prever a variável dependente.

2 Suposições do modelo
Quando você escolhe analisar os dados por meio de regressão logística ordinal, uma
parte crítica do processo envolve a verificação dos dados para certificar-se de que os
mesmos são adequados para este tipo de análise. Na verdade, a regressão logística
ordinal tem quatro premissas que temos de considerar:

1. Uma variável resposta (dependente) ordinal. Exemplos de variáveis ordinais in-


clui respostas do tipo Likert (por exemplo, uma escala de 7 pontos de concordo
totalmente até discordo), nível de atividade física (por exemplo, 4 grupos: seden-
tários, baixa, moderada e alta), o cliente gostar de um produto (que vão desde
"Não muito", até "Sim, muito"), e assim por diante.
2. Uma ou mais variáveis exploaratórias (independentes) que podem ser: contínuas,
discretas, ordinais ou nominais (incluindo variáveis dicotômicas). No entanto,
as variáveis independentes ordinais devem ser tratadas como sendo contínuas
ou categóricas nominais. Eles não podem ser tratados como variáveis ordinais

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


Regressão logística ordinal

ao executar uma regressão logística ordinal em SPSS (voltaremos a este tema).


Exemplos de variáveis contínuas que atendam este critério incluem idade (me-
dido em anos), tempo de revisão (medido em horas), o rendimento (medido em
Reais), inteligência (medida usando QI), desempenho num exame (medido de 0
a 100), peso (medido em kg), e assim por diante. Exemplo variáveis categóricas
incluem sexo (por exemplo, 2 grupos: masculino e feminino), etnia (por exem-
plo, 3 grupos: branca, Africano-americano), profissão (por exemplo, 5 grupos:
cirurgião, médico, enfermeiro, dentista, terapeuta), e assim por diante.
3. Multicolinearidade. Que ocorre quando você tem duas ou mais variáveis inde-
pendentes que são altamente correlacionados entre si. Isto leva a problemas para
compreender qual variável contribui para a explicação da variável dependente,
além de questões técnicas como por exemplo a inversão de uma matriz singu-
lar. Determinar se existe multicolinearidade é um passo importante na regressão
logística ordinal (tal como na regressão linear múltipla) e pode ser determinada
utilizando o mesmo método utilizado para a regressão múltipla, apesar da variá-
vel resposta ser ordinal e não contínua (uma vez que a multicollinearidade ocorre
entre as variáveis explicativas). Infelizmente, para testar esta suposição vamos
precisar criar variáveis dummy para as variáveis categóricas.
4. Chances proporcionais. Odds proporcionais é um pressuposto fundamental para
este tipo de modelo. Essa suposição significa que cada variável independente
tem um efeito idêntico em cada divisão cumulativa da variável dependente ordi-
nal. Esta hipótese é testada no SPSS com um teste de razão de verossimilhança
completa, comparando o ajuste do modelo de odds proporcionais a um modelo
com diferentes parâmetros de localização.

3 Probabilidades cumulativas com odds proporcionais


Há mais de um tipo de regressão logística ordinal disponível para analisar variáveis de-
pendentes ordinais. Para entender esses diferentes tipos, considere a definição de uma
variável ordinal como uma variável categórica com categorias ordenadas.

A questão crucial é: "Como é que vamos mostrar que essas categorias têm uma
ordem?". Em outras palavras, "Como é que nós representamos a ordem das categorias
em nossas análises?"

Na verdade, mais de uma abordagem foi desenvolvida para capturar a natureza


ordenada destas categorias. As principais abordagens que foram considerados são ca-
tegorias: cumulativas, adjacentes e complementares. Diversos modelos de regressão
logística ordinal foram desenvolvidos para cada um desses tipos de categorização para
lidar com variáveis dependentes ordinais.

Vamos estudar o tipo mais popular de regressão logística ordinal, que usa categorias
cumulativas. Especificamente, vamos usar as probabilidades cumulativas de regressão
logística ordinal com chances proporcionais. O estudo desse modelo, nos proporciona:

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


Regressão logística ordinal

1. Testar os pressupostos deste tipo de regressão logística ordinal.


2. Ser capaz de determinar qual das suas variáveis independentes (se houver) tem
um efeito estatisticamente significativo sobre a sua variável dependente.
3. Para variáveis independentes categóricas (por exemplo,"Partido político que vo-
tou":"conservadores","trabalhalhista"e "liberais democratas"), você vai ser ca-
paz de interpretar as probabilidades que um grupo (por exemplo, apoiadores dos
"conservadores") tenha um valor maior ou menor em sua variável dependente
(por exemplo, um valor mais elevado poderia ser afirmando que eles "Concor-
dam", que "Imposto é muito alto", em vez de afirmar que eles "Discordam") em
comparação com o segundo grupo (por exemplo,"apoiadores dos "trabalhistas").

4. Para variáveis independentes contínuas (por exemplo,"idade", medido em anos),


você vai ser capaz de interpretar como uma variação nessa variável (por exemplo,
um aumento ou diminuição na idade de um ano), estar associado com o chances
de sua variável dependente com um valor superior ou inferior (por exemplo,
um aumento de um ano na idade dos participantes aumentando as chances de
considerarem o imposto demasiado alto).

4 Procedimentos PLUM vs GENLIN


O modelo de regressão logístico ordinal é apenas mais um modelo de uma família
de modelos chamados Modelos Lineares Generalizados - GLM. Modelos lineares ge-
neralizados estendem o modelo linear para incluir variáveis dependentes que não são
contínuas ou não normalmente distribuídos.

O SPSS tem um procedimento chamado GENLIN que pode executar muitos tipos
diferentes de modelo linear generalizado (GLM) - incluindo regressão ordinal - e que
pode ser executado através de caixas de diálogo. Este procedimento só está disponível
no SPSS Módulo Avançado. No entanto, o SPSS tem outro procedimento separado
chamado PLUM que se dedica à execução somente modelos de regressão ordinal e que
também pode ser executado através de caixas de diálogo. Ele está disponível em Mó-
dulo Base de SPSS. Ambos os procedimentos - GENLIN e PLUM - têm suas vantagens
e desvantagens.

Veremos as duas soluções alternativas. As principais vantagens do procedimento


GENLIN são de que ele fornece um teste estatístico omnibus para cada variável cate-
górica e oferece odds ratio e seus intervalos de confiança de 95%. PLUM também pode
fornecer essas informações, mas não sem ter de recorrer a sintaxe para fazê-lo.

5 Exemplo
Os impostos têm a capacidade de provocar respostas fortes em muitas pessoas, en-
quanto alguns acreditam que eles são muito altos, outros pensam que deveria ser maior.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


Regressão logística ordinal

Um pesquisador realizou um estudo simples, onde foi apresentado aos participantes a


seguinte afirmação: "O imposto é muito alto neste país", e perguntou-lhes o quanto eles
concordaram com esta afirmação. Os respondentes tinham quatro opções de resposta:
"Discordo totalmente", "discordo", "concordo"ou "concordo totalmente". As respostas
foram armezanedos na variável dependente imposto. Além do grau de concordância na
variável imposto, os participantes responderam: se eles possuíam seu próprio negócio
(Neg-proprio), sua idade (idade) e qual partido político ele havia votado na última elei-
ção (política).

Nos procedimentos do SPSS, você precisará separar as variáveis em:

• Co-variáveis - variáveis exploratórias contínuas (idade), e


• Fatores - variáveis exploratórias categóricas como fatores (política e Neg-proprio).

Nota: Para os leitores que não estão familiarizados com o sistema político britâ-
nico, estamos tomando uma abordagem estereotipada para as três principais partidos
políticos, segundo o qual os liberais democratas e do Trabalho são partes em favor de
altos impostos e os conservadores são um grupo favorecendo impostos mais baixos.

6 Configuração e codificação das variáveis


Vamos criar variáveis binárias para todas as variáveis independentes categóricas. Uma
das técnicas que você precisa para entender - mas que pode não estar familiarizado - é
o uso e criação de variáveis binárias. Isto é importante, a fim de verificar a existência
de multicolinearidade; uma suposição de regressão logística ordinal.

Modelos de regressão logística, como outros tipos de regressão, não permitem a en-
trada direta de variáveis categóricas na equação, porque eles vão ser interpretada como
uma variável contínua. Por exemplo, se você codificou gênero como "1" para o sexo
masculino e "2" para a feminino, e entrou com essa codificação diretamente em uma
equação de regressão, a equação de regressão vai "pensar" que as mulheres são duas
vezes os homens em vez de duas categorias separadas. Para resolver este problema,
uma série de variáveis dicotômicas codificadas como "0" e "1" devem ser criadas, de
tal modo que estas novas variáveis representem toda a informação a partir da variável
categórica original, mas sem os problemas de interpretação. Estas variáveis dicotômi-
cas são chamados de variáveis Dummys.

A criação de categorias cumulativos dicotômicas dos níveis de sua variável res-


posta, são necessárias para que as regressões logísticas binomiais separadas possam
ser executadas para estabelecer a viabilidade do pressuposto de odds proporcionais e
para executar diagnósticos, tais como análise de resíduos. Vamos criar variáveis depen-
dentes dicotômicas com base nas divisões cumulativas da variável dependente ordinal,
imposto.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


Regressão logística ordinal

Para uma regressão logística ordinal, você normalmente tem pelo menos três va-
riáveis: a variável dependente e duas ou mais variáveis independentes (embora seja
possível para executar uma regressão logística ordinal com apenas uma variável inde-
pendente). Neste exemplo, temos uma variável dependente e três variáveis indepen-
dentes, que são:

• Variável dependente, imposto, que tem quatro categorias ordenadas: "discordo


totalmente - 0", "discordo - 1", "concordo - 2" e "concordo totalmente - 3". Com
quatro categorias ordinais, a variável dependente, irá gerar três novas variáveis
dicotômicas, que chamaremos:
Cat1 codificada como "1=imposto≤ 0" e "0 imposto> 0”,
Cat2 codificada como "1=imposta≤ 1" e "0 imposto> 1”, e
Cat3 codificada como "1=imposto≤ 2" e "0 imposto> 2”.

• Variável independente, Neg-proprio, que tem duas categorias, codificadas como:


"1=Não" e "0=Sim";
• Variável independente, política, que tem três categorias: "Conservador", "Tra-
balhista" e "Liberal". Neste caso iremo criar duas variáevis dummys, a saber:
"con" que será codificada como "1=conservador" e "0=outros casos" e "trab"
que será codificada como "1=trabalhista" e "0=outros casos".
• Co-variável, idade, que é a idade dos participantes.

7 Testando a hipótese de multicolinearidade


Determinar se existe multicolinearidade é um passo importante na regressão logística
ordinal, e pode ser determinada utilizando o mesmo método utilizado para a regressão
múltipla, apesar da variável dependente ser ordinal e não contínua, pois a multicoline-
aridade é investigada nas variáveis independentes.

Rode uma regressão linear multipla: Imposto = Neg-proprio + Idade + con + trab
e selecione no combo ESTATÍTICA: Diagnóstico de colinearidade

Figura 1: Regressão multipla - diagnóstico de colinearidade

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


Regressão logística ordinal

Você só precisa de consultar a coluna VIF (Variance Inflation Factor), se for verifi-
cado um valor VIF de 10 ou maior - você pode ter um problema co-linearidade. Neste
exemplo, todos os valores de VIF são bem menores que 10, então a suposição de não
colinearidade está satifeita.

8 Regressões logísticas binomiais separadas


As variáveis dependentes dicotômicas - Cat1 , Cat2 e Cat3 - representam as divisões
cumulativos das categorias da variável dependente ordinal, imposto. Veremos como
executar regressões logísticas binomiais separados sobre estas novas variáveis depen-
dentes usando o procedimento de Logística Binária no SPSS. Isso permitirá a você
inspecionar a semelhança entre as relações ímpares para cada coeficiente de inclinação
para ajudar a determinar se a suposição de odds proporcionais é sustentável (veremos
isso mais a frente).

Vamos precisar executar regressões logística binária com as variáveis independen-


tes: Neg-proprio, idade e política - em cada variável dependente dicotômica separada-
mente: Cat1 , Cat2 e Cat3 . Portanto, você terá de executar o procedimento várias vezes
(ou seja, três vezes em nosso exemplo: uma vez para Cat1 , em seguida, para Cat2 , e,
finalmente, para Cat3 ).

9 Procedimento
PLUM e GENLIN são os procedimentos do SPSS que podem ser usados para execu-
tar uma regressão logística ordinal e testar a hipótese de odds proporcionais discutidas
anteriorente.

Para execultcar os procedimentos acima, faremos uso dos Modelos Lineares Gene-
ralizados (GLM), lembrando que lançameos mãos desta classe de modelos quando a
resposta não segue necessariamente uma distribuição normal. O GLM é utlizado, por
exemplo, no caso da regressão logística. Este precedimento, segue abaixo.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.1 Procedimento PLUM Regressão logística ordinal

Figura 2: Regressão ordinal - GLM

O módulo BASE do SPSS, já dá acesso ao procedimento PLUM, que é proce-


dimento de regressão ordinal logística. O procemiento GENLIM está disponível no
módulo avançado SPSS.

9.1 Procedimento PLUM


Uma das principais desvantagens do processo PLUM é que ele não produz odds ratio
automaticamente. No entanto, ele fornece as informações necessárias (isto é, as pro-
babilidades de log) para fazê-lo em sua tabela de estimativas de parâmetros. Portanto,
a fim de fazer os cálculos que convertem as diferenças nas probabilidades de log para
odds ratio (ou seja, tomar o anti-log), você precisa que as informações na tabela de
estimativas de parâmetros sejam armazenadas em um novo arquivo SPSS. Para fazer
isso, você precisa usar o Painel de Controle OMS (OMS = Sistema de Gestão Output).

Além disso, você vai usar o procedimento PLUM para prever as probabilidades e
outras medidas estatísticas úteis.

9.2 Procedimento GENLIN


Embora seja possível gerar todas as estatísticas que você precisa com o procedimento
PLUM, o GENLIN é menos burocrático para realizar uma regressão logística ordinal.

Explicação: O SPSS tem um procedimento omnibus que lida com toda uma série de
diferentes modelos lineares generalizados utilizando seu comando GENLIN, incluindo
regressão logística ordinal. O procedimento GENLIN tem uma série de vantagens,
incluindo a saída de testes estatísticos omnibus para variáveis categóricas e a expres-
são das estimativas de parâmetros como odds ratio e seus intervalos de confiança de
95%, para citar apenas dois. Embora o comando PLUM possa ser usado para gerar es-
tas mesmas estatísticas, o procedimento é muito mais trabalhoso e baseia-se na sintaxe.

Neste exemplo vamos excecutar o procedimento GENLIN

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

9.2.1 Executando o PLUM


Você precisa primeiro executar o procedimento PLUM no SPSS para prodizir a saída
de um teste estatístico para avaliar a suposição de odds proporcionais, antes de executar
o procedimento GENLIN.

Regressão logística ordinal com PLUM. As instruções a seguir mostram como exe-
cutar o procedimento PLUM no SPSS.

Figura 3: Regressão ordinal - Procedimento PLUM

Figura 4: Regressão ordinal - Procedimento PLUM

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

Figura 5: Regressão ordinal - Procedimento PLUM

Nota 1: Quando você só tem variáveis independentes categóricas, você também


pode querer selecionar a informação celular. No entanto, como regra geral, esta opção
não é muito útil quando você tem variáveis independentes contínuas no modelo (como
neste exemplo).

Nota 2: Manter o padrão incluir constante multinomial selecionado, ou não, afeta


o valor da log-verossimilhança, mas não a conclusão. No entanto, esta opção é im-
portante se você está comparando o valor a outros programas estatísticos ou para o
procedimento de logística binária no SPSS (que utiliza a log-verossimilhança).

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

9.2.2 Regressão logística ordinal com GENLIN


Agora que você já executou o procedimento PLUM, você precisa para gerar os resul-
tados de uma análise de regressão logística ordinal usando o procedimento GENLIN:

Figura 6: Regressão ordinal - Procedimento GENLIN

Figura 7: Regressão ordinal - Procedimento GENLIN

Figura 8: Regressão ordinal - Procedimento GENLIN

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

Figura 9: Regressão ordinal - Procedimento GENLIN

Figura 10: Regressão ordinal - Procedimento GENLIN

Figura 11: Regressão ordinal - Procedimento GENLIN

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

Figura 12: Regressão ordinal - Procedimento GENLIN

9.2.3 Interpretação de resultados


O SPSS gerá uma série de tabelas que contêm todas as informações que você precisa
para relatar os resultados de sua regressão logística ordinal.

Existem dois principais objetivos que você pode conseguir com a saída de uma
regressão logística ordinal:
1. Determinar qual das suas variáveis independentes (se houver) tem um efeito es-
tatisticamente significativo sobre a sua variável dependente; e
2. Determinar o quão bem o seu modelo de regressão logística ordinal prevê a va-
riável dependente.
Em termos de (1) para as variáveis independentes categóricas (por exemplo, "Par-
tido político que votou", que na Grã-Bretanha, tem 3 grupos: "conservadores", "Traba-
lhista" e "liberais democratas"), você será capaz de interpretar as chances de que um
grupo (por exemplo, os defensores "conservadores") tem um valor maior ou menor em
seu variável dependente (por exemplo, um valor mais elevado poderia ser afirmando
que eles "concordo", que "imposto é muito alto", em vez de afirmando que eles "Dis-
cordo") em comparação com o segundo grupo (por exemplo, "Trabalhista"apoiantes).
Em termos de (1) para variáveis contínuas (por exemplo, "Idade", medidos em anos),
você vai ser capaz de interpretar como uma única unidade de aumento ou diminuição
nessa variável (por exemplo, um aumento de um ano ou diminuição da idade), está

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

associada com as chances de seu variável dependente com um valor maior ou menor
(por exemplo, um aumento de um ano na idade dos participantes aumenta as chances
de que eles consideraram o imposto demasiado alto).

• Padrões das variáveis independentes e ajuste global do modelo: É possível ava-


liar a qualidade geral do ajuste do modelo de regressão logística ordinal - mas
para fazer isso corretamente, as frequências esperadas em cada célula deve ser
grande. Portanto, antes de você pode começar com a interpretação da quali-
dade geral de ajuste do seu modelo, você tem que avaliar o tamanho da célula
(incluindo células sem contagem).
• Modelo de ajuste global: Depois de avaliar a contagem nas células de seu con-
junto de dados, você pode verificar o ajuste global do modelo de regressão logís-
tica ordinal. Há um grande número de métodos para avaliar a adequação geral do
modelo, cada um dos quais tem as suas vantagens e desvantagens. Uma forma
de avaliar o ajuste global do modelo é examinar os resultados de todos esses mé-
todos e construir uma imagem geral se os seus dados se encaixa no modelo de
regressão ordinal.
• Estimativas globais dos parâmetros: As estimativas globais dos parâmetros vai
ajudá-lo a se familiarizar com os resultados da equação de regressão ordinal
(logito). Como interpretar estas estimativas vai depender se as variáveis inde-
pendentes são dicotômicas (variáveis ou seja, nominais ou ordinais com apenas
duas categorias), politômicos (variáveis ou seja, nominais ou ordinais com três
ou mais categorias) ou contínuas.
• Previsões e adequação do modelo: Sabemos qual categoria foi observada para a
variável dependente, imposto, para cada indivíduo (ou seja, como um indivíduo
respondeu à declaração sobre se o imposto era muito alto). Uma forma de avaliar
se o seu modelo se adapta bem aos dados é verificar quão bem ele pode prever
essas respostas. Mais especificamente, determinar o quão bem o seu modelo
previu a resposta corretamente. Por exemplo, imagine que a regressão logística
ordinal estimou que um indivíduo "concorda fortemente" que o imposto era de-
masiado elevado. Será que o modelo de regressão ordinal irá outros indivíduos
com as mesmas características (por exemplo, da mesma idade, filiação política e
propriedade de empresas) também como "concordo totalmente" que o imposto
era muito alto? Se você executou uma regressão logística ordinal, a fim de ser
capaz de fazer previsões sobre a variável dependente com base nas pontuações
na variável independente para indivíduos específicos, saber o quão bem o seu
modelo pode fazer com precisão previsões será muito importante.

9.2.4 Padrões de variáveis independentes e ajuste global do modelo


É possível avaliar a qualidade geral do ajuste do modelo de regressão logística ordinal
mas para fazer isso corretamente, as frequências esperadas em cada célula deve ser
grande. O que constitui uma célula é discutido abaixo, mas, basta dizer que, quando
uma variável contínua é incluída como uma variável independente (por exemplo, a

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

idade), é improvável que os tamanhos das células sejam adequadas. Portanto, antes de
começar com a interpretação de qualidade geral de ajuste do seu modelo, você tem que
avaliar o tamanho da célula (incluindo células sem contagem).

Para descobrir se os padrões de variáveis independentes estão adequados em seu


conjunto de dados, você pode executar o comando agregado no SPSS. As instruções a
seguir mostram como executar este procedimento, que cria um novo arquivo de dados
SPSS contendo os dados agregados:

Figura 13: Regressão ordinal - Dados agregados

Cada linha do arquivo gerado representa um padrão de co-variável; isto é, um con-


junto único de valores das variáveis independentes. Por exemplo, considere a linha 4
do conjunto de dados acima, como destacado a seguir:

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

Figura 14: Regressão ordinal - Dados agregados

Ela mostra um indivíduo (coluna "number-cp"), que é proprietário de uma empresa


(coluna "Neg-proprio"), que tem 27 anos (coluna "idade") que é Conservador (coluna
"política"). Cada linha apresenta o perfil individual.

9.2.5 Determinar o número de padrões celulares


Agora precisamos entender os muitos padrões de células que temos no conjunto de
dados. Um padrão de células é muito semelhante a um padrão de covariância com a
exceção de que ele também incorpora a variável dependente na combinação. Isto é, um
padrão de células é uma combinação única de os valores das variáveis independente e
dependente. Podemos usar novamente o procedimento agregado, adicionando apenas
a variável imposto ao padrão executado anteriormente.

Figura 15: Regressão ordinal - Dados agregados

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.2 Procedimento GENLIN Regressão logística ordinal

Cada linha do arquivo gerado representa um padrão celular; isto é, o SPSS chama
de "níveis variáveis dependentes por combinações de valores de variáveis de previ-
são"na tabela de Aviso.

Figura 16: Regressão ordinal - Dados agregados

O número total de células (eventuais) é o número de padrões de variáveis indepen-


dentes mutiplicado pelo número de níveis da variável dependente (ou seja, 93 padrões
de variáveis independentes x 4 categorias da variável dependente = 372 células). Des-
tes 372 células, 137 não têm zero frequências. Isto significa que existem 372-137 = 235
células com frequências nulas, que é o mesmo número de células com zero frequên-
cias indicadas na tabela de aviso. A percentagem de células com frequência zero é
(235÷372)x100=63,2%, que é o que encontramos na tabela de aviso. Além disso, o
número de padrões de células é 137, que é 372-235 = 137, o mesmo que o calculado a
partir da tabela de aviso.

Ter um grande número de células com zero frequências resulta na confiabilidade


das medidas globais de qualidade do ajuste como sendo suspeito. Outro problema é se
as células têm pequenas frequências. Grosseiramente falando, deseja-se que frequên-
cias esperadas superiores a 5. Você pode obter algum sentido olhando para a coluna
"number-cp" para o conjunto de dados padrão celular. Em nosso conjunto de dados, a
maioria das frequências de células está abaixo de 5. Deve-se ressaltar que a adequação
celular é baseada em frequências esperadas, e não as freqüências observadas que temos
aqui. No entanto, estes valores devem ser um bom ponto de partida. Para este exemplo
imposto, não seria adequado interpretar as medidas de qualidade do ajuste com base

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.3 Ajuste global do modelo Regressão logística ordinal

nesses resultados. agora você tem que decidir como proceder:

9.3 Ajuste global do modelo


Agora que você avaliou o tamanho das células, podemos avaliar o ajuste global do mo-
delo de regressão ordinal. Há um grande número de métodos para avaliar a adequação
geral do modelo, cada um dos quais tem as suas vantagens e desvantagens. Uma forma
de avaliar ajuste global do modelo é para examinar os resultados de todos esses méto-
dos e construir uma imagem geral e decidir se os seus dados se encaixam no modelo
de regressão ordinal.

9.4 Testes globais de qualidade do ajuste


O SPSS gera dois testes do melhor ajuste global do modelo (isto é, uma medida geral,
se o modelo se adapta bem aos dados). Estes são os testes de Pearson e deviance,
conforme mostrado abaixo na figura a seguir:

Figura 17: Regressão ordinal - Medidas de qualidade do ajuste

Tanto a estatística de Pearson quanto Deviance fornecem medidas de como o mo-


delo se ajusta aos dados. O teste de Pearson fornece esta medida calculando uma me-
dida geral resumo dos resíduos de Pearson. Alternativamente, a estatística Deviance
é a diferença de ajuste entre o modelo atual e um modelo completo. Nenhum destes
testes irá fornecer provas confiáveis de qualdiade do ajuste, se há muitas células com
zero frequências e/ou pequenas frequências esperadas e, geralmente, não são recomen-
dados. No entanto, se você tem um modelo que tem frequências celulares esperadas
maiores que 5, você pode usar essas estatísticas (o Deviance é o preferido). Porque as
estatísticas de teste mede o quão pobre o seu modelo é, na verdade você deseja que es-
tes testes não sejam estatisticamente significativo, indicando um bom ajuste do modelo
(ou seja, p-value > 0,05). Neste exemplo, os dois ensaios dão resultados contraditó-
rios. O teste de Pearson falta de ajuste (p-value <0,05), mas o teste Deviance indica um
bom ajuste (p = 0,960). Como sabemos, para os nossos dados, não devemos confiar em
qualquer um dos testes, mas se você fez, você pode relatar o resultado como (estatística
Devaince):

2
O teste Deviance indicou que o modelo se ajusta bem aos dados observados, χ(272)
= 232,618, p-value = 0,960.

O teste de Pearson indicou que o modelo não está bem ajustado aos dados observa-
2
dos, χ(272) = 745,367, p <0,001.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.5 Pseudo R2 Regressão logística ordinal

9.5 Pseudo R2
Há uma série de medidas em regressão ordinal que tentam fornecer uma medida simi-
lar a "variância explicada" que é comum nos mínimos quadrados de regressão linear.
No entanto, aqui, estas medidas não têm a interpretação direta que elas tem em regres-
são linear ordinária e muitas vezes são, portanto, referidas como "pseudo"R2 . Estas
medidas são encontrados na tabela abaixo:

Figura 18: Regressão ordinal - Medidas de qualidade do ajuste

As três medidas descritas aqui Cox e Snell, Nagelkerke e McFadden são as três
medidas mais comuns de R2 . Nenhuma dessas medidas são particularmente boas e seu
uso não são universalmente apreciados. Há algum pensamento que a medida McFadden
pode ser a melhor medida das três.

9.6 Teste da razão de verossimilhança


Uma melhor avaliação do modelo ajustado é olhar para a mudança no modelo ajustado,
comparando este ao modelo só com o intercepto. A diferença na probabilidade entre
estes dois modelos é dada pela estatíctica -2 log likelihood
tem uma distribuição χ 2 com graus de liberdade igual à diferença no número de
parâmetros. O teste de razão de verossimilhança é apresentada na tabela, conforme
mostrado abaixo:

Figura 19: Regressão ordinal - Medidas de qualidade do ajuste

Você pode ver que a estatística de ajuste do modelo dado por -2 log likelihood =
389,711 para o modelo só com intercepto em relação ao modelo com o intercepto e
todas as variáveis independentes -2 log likelihood = 301,800. Lembre-se que quanto
menor o valor desta estatítica, melhor o ajuste. Como tal, quanto maior for a diferença
entre os dois modelos, melhor as variáveis independentes são para explicar a variável
resposta. A diferença entre os dois valores de probabilidade é apresentada na coluna
"Qui-quadrado" (ou seja, 389,711-301,800 = 87,911), com 4 graus de liberdade e é

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.7 Estimativas dos parâmetros Regressão logística ordinal

estatisticamente significativa , p <0,001. Em outras palavras, pelo menos uma variável


independente é estatisticamente significativa.

9.7 Estimativas dos parâmetros


Quando você executar o procedimento GENLIN. A estimativa dos parâmetros do mo-
delo são apresentados na tabela de estimativas de parâmetros.

Se você não estiver familiarizado com o termo ’parâmetro’, este é apenas um outro
nome para um coeficiente no seu modelo. Os parâmetros neste modelo consistem dos
limiares (você pode pensar destes intercepta como, embora este não é exatamente o que
eles representam) e os coeficientes de inclinação. Você também aprendeu na introdução
que o tipo de modelo de regressão ordinal estamos executando produz uma equação
para cada um dos J-1 logitos cumulativos, onde J é o número de categorias da variável
dependente ordinal. Como existem quatro categorias da variável Imposto, existem três
logitos cumulativos e portanto três equações. Lembre-se também, que a suposição de
odds proporcionais restringe os coeficientes de declividade serem o mesmo para todas
as três equações, por isso é apenas os limites que diferem entre os três equações. Os
resultados para os diferentes limiares são destacadas a seguir:

Figura 20: Regressão ordinal - Estimativas dos parâmetros

A primeira linha, [imposto=0,00], é o limiar para a equação que representa o pri-


meiro logito cumulativo de Imposto (ou seja, entre "Discordo totalmente"e todas as
categorias mais elevadas - a variável dicotômica, Cat1 ) . As próximas duas linhas
de limite (ou seja, Imposto=1,00] e [imposto=2,00]) representam os limiares para os
próximos dois logitos cumulativos, respectivamente. Semelhante à intercepção em re-
gressão linear, os limiares em regressão ordinal muitas vezes não são de interesse, em
si mesmos, mas, no caso de regressão ordinal, são necessários para probabilidades ca-
tegoria predição.

Abaixo segue as equações. Note que devido à suposição de odds proporcional, os


coeficientes angulares são os mesmos para todos os logitos cumulativos com apenas os

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.7 Estimativas dos parâmetros Regressão logística ordinal

limiares diferentes. Esta característica particular de um modelo de regressão ordinal de


odds proporcionais é enfatizada no diagrama abaixo:

Figura 21: Regressão ordinal - Estimativas dos parâmetros

Para a maior parte, você só vai precisar usar as equações na forma acima, se você
quer prever probabilidades para valores dados das variáveis independentes. probabili-
dades previstas são explicadas mais adiante. Também é possível interpretar os coefici-
entes de inclinação em termos de probabilidades de logaritmo.
estimativas dos parâmetros GENLIN - variáveis dicotômicas A interpretação das
variáveis dicotômicas é sem dúvida o mais fácil dos diferentes tipos de variável inde-
pendente e estabelece o cenário para interpretar o caso um pouco mais complicado de
variáveis politômicos (ou seja, as variáveis categóricas com três ou mais categorias).
A variável dicotômica, Neg-Proprio, indica se um participante é proprietário de uma
empresa. Este é realçado na tabela de estimativas de parâmetros abaixo, juntamente
com um lembrete das categorias de esta variável:

Figura 22: Regressão ordinal - Estimativas dos parâmetros

A codificação desta variável foi tal que os participantes que eram donos de empre-
sas (Neg-proprio=Sim) foram codificados ".00"e aqueles que não possuem o próprio
negócio (Ng-proprio=Não) foram codificados "1.00". Por padrão, para variáveis ??ca-
tegóricas, o procedimento GENLIN faz a última categoria a categoria de referência.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.8 Estimativas dos parâmetros GENLIN - variáveis polinomiais
Regressão logística ordinal

Portanto, a categoria de referência para a posse do negócio é os proprietários não-


comerciais (isto é, a [Neg-priprio=1,00]).

A partir da tabela acima, você pode ver que o coeficiente para Neg-prorpio Sim é
0,665. Esta estimativa do parâmetro (coeficiente angular) representa a alteração na pro-
babilidade de log de estar nesta categoria, em vez de a categoria de referência; ou seja,
é uma comparação de ser proprietário de uma empresa (ou seja, Neg-proprio=Sim)
versus não ser proprietário de uma empresa (ou seja, Neg-proprio=Não).

Os coeficientes positivos significam maior pontuação na variável dependente com-


paração com a categoria de referência. Assim, há um aumento na probabilidade de log
de 0,665 de pontuação mais elevada sobre a variável dependente (ou seja, o imposto é
muito alto) para os empresários em relação aos proprietários não-comerciais. No en-
tanto, as mudanças na probabilidades de log não tem muito significado intuitivo. Muito
melhor é relatar mudanças em termos de as probabilidades; isto é, a razão das probabi-
lidades entre as duas categorias, que é chamada a razão de chances. Para uma variável
dicotômica, a razão de é a exponencial das probabilidades de log do coeficiente de
inclinação; isto é, o exponencial de 0,665, o que é 0.665 = 1.944. Isto significa que,
para os empresários, as chances de pontuação superior (sendo em uma categoria supe-
rior) sobre a variável dependente (pensando impostos são muito altos) é quase o dobro
dos proprietários de não-comerciais. Em termos leigos, os empresários são muito mais
propensos a pensar impostos são muito altos do que os proprietários não-comerciais.

Para esclarecer ainda mais o efeito de propriedade de empresas na razão de chan-


ces, você deve relatar os intervalos de confiança de 95% da razãod e chancesdo se o
efeito for estatisticamente significativo. Os intervalos de confiança de 95% da razão de
chances são encontrados coluna ao lado.

A razão de chances de estar em uma categoria superior da variável dependente para


os empresários contra os proprietários não-comerciais é 1,944 (IC 95%, 1,101-3,431),
2 = 5,255, p-value = 0,022.
um efeito estatisticamente significativo, χ(1)

9.8 Estimativas dos parâmetros GENLIN - variáveis polinomiais


A tabela de estimativas dos parâmetros para o procedimento GENLIN mostra os re-
sultados das variáveis utilizadas para a variável política (Dummy), mas a tabela não
fornece o resultado do teste estatístico "omnibus"global para esta variável. Você vai
querer verificar se a variável é estatisticamente significativa geral antes de explorar
quaisquer contrastes específicos relatados na tabela de estimativas de parâmetros (con-
sidere isso um pouco como a verificação de um resultado ANOVA antes de executar
testes post-hoc). O procedimento GENLIN relata um teste global de significância para
cada variável que entrou no modelo de regressão logística nos testes da tabela efeitos
do modelo, conforme destacado abaixo:
A tabela acima mostra o resultado do teste "omnibus"para a variável política usando
a estatística de teste de Wald. A tabela mostra que o efeito global da variável política

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.8 Estimativas dos parâmetros GENLIN - variáveis polinomiais
Regressão logística ordinal

Figura 23: Regressão ordinal - Teste de efeitos

2 = 14,427, p-value = 0,001; isto é, a política tem


é estatisticamente significativa, χ(2)
um efeito estatisticamente significativo sobre a variável dependente. Isto significa que
dependendo do partido que você vote provocará uma resposta diferente na questão do
imposto ser muito alto.

No entanto, ele não explica o que, ou como, as partes diferem. Portanto, depois
de ter estabelecido que o efeito global da política é estatisticamente significativa, você
pode examinar os coeficientes produzidos pelo SPSS na tabela de estimativas de pa-
râmetros, como mostrado abaixo (rótulos de categoria foram adicionados para maior
clareza):

Figura 24: Regressão ordinal - Teste de efeitos

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.9 Estimativas dos parâmetros GENLIN - variáveis contínuas
Regressão logística ordinal

O SPSS cria automaticamente variáveis dummy (indicador) para variáveis categóri-


cas, como a variável política. Por padrão, a última categoria é utilizada como categoria
de referência. No nosso exemplo, isso significa que o efeito das duas primeiras cate-
gorias da variável de política são comparados em separado para a última categoria; ou
seja, o efeito da votação Liberal Democrata é comparada com a votação do Trabalho,
e votante conservador também é comparada com a votação do Trabalho. Infelizmente,
esto essencialmente impede a obtenção do efeito da votação do Trabalho sobre a variá-
vel dependente, mas pode ser obtido, veremo isso mais tarde. É por isso que você não
vê qualquer informação útil ao longo da fileira [política = 3,00].

Se você já usou outros testes estatísticos, como a análise de variância, você pro-
vavelmente usou comparações de pares (testes post-hoc), ou seja, depois de encontrar
um resultado omnibus estatisticamente significativa para uma variável categórica. No
entanto, para uma regressão logística ordinal, você não tem esse luxo. Até agora, de
ter executado as seguintes comparações ’pares’:

• Os liberais vs Trabalhista
• Os conservadores vs Trabalhista

Geralmente quando você executa testes post-hoc, você executa todas as compara-
ções de pares; isto é, cada grupo é comparado com o outro grupo de tal modo que não
há comparações entre pares de grupos que não tenham sido feitos. Considerando as
três categorias da variável de política, existem três possíveis combinações de compara-
ções que podem ser feitas usando esses três grupos: os dois você já fez e um terceiro,
conservadores contra liberais:

• Os liberais vs Trabalho (já executado)


• Os conservadores vs Trabalho (já executado)
• Os conservadores vs liberais (ainda não executar)

Como tal, precisamos executar esta comparação final. Isso não pode ser facilmente
alcançado utilizando o procedimento GENLIN, então você vai precisar recodificar as
variáveis ??originais para que os liberais são codificados "3"e as outras duas categorias
são codificados "1"e "2"; não importa qual, rodar novamente para obter o que deseja.

9.9 Estimativas dos parâmetros GENLIN - variáveis contínuas


Compreender o efeito de uma variável contínua em termos da razão de chances não
é tão útil como com o uso de variáveis indicadoras para variáveis categóricas. Por
exemplo, vamos considerar a variável contínua, idade, como destacado a seguir:
A coluna "B"contém a estimativa do parâmetro para a idade, que tem um valor de
0,242. Esta é a probabilidade de log de estar em um maior categoria da variável depen-
dente e, como acontece com variáveis dicotômicas e politômicos, não tem significado
intuitivo. Isto pode ser alterado usando o odds ratio como tem sido feito antes. A partir

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343


9.9 Estimativas dos parâmetros GENLIN - variáveis contínuas
Regressão logística ordinal

Figura 25: Regressão ordinal - Teste de efeitos

da tabela acima, você pode ver que o odds ratio é 1.274. Para uma variável contínua,
isto significa que uma mudança de uma unidade de idade (isto é, um aumento de um
ano de idade) está associado com uma razão de chances de 1,274; isto é, para cada
aumento de um ano de idade, as chances de considerar impostos muito altos aumenta
em 1.274 vezes.

Professor José Alberto sosestatistica2015@gmail.com (11)9.7525-3343

Das könnte Ihnen auch gefallen