Sie sind auf Seite 1von 46

Regresso de Cox

Viso global
Regresso de Cox, que implementa o modelo de riscos
proporcionais ou modelo de durao, projetado para anlise de
tempo at que um acontecimento ou de tempo entre eventos. uma
ou mais variveis preditoras, covariveis chamados, so usados
para prever um estatuto (do evento) varivel. A anlise univariada
exemplo clssico o tempo de diagnstico de uma doena terminal
at que o caso de morte (da a anlise de sobrevivncia). regresso
de Cox tambm utilizado para a adopo de polticas / estudos de
difuso (ver Jones & Branton, 2005). A sada central de estatstica
a razo de risco.
Observe que ao contrrio dos modelos paramtricos discutido na
seco sobre a histria de modelos evento (EHA), regresso de
Cox semi-paramtricos e no requer do pesquisador para
especificar uma taxa de risco de base ou estimar o risco absoluto.
Por esta razo, a regresso de Cox pode ser preferido em relao
aos modelos paramtricos EHA quando no h nenhuma razo
clara terico para postular uma relao de risco particular de base.
Na maior parte dos casos, no h motivo to forte, clara e os
pressupostos mais rigorosos de dados de modelos paramtricos
EHA no se justificam, tornando os modelos de Cox a melhor
escolha.
Stata o pacote de software preferido para Cox de regresso e
anlise de sobrevivncia. Alm Stata, Limdep outro pacote
estatstico com amplo suporte para os modelos de histria do
evento, incluindo os modelos de Cox. No Stata, declarar os dados
com o comando stset, em seguida, executar a regresso de Cox
com o comando stcox. Para a regresso de Cox ordinrio em SPSS
(ex-SPSS), Analisar seleccionar, de sobrevivncia, regresso de
Cox, entra a varivel tempo, introduzir a varivel covariveis (s);
inserir a varivel de estado (a varivel evento) e definir eventos
para especificar o valor da ocorrncia (ex., a morte = 1), em
Opes voc pode querer verificar que voc quer 'Mostrar a funo
de base "para obter o efeito de tempo apenas para comparao com
os efeitos covarivel.
regresso de Cox um modelo especfico dentro da categoria mais
ampla de anlise da histria do evento. Para o tratamento


Contedo
Principais
conceitos e termos
adequao do
modelo
Modelos
A regresso de
Cox
Estratificada de
regresso de Cox
Regresso de Cox
na Stata
Regresso de Cox
no SPSS / SPSS
Estatstica
Pressupostos
SPSS / sada SPSS
Perguntas mais
frequentes
Bibliografia
relacionados importante, ver a discusso em separado do histrico
de eventos mtodos. Veja tambm a discusso em separado de
Kaplan-Meier , um procedimento para estimar funes de
sobrevivncia e risco, mas no efeitos covarivel. Veja tambm as
tabelas de vida procedimento, utilizado para descritivo, estudos
atuariais de durao onde o tempo a nica varivel salientes e
censurada e casos de censura no diferem.


Termos e Conceitos Fundamentais
o Variveis
varivel de estado. Tambm chamado de evento ou censura varivel, a varivel de estado o
dependente na regresso de Cox. O exemplo clssico a morte varivel binria em estudos
mdicos, com a morte igual a 0 ou 1 para sobreviver morte. No entanto, o pesquisador pode
atribuir um intervalo de valores ou uma lista de valores para o evento "condio", que no tem
de ser "1". A varivel status analisada em relao a uma varivel de tempo (veja abaixo) ou
com risco de taxa de sobrevivncia a sada central de regresso de Cox. Em um estudo de
adoo de poltica como o evento de status, de regresso logstica se concentrar na anlise da
varincia (o logit da) a adoo, no momento da coleta de dados. Em contraste, a regresso de
Cox na anlise centra-se a probabilidade de aprovao em qualquer perodo de tempo. Porque
alm de conjuntos histricos no se sabe o estado final para todas as observaes ou o tempo
para alcanar o status final, dados censurados e conter casos de censura, que compatvel com
os pressupostos da regresso de Cox, mas no com os de regresso logstica.
varivel tempo. O tempo de durao varivel de medidas para o evento definido pela varivel
de estado. A varivel tempo pode ser discreto ou contnuo. Normalmente, o "tempo" varivel
um contador simples de unidades de tempo desde o incio da srie. Se o tempo medido por
uma varivel de contador em unidades de tempo, o modelo de Cox assume que o risco aumenta
linearmente com o tempo, condio de co-variveis no modelo. possvel, entretanto, para a
varivel tempo para ser logartmica ou alguma outra funo do contador. A significncia ou
no significncia de covariveis do modelo pode variar de acordo com o tipo de tempo varivel
utilizada. Unidades menores intervalos de tempo, proporcionar mais tempo, o que aumenta a
potncia dos modelos Cox (menos chance de um erro de Tipo II: pensando que no h relao
entre as variveis dependentes do modelo, quando na verdade no existe).
Anlise do tempo uma varivel de tempo, onde t = 0 o tempo de incio do risco.
Aparecimento de risco significa quando a falha (ou o "evento"), primeiro torna-se
possvel. Tempo de anlise rotulado de "t", ao passo que o "tempo" usado quando 0
tem outros significados, tais como incio da medio. A origem " o" tempo "quando o
tempo de anlise, t = 0. Assim, t = tempo - origem. possvel que o tempo = t, se o
evento (ex., a adoo) possvel de imediato, desde o incio da medio, mas nenhum
caso ainda no foram efectuadas do evento (none adotaram). Stata pressupe tempo de
anlise e t = tempo padro. No entanto, se a varivel tempo no conjunto de dados no
refletem sendo 0 o incio do risco, mas h uma origem diferente, a origem da funo
Stata () pode ajustar a varivel tempo de ser uma varivel de tempo de anlise. Alm
disso, a escala () funo pode ajustar o intervalo de tempo para ser o que conveniente
para a anlise (por exemplo, converter dias para anos). Isto feito no Stata usando o
comando stset, discutido mais adiante na seo sobre "os dados em tempo de
sobrevivncia (dados r)".
Covariveis so o preditor / variveis independentes em um model.Covariates Cox pode ser
categrico (ex. sexo, raa ou contnua (ex. renda, idade). Covariates tambm pode ser um
tempo fixo ou tempo-dependente, uma diferena que afeta a forma como a covarivel
modelado em procedimentos Cox. Por exemplo, "contiguidade", (ex., codificadas 0 ou 1 para
indicar se um estado era contguo a um determinado estado ou no) seria em tempo fixo.
"renda familiar mdia", que alteraes por ano, seria tempo de varivel (dependente do tempo).
Covariveis dependentes do atraso de tempo. Recomenda-se (ex., Box-Steffensmeier
& Jones, 2004: 111) que covariveis dependentes do tempo de inscrio no formulrio
defasados. Isso para evitar simultaneidade de causa e efeito. A covarivel visto
como uma causa do evento, mas se altera o valor literalmente, ao mesmo tempo que o
evento ocorre, a lgica de causa-efeito perdida mesmo que o novo valor da covarivel
incorporado na taxa de risco. Alm disso, quando a medio do tempo do evento
impreciso, ficando ajuda a garantir que as mudanas no tempo-dependente preceder
covarivel eventos.
Centralizador. Se o pesquisador estar analisando as taxas de risco de base, os dados
devem ser centradas covarivel (subtrao da mdia) para que eles tenham um ponto
zero natural. Caso contrrio, as taxas de risco de base, que so as taxas de tempo
apenas quando todas as co-variveis so zero, esto estimados para os pontos que no
existem no conjunto de dados, resultando em funes de risco enganosas de base (ver
Box-Steffensmeier & Jones, 2004: 65) .
covariveis categricas so variveis explicativas que podem ser utilizados em regresso de
Cox. SPSS / SPSS ir convert-los automaticamente em um conjunto de variveis dummy,
omitindo uma categoria, como usual (por padro, a ltima categoria, embora o SPSS / SPSS
permite especificar manualmente a primeira vez). Cada varivel dummy ter seu prprio
coeficiente de regresso. No necessrio especificar como covariveis categricas
dicotmicas que j esto codificados indicador (0,1) a menos que o investigador deseja para
especificar grupos para fins de parcelas. A interpretao deste coeficiente depende do tipo de
esquema de codificao:
1. Indicador ", aka codificao dummy", o padro: coeficiente de regresso compara o
efeito do manequim com a categoria de referncia (a categoria omitida das covariveis
categricas, geralmente a ltima categoria - o SPSS / SPSS permite ao usurio
especificar ou Apelido como categoria de referncia).
2. Desvio: O efeito de cada categoria, exceto a categoria de referncia comparado com
o efeito mdio de todas as categorias.
3. Repetida: O efeito de cada categoria comparado com a categoria seguinte, exceto
para a ltima categoria.
4. Diferena: Cada categoria diferente da primeira em relao ao efeito mdio de todas
as categorias anteriores.
5. Helmert: Cada categoria diferente da do passado comparado com o efeito mdio de
todas as categorias subseqentes.
6. Polinomial: As categorias so tratados como igualmente espaados ea covarivel
transformado, quadrticos e cbicos componentes linear, etc
O "categricas codificaes varivel" documentos tabela os cdigos reais aplicados e til
quando h necessidade de lembrar que a categoria de referncia omitida.
Data de instalao e exemplo. Setup Os dados so discutidos abaixo. Na figura abaixo, o
exemplo como implementado no SPSS / SPSS est prevendo tempo para a ratificao da
Constituio E.U.. (SPSS / SPSS dados podem ser transferidos para o Stata simplesmente
usando Arquivo, Salvar Como, a partir dos menus e selecionar uma das opes Stata para criar
uma. Dta arquivo).
A varivel status "Status" e equivale a 1 para todos os estados uma vez que no h censura
casos (todos os treze estados finalmente ratificado a Constituio). A varivel tempo "Days",
de medio em dias o tempo que levou a aprovao da Constituio at a determinado estado
ratificou. Outras variveis so fatores ou categricas (ex., o tamanho do estado: covariveis
pequeno, mdio ou grande) ou contnua (ex., por cento que a votao para a ratificao
passado) ou dichotomouse covariveis (ex., se o Estado foi um centro de Bill of Rights de
presso).

Stata instalao. SPSS Embora os dados podem ser exportados diretamente para uso Stata,
Stata, note que tem duas etapas necessrias antes de emitir o comando stcox de regresso de
Cox.
Declaraes. Deve-se usar o comando stset para declarar o tempo de anlise e
variveis de incapacidade. No exemplo abaixo, o comando "Dias stset, falha
(Status)". Isso faz com que Dias varivel tempo e Status da varivel fracasso. Para este
exemplo, todos os casos, ter um status de 1, onde 1 indica falha (que neste exemplo
significa a ratificao da Constituio: "falha" o evento de interesse, se o evento
normativamente positivo ou negativo).
variveis Dummy. Considerando que o SPSS / SPSS criar variveis dummy
automaticamente se uma varivel declarada categrica categricas processando o
boto (veja a figura acima), isso deve ser feito explicitamente no Stata. No exemplo
desta seo, h uma varivel "Tamanho", para o tamanho do Estado, a partir de 1 =
pequeno estado para estado 3 = grande. O cdigo Stata "tabular Size, gen (tamanhos)"
a seguir cria as variveis dummy sizes1, sizes2 e sizes3 da varivel tamanho. Mais
tarde, no comando stcox, sizes1 sizes2 e so utilizados como indicadores, com sizes3
ser omitidos como categoria de referncia. Os clculos resultantes da razo de
verossimilhana e os coeficientes de risco so, ento, o mesmo para Stata e / SPSS
SPSS.

Observaes
Observaes censuradas direita. Um caso censuradas direita quando o tempo da
falha / evento conhecido apenas por ter ocorrido aps t.That tempo , um caso de
direito censurado um evento para o qual a censura (a indicada pela varivel de estado)
ainda no tinha ocorrido no final do perodo de medio. Salvo disposio em
contrrio, a observao "censurada" censuradas direita.

Esquerda observaes censuradas. Um caso da esquerda censurada no momento da
falha / evento conhecido apenas por ter ocorrido antes do tempo t.
observaes truncadas, tambm chamado de-truncado casos esquerdo, so aquelas que
no mensurada em todos os perodos de tempo, at um determinado perodo de tempo,
em seguida, so medidos, geralmente porque no (o evento ocorre) para que no perodo
de tempo determinado. (Nota casos direita truncado so as mesmas observaes
censuradas direita).
Funes
As funes de sobrevida. A funo de sobrevida cumulativa a percentagem de casos
que sobrevivem at um determinado ponto do tempo (por exemplo, para quando o
conjunto de dados foi coletada). A funo de sobrevida de base a percentagem que
iria sobreviver com base no tempo sozinho. A funo de sobrevivncia covarivel a
percentagem que iria sobreviver dado a covarivel (s). O coeficiente de regresso
padronizado (s) da covarivel (s) / so uma medida da importncia relativa da
covarivel (s) para a sobrevivncia, controlando o tempo. Como razes de risco se
prestam a uma discusso mais intuitivo, no entanto, os relatrios de resultados de
regresso de Cox geralmente foco em funes de risco.

O SPSS / SPSS exemplo acima grficos das probabilidades acumuladas esperada de
um estado, tendo o nmero de dias reflete no eixo X antes da votao para a ratificao
da Constituio, para um estado hipottico, que est na mdia dos variveis preditoras,
que so VotePct (cento favorecendo ratificao, refletindo a tenso dos votos) e
tamanho (estados pequenos e mdios contra a categoria de referncia dos grandes
Estados). Nota testes de significncia podem mostrar uma covarivel no
significativa, entretanto.

Stata d um grfico similar usando o stcurve ", a sobrevivncia de comando
postestimation" aps o comando real de regresso de Cox, que deve incluir o basesurv
"()" comando para criar uma base varivel funo de sobrevivncia, aqui chamado de
"base": stcox VotePct Direitos sizes1 sizes2 , Baseline basesurv ().
Riscos. O "perigo" o evento de ocorrncia de interesse. Em estudos de medicina o
risco pode ser a morte. Em estudos industrial o perigo poderia ser avaria do motor. No
entanto, o risco pode ter um significado positivo, como nos estudos de difuso de
tempo para aprovao, onde o perigo a adoo da inovao.
taxas de risco e taxas de risco so discutidas mais adiante, mas em breve:
taxas de risco. A taxa de risco a probabilidade instantnea de determinado
evento (por exemplo, a morte = 1 em um estudo mdico) que ocorrem em um
determinado perodo de tempo, a sobrevida dada atravs de todos os intervalos
de tempo antes. taxas de risco so apresentados graficamente em um grfico da
funo de risco.
As relaes do perigo. A taxa de risco calculado como base o logaritmo
natural e elevado potncia de b: e
b,
escrito em folhas de clculo como a
"funo exp (b)". Para uma covarivel contnua, a taxa de risco a relao
entre a taxa de risco dado um aumento de uma unidade na covarivel para a taxa
de risco sem esse aumento. Para uma covarivel codificados 0, 1 (ex., placebo
= 0, tratamento = 1), a taxa de risco a estimativa da relao entre a taxa de
risco em um grupo (ex., o grupo de tratamento) para a taxa de risco de outro
grupo (ex., o grupo placebo). De qualquer forma, a taxa de risco uma medida
de tamanho de efeito para avaliar o sentido ea importncia do efeito de uma
varivel preditora do risco relativo do evento, controlando por outros preditores
no modelo. Ou seja, o papel das variveis preditoras avaliado mais por olhar
razes de risco de olhar para os coeficientes b Cox de regresso.
riscos proporcionais. Um pressuposto fundamental do modelo de riscos
proporcionais de Cox : a taxa de risco permanecer constante ao longo do
tempo. O modelo de Cox no diz nada sobre a forma absoluta da curva formada
por duas taxas de risco ao longo do tempo, s que a sua relao ser constante.
Note-se que riscos proporcionais significa que os riscos so proporcionais ao
longo do tempo, no que eles so os mesmos ao longo do tempo. As encostas
das taxas de riscos proporcionais para os dois grupos pode ser para baixo, por
exemplo, indicando reduo de risco ao longo do tempo. Note tambm que as
taxas de risco no so relaes de risco e suas respectivas interpretaes
diferentes (isto uma confuso em uma parte da literatura existente utilizando
regresso de Cox).
verossimilhana parcial e por modelos de Cox so semi-paramtricos. modelos de
Cox no assumimos nenhuma distribuio especfica para a forma da funo de risco,
concentrando-se na previso da taxa de risco. modelos paramtricos, tais como
exponencial ou log-linear de eventos modelos de anlise da histria, em contraste,
necessrio especificar a forma assumida da funo de risco. modelos de Cox no usar a
estimativa da probabilidade mxima, mas sim um mtodo de mxima verossimilhana
parcial que requer apenas a ordem dos tempos de falha no, os intervalos entre os
tempos de falha, ser conhecido quando a estimativa do ndice de risco. tempos de
sobrevivncia real no so utilizados na estimativa da probabilidade parcial da funo
de risco.
Manipulao vezes falha vinculados. Idealmente, os mtodos de
verossimilhana parcial no teria dados vinculados, mas sim uma ordenao
simples de tempos de falha. Para lidar com o fato do mundo real que existe
amarrado vezes falha, algoritmos de probabilidade parciais foram adaptados
para lidar com laos. O mtodo de tratamento de laos pode ser definido pelo
pesquisador em SPSS / SPSS e outros softwares. O mtodo padro (em SPSS /
SPSS, Stata e SAS) o mtodo de Breslow. No entanto, para alm do mtodo
de Breslow, trs outros mtodos esto disponveis: o mtodo Efron, o mtodo da
verossimilhana marginal exato eo mtodo da verossimilhana parcial exato. O
mtodo de Breslow adequada quando existem poucos laos. O mtodo Efron
considerado mais preciso do que Breslow quando os laos so poucos.
Quando os laos so numerosas, um dos mtodos exatos podem ser
selecionados. A escolha do mtodo de desempate raramente afeta os resultados
substantivos. No Stata, a sintaxe do comando geral Cox de regresso : stcox
[varlist] [se] [no], [opes]. As opes para os quatro mtodos de tratamento
disponveis so os laos de Breslow, efron, exactm e exactp. Para uma
descrio mais pormenorizada do Breslow e outros algoritmos, consulte Caixa
de Steffensmeier & Jones (2004: 54-58).
Baseline taxa de risco. A taxa de risco podem ser divididos em risco a relao inicial
(dependendo do tempo sozinho) e da covarivel ndice de risco (em funo da
covarivel (s), o controle de tempo). A diferena entre o modelo de referncia eo
modelo com covariveis mostra o efeito das covariveis do modelo. Ateno: Box-
Steffensmeier & Jones (2004: 89 nota), "porque a estimativa de Cox, o risco de base
to intimamente ligado ao dos dados observados, difcil generalizar estas estimativas
para outras configuraes." Ou seja, as estimativas Cox da taxa de risco de base pode
ser considerado overfitted. Isso discutido mais abaixo . Uma vez que os
pesquisadores utilizam modelos Cox so enfocadas principalmente em razo de perigo
da co-variveis, e no na razo de risco de base, isto pode ser irrelevante. Quando o
investigador refere a dependncia de tempo to importante, no apenas o efeito das
variveis independentes (covariveis), paramtricos evento anlise histrico modelos
ainda podem ser preferidos,

Como ilustrado acima, a base de risco cumulativo para o modelo de interceptar e s o
risco cumulativo na mdia de covariveis no modelo completo apresentado no
"Survival" Tabela de SPSS SPSS output /. Isso discutido mais abaixo , na seo
sobre a produo estatstica.
Hazard ratio com covariveis .. A taxa de risco de base representa o efeito da varivel
tempo sozinho, quando todas as covariveis (s) = 0. A taxa de risco indica a
probabilidade de um evento que ocorre mais rpido ou mais lento dado alguma
covarivel (s), mas no diz quanto mais rpido ou mais lento (embora no seja raro na
literatura para encontrar a taxa de risco interpretado dessa maneira). Interpretando
taxas de risco so discutidas abaixo , na seo de estatsticas.
Exemplo. Hazard ratios abaixo de 1,0 indicam que o mais covarivel, menor o risco.
Hazard ratios acima de 1,0 indicam que quanto maior a covarincia, maior o perigo.
Assim, em um modelo de vida determinado tipo de gerador eltrico ou rolamentos de
esferas e dada carga eltrica, se "rolamentos" = 0 para o estilo antigo e rolamentos = 1
para o novo estilo, ea taxa de risco de rolamentos 0,06, isto significa que vai do velho
para o novo estilo rolamentos reduziu o risco de o gerador no, controlando a carga. A
taxa de risco de 0,06 a variao proporcional em perigo quando os rolamentos da
varivel aumenta em 1 unidade (ou seja, vai de 0 velho estilo para um novo estilo). Se,
no entanto, intervalos de confiana a alta ea baixa na taxa de risco incluram rolamentos
1.0, no poderamos ter certeza de um nvel de confiana de 95% rolamentos que
realmente fez a diferena. Para o mesmo modelo, como ilustrado acima para a funo
de sobrevivncia covarivel, a funo de risco covarivel parecido com este:

Um grfico similar gerado pelo Stata, mostrada abaixo. No Stata, este gerado pelo
comando postestimation ", stcurve, cumhaz". O comando antes de regresso Cox deve
ter solicitado o creastion de uma varivel de risco de base acumulada, aqui chamado
baselinech: ex. "Stcox VotePct Direitos sizes1 sizes2, basechazard baselinech ()".

Compare isso com o grfico da funo de risco em si (no cumulativo), como abaixo
foi gerado com o comando postestimation Stata "stcurve, em perigo". Este comando
requer o comando stcox antes usar o basehc (opcional) para definir uma varivel
baseling funo de risco, aqui baselinehc: "stcox VotePct Direitos sizes1 sizes2,
basehc" (baselinehc).

Para o tempo-invariante covariveis contnuas. A taxa de risco para no-
tempo-variando covariveis a quantidade de mudanas no risco da ocorrncia
de cada unidade de mudana na covarivel. Por exemplo, um hazard ratio de
1,12 significa que h um aumento de 12% na taxa de ocorrncia de um aumento
de 1 unidade na covarivel, controlando para outras variveis no modelo. A
taxa de risco de 1,05 significa que para um aumento de 1 unidade na covarivel,
h um aumento de 5% na taxa de risco da varivel evento que est sendo
estudada. A taxa de risco de 1,1 para a covarivel idade significaria que um
aumento de um ano de idade estaria associada com um 0,1 (10%) aumento na
taxa de risco. Dez aumento de anos de idade que corresponde a 1,1 =
10
= 2,59
aumentar a taxa de risco por um fator de aumento de 2,59% = 159.
Para variveis no tempo covariveis contnuas, a taxa de risco a quantidade a
taxa de ocorrncia mudanas para uma unidade de mudana no tempo-
dependente da funo da covarivel.
Para covariveis binrio. Onde a covarivel uma varivel dicotmica
agrupamento, como o sexo, a taxa de risco para o sexo = 1 est na comparao
com o grupo do gnero = 0 (ex., se a relao for superior a 1,0, o sexo um grupo
= mais provvel que incorrer o evento). Por exemplo, uma vez que o evento
no curou 0/healed = = 1, o placebo covarivel = 0 / tratamento = 1, e uma taxa
de risco calculado de 3,0, podemos dizer que uma pessoa no grupo de
tratamento que sobreviveu a um determinado momento tem trs vezes mais
chances (odds sentido, no de probabilidade) como uma pessoa no grupo
placebo de ser curado no incremento da prxima vez. Uma vez que a taxa de
risco uma constante, podemos tambm dizer que por uma chance de 3:01 uma
pessoa no grupo de tratamento mais provvel que alcance o estado de cura de
uma pessoa em um grupo placebo. Este tambm o mesmo que dizer que h
um 04/03 = 75% de chance da pessoa no grupo de tratamento ser curado em
primeiro lugar. No podemos dizer que a pessoa tratada vai curar trs vezes
mais rpido, nem o tempo de cicatrizao cortado em um tero, nem que trs
vezes mais pessoas tratadas sero curadas por um determinado tempo (veja
Spruance et al., 2004).
Como segundo exemplo, para o evento "governador reeleito = 0, no reeleito =
1," para o "estado republicano covarivel = 0, o estado democrtico = 1," a taxa
de risco de 1,5 significa que um governador de um estado democrtico que foi
no escritrio de tempo t tem uma chance de 1,5:1 (ou 3:2) de no ser reeleito no
tempo t +1, em comparao com um governador de um estado republicano. Isto
equivale a dizer que h 60% (05/03), oportunidade que a durao no cargo at o
caso de reeleio no vai ocorrer mais cedo por um governador de um estado
democrtico em comparao com um em um estado republicano.
coeficientes de risco de covariveis Quando o coeficiente de regresso
unexponentiated para a funo de risco covarivel maior do que 0 para uma dada
covarivel, em perigo (sobrevivncia ou no) est aumentando enquanto que os
aumentos covarivel. Se inferior a 0, risco est diminuindo e aumentando a
probabilidade de sobrevivncia como covarivel que diminui. O coeficiente
exponencial a razo de risco e interpretada em relao ao 1.0, no 0, como discutido
acima. Uma vez que um caso com o menor tempo para o evento mais provvel que
incorrer o evento, as taxas de risco so tambm muitas vezes interpretada como a
probabilidade de ocorrncia de um determinado caso. Pela mesma razo, as taxas de
risco de no avaliar os efeitos absolutos, o risco de apenas relativa.
Os intervalos de confiana pode ser calculado em torno de uma taxa de risco.
ndices medianos. Porque a taxa de risco relativo, mas no mostra efeito absoluto, outras
medidas de tempo podem ser utilizados para avaliar a magnitude do efeito sobre o tempo de
durao. A relao dos tempos mediana o candidato bvio para tal medida. Por exemplo,
em um estudo do efeito de pastilhas de zinco sobre a durao do resfriado comum, a relao
entre o tempo de cicatrizao mdio entre pastilhas de zinco e os grupos placebo losango seria
medir o efeito das pastilhas de zinco sobre o tempo de durao absoluta. Tabelas de vida,
discutido abaixo, esto entre os meios para calcular tempo mdio de uso em propores
medianas.
Tabelas de vida. Relacionados, mas no faz parte do SPSS / SPSS 's mdulo Cox so tabelas
de vida , acessado em SPSS / SPSS selecionando Analisar, Sobrevivncia, Tbuas de Vida. A
tabela a vida lhe dar o nmero de entrar e sair da piscina de risco em qualquer intervalo de
tempo, o nmero de expostos ao risco, o nmero de destino, proporo que encerra, a
proporo de sobrevivncia, as propores cumulativas, ea taxa de risco e seu erro padro para
cada intervalo de tempo. Unrau & Coleman (2006), por exemplo, tabelas de vida de usar para
analisar as taxas de risco para o abuso de crianas em termos de tempo de descarga de um
programa de servios sociais, sugerindo a aplicao da poltica a ser decisivo quanto tempo
aps o trmino do programa para agendar o acompanhamento social dos trabalhadores visitas.

o Modelo de ajuste usando a razo de verossimilhana, a AIC, e anlise de resduos discutida na
seo sobre anlise histrico evento .
o Modelos. Vrios modelos de regresso de Cox existem para caber vrios conjuntos de pressupostos
de dados / situaes.
constante de modelos de regresso de Cox-Time. Nestes modelos, covariveis so constantes
ao longo do tempo por um determinado assunto / observao (ex., sexo = 1 ou driverstatus =
1). No SPSS / SPSS, esta opo suporta tipos de terrenos e de poupana das variveis de
diagnstico no est disponvel no modelo tempo-dependente. No SPSS / SPSS, Anlise
selecionar, sobrevivncia, regresso de Cox. No Stata, o comando verifica stvary para ver se
so covariveis constante de tempo ou tempo-dependente, e executa o comando stcox
regresso de Cox.
dependente modelos de regresso de Cox-Time. Nestes modelos, uma covarivel varia ao
longo do tempo e pode haver constante covariveis tambm. Isto significa risco relativo (razo
de risco observado linha de base) varia ao longo do tempo. Riscos ainda so proporcionais
ao longo do tempo, mas s dentro dos blocos de tempo formado por mudanas nas covariveis.
Isto , cada vez que uma mudana significativa no valor covarivel, h um "salto" para cima ou
para baixo em perigo, mas tambm entre os perigos saltos so proporcionais. No SPSS / SPSS,
Anlise selecionar, Survival, Cox w / dependente do tempo de covariveis. No Stata, o
comando stcox usado em conjunto com a TVC (varlist) opo de declarar variveis no tempo
covariveis. Tempo variando covariveis podem ser continuamente varivel (ex., aumento da
idade de 1 unidade cada vez que aumenta o tempo t em 1) ou pode ser discreta variao (ex., o
rendimento pode subir, ser o mesmo, ou ir para baixo do perodo de tempo ao tempo perodo,
em nenhum padro estabelecido). O coeficiente de regresso, b, continua a ser a mesma para
diferentes covariveis tempo, mas o efeito varia de acordo com a magnitude da varivel.
modelos de fragilidade. modelos de fragilidade face situao em que o mesmo indivduo
pode enfrentar o perigo mais uma vez, levantando a possibilidade de que, devido a alguma
causa no mensurvel e talvez desconhecido (ou seja, a causa da "heterogeneidade no
observada"), alguns assuntos podem ser mais provveis do que outros a experincia repetida
perigos. Esta probabilidade a fragilidade "do assunto e nos modelos padro Cox um efeito
desmedido. Fragilidade do modelo modelos o efeito fragilidade como um efeito aleatrio.
Assim, modelos de fragilidade so anlogas s de regresso com efeitos aleatrios. Ao estimar
a fragilidade como uma causa da heterogeneidade no observada como um efeito aleatrio, os
coeficientes para as variveis medidas so menos tendenciosos. Alm disso, claro, o efeito
de fragilidade (nu) estimado e pode ser plotado no eixo y contra caseid no eixo x, mostrando
que os casos so os mais frgeis. A fragilidade assumida ser constante ao longo do tempo,
independente das covariveis, e ser elaborada a partir de uma determinada distribuio
(geralmente de gama), que o pesquisador deve especificar. modelos de fragilidade pode ser
mal se tendenciosa fragilidade est correlacionada com as co-variveis (Hausman, 1978) ou a
distribuio de errado assumido (Blossfeld & Rohwer, 1995). Fragilidade modelos so
suportados pelo Stata , mas no pelo SPSS / SPSS.
Condicional modelos de fragilidade. modelos de fragilidade condicional modificar modelos
de fragilidade para ajustar para a dependncia do evento. Estudos de simulao de Box-
Steffensmeier & DeBoef (2006) demonstraram a superioridade dos modelos de fragilidade
condicional em relao aos modelos padro de fragilidade em condies de dependncia do
evento. modelos de fragilidade condicional estratificar casos por nmero de eventos (1 para a
primeira experincia do evento, duas para o segundo, etc.) Se a estimativa de varincia
fragilidade significativo em um modelo de fragilidade condicional, depois heerogeneity
observado afeta o modelo de dependncia, ao explicar o caso. Veja tambm Box-
Steffensmeier, DeBoef & Joyce (2007), onde os modelos de fragilidade condicional foram
personalizados programados na linguagem R ..
Evento dependncia existe quando enfrentando o evento um momento anterior afeta a
probabilidade de experimentar o evento um momento posterior. Para verificar a
dependncia do evento, parcela do risco cumulativo de y por x tempo, estratificando-se
pelo nmero de eventos. Quando depdendence evento apresentar, a diferentes
estratos ir mostrar claramente diferentes curvas de risco cumulativo em funo de
modelos padro Cox.
eventos modelos repetidos, tambm chamado de "episdio vrios" modelos, so direcionados
para situaes onde os eventos de repetio, tais como ataques mltiplos com uma doena e
cura para os doentes, ot vrios perodos de paz e de guerra para as naes. eventos repetidos
so discutidas mais adiante na seo de anlise de histrico de eventos , mas pode ser
implementado como modelos de Cox tambm. Stata mas no SPSS / SPSS suporta modelos
repetidos eventos.
Competindo modelos de riscos, tambm chamado de "mltiplos destinos" modelos, so
dirigidos a situaes em que o evento terminal pode ocorrer mais de uma razo. Por exemplo,
na terminao de guerras pode ocorrer atravs da negociao ou a derrota. modelos
concorrentes riscos tratar razes diferentes como diferentes eventos, permitindo a comparao
das funes de risco em riscos competitivos. modelos de riscos competitivos so discutidas
mais adiante na seo de anlise de histrico de eventos , mas pode ser implementado como
modelos de Cox tambm. Stata mas no SPSS / SPSS suporta modelos concorrentes riscos.

o A regresso de Cox. Como em outras formas de regresso, regresso de Cox suporta "stepwise",
bem como "enter" (todas as variveis do modelo entrou em uma etapa) e "block" (variveis entrou em
blocos especificado pelo usurio), mtodos para a insero de variveis independentes (as covariveis
). A cada passo, os mtodos stepwise adicionar a varivel com maior pontuao significativa. Alm
disso, em cada etapa, o residual do qui-quadrado calculado e exibido nas variveis "Not in a
equao" da tabela. Se o residual do qui-quadrado significativo, pelo menos uma das variveis ainda a
ser adicionado ao modelo significativa.
critrio de entrada. A estatstica de contagem utilizado pelo SPSS / SPSS como critrio de
entrada. Em cada etapa, a varivel com a estatstica de maior pontuao no nas variveis "na
equao de mesa" a prxima a ser inserido na etapa seguinte.
critrios de remoo na regresso "Se o mandato Removido mesa", uma "perda do qui-
quadrado" estatstica calculada em cada etapa, refletindo a contribuio das variveis para o
modelo. Para qualquer determinada varivel, a varivel removida se o significado da perda
do qui-quadrado maior do que 0,10.
"Omnibus Testes de modelo de coeficientes" tabela usa-2LL para testar a mudana a partir da
etapa anterior, ou a mudana do bloco anterior (se a entrada de bloco usado, caso contrrio
esta ser a mesma da etapa anterior). Se a importncia global 0,05 ou menos, em qualquer
etapa, ento pelo menos uma das variveis no modelo em que ponto significativa. Se a
mudana de significado etapa anterior 0,05 ou menos, em qualquer etapa, a varivel
adicionada em que etapa significativo. Se a mudana de significado bloco anterior 0,05 ou
menos, em qualquer etapa, a varivel (s) acrescentar a este bloco / so significativas. No
passo a passo para trs, onde est a remover uma varivel de cada etapa, se o significado da
mudana> 0,10, convencional a concluir que a excluso dessa varivel se justifica. Este
critrio de remoo geralmente baseada na razo de verossimilhana com base em
estimativas de mxima verossimilhana parcial, mas o usurio pode selecionar, em vez da
razo de verossimilhana com base em estimativas de parmetros condicionais (semelhante,
mas mais rpido computacionalmente), ou a estatstica de Wald.

o Regresso de Cox estratificado. Ao entrar covarivel categrica no "Strata" caixa de dilogo de
regresso de Cox no SPSS / SPSS, ir obter um perigo funes distintas de base para cada valor da
varivel categrica. Algum poderia fazer isso, claro, se pensava que tinham funes diferentes
categorias de base diferente, que no foram proporcionais (se fosse proporcional, pode-se usar o
would-be varivel estratificao como covarivel; proporcionalidade pode ser verificado pela Log-
Minus- Log parcelas de sobrevivncia, discutidos abaixo, na seo sobre "Parcelas"). Porque preciso
assumir os mesmos efeitos em todas as categorias, apenas um conjunto de coeficientes agrupados so
computados para as co-variveis (indicadores). A varivel estratificao no tratado como um
preditor e no os coeficientes so calculados por ele.

o Regresso de Cox Com ou Sem-Dependent Covariates Tempo em Stata. No Stata, regresso de
Cox executado com o comando stcox depois de declarar uma sobrevida formato dataset tempo com o
comando stset, discutido acima. covariveis dependentes do tempo, se houver, so declarados no
comando stcox usando o TVC (varlist) opo. O STS, agitar e comandos ltable gerar resultados
estatsticos relacionados com a anlise de sobrevivncia. O comando stcurve pode ser usado com ou
stcox StrEG para produzir sobrevivncia, risco e parcelas risco cumulativo de funes, que permitem a
comparao dessas funes entre os diferentes nveis de covariveis. O STS gerar comando adiciona
novas variveis para o conjunto de dados baseado em risco previamente modelados e funes
relacionadas. Nas variantes de stcox discutido abaixo, presume-se que j declarou stset / definido o
conjunto de dados o tempo de sobrevivncia, como descrito acima. Exemplos disso so a manual de
Stata.
Cox de regresso simples com dados no censurados. Comando: rolamentos de carga stcox.
Para um conjunto de dados sobre quanto tempo geradores eltricos ltima at a falha, a carga e
os rolamentos so covariveis que no variam no tempo. A sintaxe do comando geral stcox
(varlist). A varivel tempo at a falha failtime, declarado pelo stset mais cedo e por isso no
mencionados no comando stcox. Todos os casos (geradores) falharam, no h ainda geradores
de trabalho (sem censura casos). A probabilidade de registro e sua probabilidade tambm
impresso. Se a probabilidade de a probabilidade de registro 0,05 ou menos, o modelo como
um todo importante. A tabela de sada principal ir mostrar a relao de risco, o seu erro
padro, o seu nvel de probabilidade, e seus intervalos de confiana.
Cox de regresso com dados censurados. Comando: idade stcox droga. Para um conjunto de
dados sobre o tratamento do cncer, onde drogas = 1 significa que o paciente recebeu um
medicamento contra o cncer ao invs de um placebo. Anteriormente o comando stset
studytime definida como a varivel tempo para o evento e definir a varivel morreu como a
varivel de evento. Se morreu = 0, estes pacientes ainda estavam vivos no final do estudo e
constitui censura casos. Quanto mais o ndice de risco calculado para a droga abaixo de 1,0,
mais que a droga reduziu o risco de morte por cncer, controlando para a idade. Quanto maior
a taxa de risco para a idade acima de 1,0, mais o aumento da idade a probabilidade de morte
por cncer, o controle de tratamento da toxicodependncia ..
Cox de regresso com variveis no tempo discreto covariveis. Comando: posttran idade
stcox surg ano. Para o conjunto de dados de transplante de corao Stanford. H 1 ou 2
registros por paciente, dependendo se eles receberam um transplante. Anteriormente, stset t1
definido como a varivel tempo e morreu como o mesmo varivel, e id como a varivel id. A
Surg varivel = 1 quando o paciente teve uma cirurgia cardaca prvia. A varivel ano foi o
ano em que o paciente foi aceito no programa de transplante. Se posttran = 1, o paciente
recebeu um transplante e, portanto, uma covarivel posttran discretos variantes no tempo. O
modelo especificado da mesma, no entanto, como os exemplos anteriores.
Cox de regresso com varivel contnua e em tempo covariveis. Comando: idade stcox,
TVC (drug1, drug2) texp (exp (-. 035 * _T)) nolog. Para um conjunto de dados sobre a
pneumonia, onde os dados para drug1 e drug2 so os nveis de dosagem de duas drogas,
respectivamente, ea idade uma covarivel. Mais cedo, o comando stset tempo definido como
a varivel tempo e curadas como varivel de evento. Tivesse sido o comando idade stcox
drug1 drug2, as taxas de risco calculado que mostram o efeito da idade, drug1 ou drug2, cada
um controlando para as outras duas, assumindo a nveis da dosagem de drug1 drug2 e
manteve-se constante em todo o corpo do paciente ao longo do tempo. No entanto, o comando
mais complexo com a TVC () e texp () podem manipular o modelo mais realista supor que o
nvel desses frmacos tempo varivel, especificamente que a quantidade da droga no
organismo diminui ao longo do tempo. A (TVC drug1, drug2) opo declara drug1 e drug2 ser
varivel no tempo covariveis. O texp (exp (-. 035 _t *)) opo especifica a funo de definir
o modo como as co-variveis declaradas variveis com o tempo mudam ao longo do tempo -
neste caso, diminuindo exponencialmente pela funo exp (-, 35t), onde _t = t = tempo de
anlise . O parmetro nolog suprime um registro de sada intermediria. A sada similar
regresso Cox comum, mas as funes de risco so calculados de forma diferente e os grupos
de sada do co-variveis em conjuntos no-tempo-dependente e tempo-dependente. O modelo
simples, sem a TVC () e texp funes () d a razo de risco para, por exemplo, para controlar
drug1 drug2 e idade, e uma taxa de risco a variao proporcional em perigo quando o nvel
de dosagem de drug1 aumenta em 1 unidade. O modelo mais complexo com a TVC () e texp
funes () d a razo de risco para uma droga como uma funo decrescente do tempo,
controlando drug2 como uma funo decrescente do tempo e da idade, ea taxa de risco para
drug1 proporcional mudana de perigo quando o nvel de concentrao no sangue (ou seja,
drug1 * exp (-. 35t)) aumenta de uma unidade.
Regresso de Cox com fragilidade compartilhada. Um exemplo dado no manual de Stata
um experimento com a insero do cateter e infeco subseqente possvel, com cada um tendo
duas inseres (em pocas diferentes) e, portanto, a possibilidade de duas infeces distintas.
Aqui a unidade de anlise a insero, agrupados por assunto, com a fragilidade compartilhada
presumido. Comando: Feminino Idade stcox, compartilhada (paciente). Neste conjunto, o
paciente a identificao do paciente, mas no usado como uma varivel id convencional,
mas sim como uma varivel de fragilidade compartilhada. Idade e sexo feminino so
contnuos e dicotmica covariveis, respectivamente. As relaes do perigo ser computado,
mas diferentemente interpretado como antes. Abaixo a tabela principal razo de risco, Stata ir
imprimir um valor de teta, seu erro padro e um teste de log-verossimilhana da teta. Se o
teste de log-verossimilhana da teta significativa (por exemplo, <0,05), ento h um efeito
significativo fragilidade (neste caso, um efeito significativo nvel do paciente, alm de nvel de
insero de efeitos). Se quisermos, em uma segunda etapa, podemos testar para ver quais os
pacientes so menos ou mais frgil (ou seja, menos ou mais contribuem para a fragilidade do
paciente-nvel). Isto seria feito com o comando feminino idade stcox, compartilhada (paciente)
efeitos (nu), seguido pelo tipo de comando (nu) e nu paciente da lista. Isso cria uma tabela do
paciente, nu, que uma medida da fragilidade. Quanto maior o nu, o mais frgil do paciente,
ou seja, o mais provvel para enfrentar o perigo.
Cox de regresso com dados de falhas mltiplas. Podemos querer analisar os dados em que o
evento de interesse pode ocorrer mais de uma vez para o mesmo caso. Stata suporte e isso
envolve, tendo cada caso com mltiplas falhas e criar novos processos com id novo, um para
cada falha. Isso feito com o stgen, egen, classificar, substituir, gen, e stset comandos como
descrito no StataCorp (2005: 136-138), mas no sero discutidos aqui.
Tipos de estimativas de varincia. Stata suporta estimativa convencional de matrizes de
covarincia-varincia, por padro, e trs outras alternativas usurio especificveis, descrito no
manual de Stata. Para obter as alternativas, o add vce opes (robusta), vce (bootstrap), ou vce
(canivete) para o comando stcox. Alternativamente, robusto um sinnimo para vce (robusta).
Basta adicionar uma vrgula seguida de forte aps a varlist stcox.

o Regresso de Cox Com e Sem-Dependent Covariates Tempo em SPSS / SPSS. regresso de Cox
assume que os valores comuns de qualquer observao dada sobre cada covarivel no variam ao
longo do tempo (ex., "churchattendancerate" da pessoa com CaseID = 437 a mesma em cada perodo
de tempo; ex., sexo = 1 no varia ao longo do tempo para um indivduo). modelos de Cox pode, no
entanto, ser adaptado para covariveis que variam ao longo do tempo para os mesmos indivduos. Isso
requer clculo diferente, mas as tabelas de sada so praticamente os mesmos e interpretado o mesmo.
Tais modelos so modelos de risco no-proporcional.
Sem-covariveis dependentes do tempo. No SPSS / SPSS, Anlise selecionar, sobrevivncia,
regresso de Cox.
Com covariveis dependentes do tempo
No SPSS / SPSS, Anlise selecionar, Sobrevivncia, w Cox / Time-Dep Cov ...; define
(opcionalmente transformar) em "Compute Time-Dependent Cov" caixa de dilogo,
clique no boto Model para entrar a varivel tempo, o Estado varivel (e definir o seu
evento, ex. bito = 1) e introduza o covariveis. Para covariveis tempo-dependentes do
tipo (1) acima, selecione T_COV_ ea covarivel e clique em> o "= a * b> boto", para
obter um termo de interao em tempo covarivel entrou na lista covarivel. Para
covariveis tempo-dependentes do tipo (2) acima, clique no boto Colar para abrir o
Editor de sintaxe, onde voc pode digitar uma expresso lgica complexa.
Selecionando a opo Cox tempo-dependente insere automaticamente uma varivel de
tempo, T_, no topo da lista de variveis. Na caixa de dilogo 'Compute Time-
Dependent Cov, voc pode transform-lo (por exemplo, para os dados semanais, T_/52
iria transform-lo anual) ou deix-lo como T_. De qualquer maneira, uma nova
varivel chamada T_COV_ criado para uso na anlise.
1. Ordinria covariveis dependentes do tempo. Caso a varivel
sistematicamente em relao ao tempo (a varivel T_), ento um termo de
interao criado com o tempo (ex., T_COV_ * churchattendancerate).
2. Segmentado covariveis dependentes do tempo. Se a varivel no
sistematicamente relacionado com o tempo, ento preciso criar uma expresso
lgica que relaciona a varivel de tempo em cada perodo de tempo (ex., vamos
ser CA1 freqncia igreja no tempo 1, CA2 in Time 2, etc, a Time 4: (T_ <1)
* CA1 + (T_> = 1 & T_ <2) * CA2 + (T_> = 2 & T_ + <3) * CA3 (T_> = 3 &
T_ <4) * CA4). Neste exemplo, qualquer lgica sub-expresso (ec. (T_ <1) A
verdade avaliado como um e multiplicado pela varivel correspondente CA, e
os outros so zerados.

o Estatstica
taxa de risco, tambm chamado de "odds ratio" ou Exp (B). A taxa de risco a probabilidade
de o evento ocorrer no tempo t + 1, dada a sobrevivncia ao tempo t. A taxa de risco de 1,0
indica que as variveis no modelo no tm nenhum efeito no tempo de eventos para a varivel
de estado. Quanto mais a relao de risco inferior a 1,0, o maior da covarivel, menor as
chances de o evento ocorrer (aumento previsto o tempo de sobrevivncia). Quanto mais acima
de 1.0, mais as variveis aumentam as chances de o evento ocorrer (ex., a morte = 1: diminuir
o tempo de sobrevivncia previsto).
O risco relativo a razo de risco para o caso em que a covarivel uma dicotomia, de modo
que quando codificado 0,1, a 1 indica a presena de uma caracterstica. Nesse caso, a
caracterstica no tem qualquer influncia sobre o evento, quando o seu risco relativo de 1,0,
e aumenta a probabilidade do evento, quando o seu risco relativo superior a 1.0, etc Por
exemplo, se uma covarivel o tabagismo (0, 1), com um fumo ser pesado, e se a taxa de risco
(Exp (B)) de 1,1, e se o evento a morte = 1, ento o risco de morte 1,1 vezes maior para
fumantes do que para a luz e no-fumantes (fumantes = 0), controlando para outras variveis
em qualquer modelo.
Os intervalos de confiana em Exp (B) so produzidos pelo SPSS / SPSS e outros pacotes,
dando a inferior e superior de confiana dos limites de 95% em torno do valor da Exp (B). Se
o valor de 1,0 encontra-se dentro destes limites de confiana, no se pode ter 95% de certeza de
que a covarivel tem qualquer efeito e deve relat-lo como no-significativa.
SPSS / SPSS. A taxa de risco aparece como Exp (B) nas variveis "na equao" mesa de sada
do SPSS SPSS /.
Stata:. Como discutido anteriormente na seo de regresso de Cox simples , o comando
stcox gera a taxa de risco, por padro, juntamente com o seu erro padro, valor de p, e
intervalos de confiana. Adicionando o Nohr "opo para o comando stcox suprime taxas de
risco e causas dos coeficientes de risco correspondente a ser impresso.
Interpretao do odds ratio discutida nas sees de anlise loglinear e regresso logstica .
Teste da razo de verossimilhana do modelo, tambm chamado de teste de omnibus ou-2LL
ou -2 log verossimilhana. Se-2LL significativo, o modelo como um todo importante. Ou
seja, se Sig.> 0,05 (o padro usual da cincia social), ento o efeito de covariveis (s) no pode
ser considerado como diferente de zero. Isto significa que pelo menos uma das covariveis
contribui significativamente para a explicao de durao para o evento. Significa, tambm, o
modelo significativamente melhor do que o modelo nulo, que o modelo de tempo apenas
quando todas as covariveis so 0.

Na figura acima, o nulo (intercepto-only) modelo tinha-2LL = 45,104. O modelo completo
tinha-2LL = 32,224, um modelo de diferena qui-quadrado de 12,88, o que significativo ao
nvel 0,012. Ou seja, as co-variveis contribuem significativamente para a explicao de dias
de durao dos estados, at a ratificao da Constituio, que o exemplo simples usado aqui ..
Comparado com outros testes. O teste da razo de verossimilhana preferido sobre o
teste ou o teste de Wald pontuao como forma de avaliar a significncia do modelo
geral de modelos logsticos.
A estatstica de pontuao. SPSS / SPSS e alguns outros pacotes de sada tambm
uma estatstica escore (aka global, qui-quadrado ou total do qui-quadrado) como
critrio de significncia alternativa para o modelo, mas o teste da razo de
verossimilhana o teste padro. No entanto, a pontuao usado na regresso
stepwise Cox no SPSS / SPSS, que em cada etapa adiciona a varivel com o maior
nmero de pontos significativos. Para a ilustrao acima, o nvel de significncia a
mesma (0,012), seja por razo de probabilidade qui-quadrado ou global (score) do qui-
quadrado.
SPSS / SPSS:. A probabilidade estatstica -2 log aparece no "-2 log verossimilhana"
da tabela do SPSS / SPSS. testes de razo de probabilidade Stepwise aparecer no
"modelo de coeficientes tabela 'no SPSS / SPSS.
Stata: O teste da razo de verossimilhana gerado pelo comando stcox, como
ilustrado abaixo. A verossimilhana da -16,11219 corresponde ao 2LL em SPSS SPSS
sada / de 32,224 (multiplicar por -2 para conseguir isso). A taxa de probabilidade qui-
quadrado e seu significado (Prob) permanecem os mesmos em ambos os programas.

razo de verossimilhana so discutidas mais adiante na seo de regresso logstica
coeficientes de regresso. A maioria dos pacotes que as estatsticas mostrem o coeficiente de
regresso (B) para cada covarivel, o erro padro de B (SE), o seu valor de significncia de
teste de Wald, os graus de liberdade (df), eo valor de significncia do coeficiente, todas
semelhantes e interpretado como na regresso logstica . SPSS / SPSS faz isso nas variveis
"na equao" mesa ilustrado abaixo. Se Sig.> 0,05 (o padro usual da cincia social), ento o
efeito covarivel no pode ser considerado como diferente de zero. Ou seja, se sig (Wald)
<0,05, em seguida, a pesquisadora conclui que a varivel til para o modelo. coeficientes de
regresso positivo significa que o perigo aumenta covarivel (uma maior probabilidade de que
a morte = 1, por ex.), enquanto os coeficientes negativos correspondem ao risco reduzido.
Note-se que o teste 2LL prefervel ao teste de Wald ao testar o modelo global.

Exemplo. Na ilustrao acima, os dias at a ratificao da Constituio estadual est
prevista a partir de diversas covariveis. No Modelo 1, a proximidade da votao
(VotePct) um preditor significativo. Mas no modelo 2, quando um indicador binrio
adicionado, o que reflecte ou no o Estado foi fortemente envolvido na luta para
incluir um Bill of Rights na Constituio (Direitos), a varivel Direitos torna-se
significativo e controle de direitos, torna-se no VotePct significativa. (Claro, com
todos os 13 estados de origem dos dados, os dados no so uma amostra e qualquer
efeito, no importa quo pequena, no devida a chance de amostragem).
Direitos foi codificado 1 = fortemente envolvida, 0 = no, por isso o sinal negativo do
coeficiente de Direitos Modelo 2 significa reduo de risco (da ratificao do evento),
que se traduz em mais dias, at a ratificao. Da mesma forma, o sinal positivo do
VotePct covarivel no modelo 1 significa maior risco de ratificao, o que equivale a
poucos dias at a ratificao. Ou seja, quanto mais perto da votao (VotePct inferior)
ou estar na maior categoria Bill of Rights (1 = muito) ambos tendem a aumentar at o
dia ratificao quando considerados isoladamente, mas, quando consideradas em
conjunto, controla os direitos de VotePct.

Como mostrado na figura acima, Stata gera os coeficientes mesmo perigo razo por
padro (observe o Nohr "opo no utilizada para suprimir taxas de risco em favor
dos coeficientes de risco). Stata rtulos as taxas de risco, como tal, no ", Exp (b)"
como no SPSS / SPSS.
A razo de chances. Exp (B) na sada acima a razo de chances, que tambm a
razo de risco para uma dada covarivel. Exp (B) a mudana prevista no perigo de
um aumento unitrio no indicador. Odds ratio de 1,0 significa que o co-varivel no
tem efeito sobre as probabilidades associadas ao cargo. Odds ratio acima de 1.0 esto
associados com risco aumentado do evento (neste caso, antes da ratificao e, portanto,
menos dia). Odds ratio abaixo de 1.0 esto associados com risco de diminuio do
evento (neste caso, depois da ratificao e mais dias de durao). Assim razes odds
acima de 1.0 correspondem aos coeficientes b positivo e odds ratio abaixo de 1.0
correspondem a coeficientes b negativos. Para covariveis categricas, deve-se
interpretar que diz respeito categoria de referncia. Por exemplo, na ilustrao acima,
tamanho categrica (1 = pequenos estados, os estados 2 = mdio e 3 (categoria de
referncia) = grandes estados. O odds ratio para as pequenas (1) e mdio (2) estados so
menos de 1,0, indicando que, em comparao aos estados grandes (3, a categoria de
referncia), sendo pequena ou mdia aumentou o risco, ou seja, estados pequenos e
mdios ratificado antes. Assim, grandes estados tiveram mais dias para ratificar a
Constituio estabelece. Medium ratificado em poucos dias , indicado pelo odds ratio
para o tamanho = 2 sendo a mais baixa (mais distante de 1,0).
Matriz de correlao dos coeficientes de regresso um dos quadros do SPSS SPSS
output / sada e de outros pacotes. Ele usado para verificar a multicolinearidade.
Idealmente, nenhum par de preditores altamente correlacionadas. A ilustrao abaixo
mostra multicolinearidade no indicado para os preditores no modelo 2, discutido
acima.

As variveis categricas. No SPSS / SPSS e outros pacotes, se uma varivel
categrica, em seguida, haver uma linha geral (ex., "religio"), bem como uma linha
para cada no-omisso de valor (ex., "religio" (1) , a religio "(2)", etc.) A linha geral
no ter entradas para B, SE, Exp (b) intervalos, ou confiana, mas ter um valor de
Wald e da importncia correspondente (veja abaixo). Este significado global Wald
testa a hiptese nula de que todos os coeficientes para o efeito que a varivel categrica
zero. Se a importncia global Wald 0,05 ou menos, o pesquisador pode concluir
que pelo menos um dos coeficientes de efeito diferente de zero.
SPSS / SPSS: O coeficiente de regresso no padronizados, "B" aparece nas variveis
"na equao" tabela do SPSS / SPSS.
Stata: Aps a montagem de um modelo de regresso de Cox com stcox, pode ser
reinvoked coeficientes de regresso para mostrar um pouco do que taxas de risco:
stcox. Nohr. Sada ser muito semelhante ao padro, mas com coeficientes substitudo
por razes de risco.
Baseline risco, sobrevivncia e taxas de risco cumulativo.
Baseline risco cumulativo a taxa de risco para o modelo, s o tempo quando todas as
co-variveis = 0. Como ilustrado abaixo, ao invs de ser uma taxa nica, a base da
funo risco acumulado exibido para vrias vezes representados como linhas, cada
uma com uma linha de base correspondente taxa de risco cumulativo. Geralmente essa
taxa aumenta com o tempo. taxas de risco cumulativo Baseline so mais fceis de
interpretar quando dados numricos covarivel foram normalizados (no o caso
ilustrado abaixo), fazendo com que meios covarivel a zero, com taxas de risco de base
interpretado como de tempo somente para as pessoas na mdia dos covarivel (s ).
Quando as co-variveis so categricas, a taxa ser para as pessoas na categoria "0"
para cada covarivel.

As taxas de sobrevivncia. A coluna "Sobrevivncia na sada SPSS SPSS / d a taxa
de sobrevivncia estimada para a linha de tempo especificado aps o incio do risco do
evento, de pessoas ou outras unidades de observao a mdia da covarivel (s). No
exemplo acima, o incio do risco a adoo da Constituio, os estados so as unidades
de observao, eo evento a ratificao da Constituio (o "risco" do evento). A taxa
de sobrevida o percentual estimado de casos que no tiveram o evento de interesse
pela linha do tempo especificado. Na ilustrao acima, por 224 dias aps a aprovao
da Constituio de Filadlfia, 36% dos estados no haviam ratificado.
Parcelas cumulativas de sobrevivncia. Neste lote, anteriormente ilustrado acima ,
apoiada pela SPSS / SPSS e outros pacotes, o eixo X ainda tempo de sobrevida. O
eixo Y, no entanto, a sobrevivncia cumulativa. As curvas representam um indivduo
hipottico (ou outra unidade de anlise), com valores mdios na covarivel (s) a
qualquer momento, representado no eixo X. A curva (s) mostram como diminui a
sobrevida cumulativa ao longo do tempo para tais indivduos hipotticos. Se uma
varivel categrica tem dois valores (por exemplo, 0 = no-fumadores ou light, 1 =
tabagismo pesado), ento haver uma parcela de sobrevivncia acumulada para cada
valor, permitindo a comparao. declive parcelas de sobrevida acumulada abaixo da
esquerda para a direita desde cumulativa sobrevivncia diminui medida que aumenta
o tempo de sobrevivncia.
Taxas cumulativas de perigo. O perigo "cumulativa" coluna na sada SPSS SPSS /
semelhante, mas para o modelo em que o tempo ea covarivel (ex., idade) so
preditores. Matematicamente, o risco cumulativo a negativa do registro da
sobrevivncia.
Parcelas cumulativas de perigo. Neste enredo, tambm ilustrado anteriormente
referido , apoiada pela SPSS / SPSS e outros pacotes, o eixo X o tempo de
sobrevivncia. O eixo Y risco cumulativo. As curvas representam um indivduo
hipottico (ou qualquer outra unidade de anlise), com valores mdios na covarivel (s)
a qualquer momento como representado no eixo X. A curva (s) mostrar como os
aumentos de risco acumulado ao longo do tempo para tais indivduos hipotticos. Se
uma varivel categrica tem dois valores (por exemplo, 0 = no-fumadores ou light, 1 =
tabagismo pesado), ento haver uma parcela de risco cumulativo para cada valor,
permitindo a comparao. declive parcelas risco cumulativo at esquerda para a direita
a partir da origem na esquerda.
SPSS / SPSS: Como discutido acima, o "Quadro de sobrevivncia" na sada de SPSS
SPSS / contm a linha de base e previu taxas de risco. As tarifas so apresentadas de
uma pessoa hipottica escores que, na mdia do covarivel (s). Linhas da tabela so os
intervalos de tempo (ex, 0,5 anos, 1,0 anos, 1,5 anos, etc.) SPSS / SPSS gera uma
mdia "de covariveis tabela", dando meios covarivel (por exemplo, a idade mdia em
um estudo das mortes por doena, ou escore mdio de produtividade em um estudo de
promoes).
Stata: No Stata, o comando grfico sts gera grficos das funes-Meier de sobrevida
Kaplan (grfico r), o Nelson-Aalen funo de risco cumulativa (grfico st, nd), a funo
de risco estimada (grfico r, em perigo), e mais , com base em uma anlise previamente
calculado com o comando stcox. Trata-se de parcelas com o tempo de anlise sobre o
eixo x ea estimativa de sobrevida (1-0) ou a estimativa do risco cumulativo (0-1) no
eixo y. Se o "por" parmetro adicionado, o grfico ir exibir curvas duas ou mais
funes, uma para cada valor da varivel, (ex., grfico de r, de (droga) vai dar uma
parcela de funo para a droga e droga = 0 = 1 se droga tem dois valores). Ou seja, o
"por" parmetro permite a comparao de sobrevivncia ou de funes entre os
diferentes nveis de perigo de uma covarivel discretos. Se algum quiser
sobrevivncia ou de perigo funes como uma tabela em vez de um grfico, este pode
ser realizado com a lista sts comando, que tambm pode ter um "por" parmetro.
Teste de igualdade das funes de sobrevivncia. Stata, utilizando o comando teste sts, realiza
um teste de log-rank (o padro) ou testes alternativos (o de Wilcoxon (Breslow) teste de
diferenas nas funes de sobrevivncia, por grupo, o teste de Cox da igualdade, o teste
Tarone-Ware da igualdade , o teste Peto-Prentice-Peto de igualdade), o teste de Fleming-
Harrington generalizada da igualdade). O nmero mximo de grupos de 800. Por exemplo,
supondo que um comando stcox j executado, o comando sts gnero de ensaio, Wilcoxon d o
teste de Wilcoxon para a igualdade das funes de sobrevivncia por sexo. Qualquer que seja
o teste escolhido, obtm-se um valor de qui-quadrado eo significado para esse valor. Se o
valor da significncia (p) = <0,05, em seguida, os grupos diferem significativamente pela
funo de sobrevivncia. O padro de teste de log-rank apropriado quando a cada tempo de
falha deve ser dado o mesmo peso, como quando o pesquisador acredita que as funes de
risco so proporcionais entre os grupos. O teste de Wilcoxon pesos, em nmero de indivduos
no grupo de risco no momento da falha e adequado quando o pesquisador acredita que as
funes de risco no variar proporcionalmente entre os grupos, mas os padres de censura so
semelhantes entre os grupos. Os pesos Tarone-Ware teste pela raiz quadrada do nmero de
indivduos restantes no grupo de risco no momento da falha e semelhante hipteses para o
teste de Wilcoxon; peso nas duas vezes anteriores falha mais fortemente, mas Wilcoxon mais.
O teste Peto-Prentice-Peto apropriado quando as funes de risco so assumidos como no-
proporcional entre os grupos, mas este teste no afetado por semelhana ou dissemelhana de
censura padres em grupos.
paramtrica em modelos de sobrevivncia Stata, o comando StrEG suporta modelos de
sobrevivncia que no seja o modelo de risco proporcional de Cox. Estes so a exponencial,
Weibull, log-normal, log-logstico, Gompertz, e os modelos da gama. A produo destes
modelos ainda contm um teste de verossimilhana do modelo como um todo, as taxas de risco
para as co-variveis, e tambm um teste de parmetro de forma paramtrica assumiu a funo
de risco de base (isto relatado como o valor de p "/ ln_p "seguindo as taxas de risco.
parcelas Padro. O boto Parcelas no dilogo SPSS SPSS / permite que o usurio especifique
preditores categrica para criar grficos padro, onde os padres so o perigo ou sobrevivncia
funes plotados separadamente para cada nvel das variveis categricas, como ilustrado
abaixo.

No exemplo acima, a previso categrico tamanho, referindo-se um estado pequena, mdia
ou grande. Com relao ao exemplo de ratificao da Constituio, um grande debate no
Convenes Constitucionais causa de compromissos entre Estados grandes e pequenos, de
modo que possam ser de interesse para comparar estados no que diz respeito funo de risco
(onde o "perigo" a ratificao do da Constituio, o tempo e at dia ratificao). Na
ilustrao acima, vemos que as funes de risco previstos foram de fato diferente para
pequenas, mdias e grandes estados. (Nota: O tamanho no foi um preditor significativo de
durao uma vez que outras variveis foram controladas, mas desde que os dados so uma
enumerao de todos os 13 estados originais e no uma amostra aleatria, o significado no
tem o seu significado normal e relevncia).

Outlier anlise com DfBeta. A opo Salvar da caixa de dilogo de regresso de Cox no SPSS
/ SPSS, ilustrada acima permite o clculo da estatstica de DfBeta para cada caso, para cada
varivel. DfBeta uma medida de quanto um determinado processo ir afetar o coeficiente de
regresso para uma dada covarivel. Quanto maior o DfBeta para um determinado caso, para
uma dada covarivel, o que mais removendo caso do conjunto de dados ir alterar o coeficiente
b para que covarivel. Ou seja, quanto maior o dfBeta, mais o caso "influente" para que
covarivel. Influentes casos pode ser manchado, visualmente, pela plotagem DfBeta para uma
varivel contra a varivel de ID de caso. Altos valores de bandeira pode DfBeta erros de
codificao ou erros de amostragem, ou podem chamar a ateno para clusters de casos que
exigem um modelo diferente.

A sada DfBeta salvo acima tem quatro DfBetas para representar os quatro termos do Modelo
2 do exemplo utilizado neste mdulo, a fim de que entraram no modelo: VotePct, Size (1),
tamanho (2), e Direitos. No Modelo 2, dos Direitos foi o nico preditor significativo. Nas
variveis "na equao" tabela acima , dos Direitos tinha um parmetro coeficiente de -4,227.
DFB4_1 estimativas da mudana esse coeficiente se que caso seja removido. Remover SC
teria mais efeito em um sentido negativo. Remover NC teria mais efeito em uma direo
positiva. A direo positiva corresponde a aumento de risco (de ratificao, caso o estado) e,
portanto, menos dias de durao para ratificao. NC teve entre os maiores duraes, para
remov-lo seria deixar um dataset com menos dias de durao em mdia. No entanto, a maior
DfBeta positivo no corresponde necessariamente a unidade com a maior pontuao de tempo
(que seria RI, que no um outlier pelo critrio DfBeta). Pelo contrrio, DfBeta reflete efeitos
sobre a durao do evento para uma varivel particular depois de outras variveis no modelo
so controladas. .
Parcelas. Alm da produo de estatsticas, o boto de Lotes em regresso de Cox no SPSS /
SPSS apoia risco cumulativo, a sobrevida cumulativa, log-log-minus, e parcial lotes residuais.
Use of these plots is discussed above in the "Baseline hazard, survival, and cumulative hazard
rates" section and below in the "Assumptions" section. The Plots button dialog for
PASW/SPSS is shown below.


Pressupostos
o Assumption of proportional hazards . Cox regression with time-invariant covariates assumes that
the ratio of hazards for any two observations is the same across time periods. For instance, in a time-
invariant Cox model the ratio of hazards for persons a and b should be the same this year as in the
period 10 years from now. This can be a false assumption, as when 10 years from now person B is in
their 70's, when mortality spikes, considering age as the covariate. This is a critical assumption of Cox
regression and must be checked for each covariate. Gray (1996; quoted in Box-Steffensmeier & Zorn,
2001: 974) has reported as much as a 90% reduction in the power of significance tests (power =
chance of false negatives, rejecting the existence of true covariate effects) when rates cross rather than
are proportionate.
If a covariate fails this assumption, then for hazard ratios that increase over time for that covariate,
relative risk is overestimated (that is, for diverging hazards, coefficient estimates are inflated). For
ratios that decrease over time, relative risk is often underestimated (that is, for converging hazards,
coefficient estimates are deflated and biased toward zero). ["Converging" means that the hazard rates
for two groups formed by a covariate factor are tending toward the same rate over time].
Correspondingly, standard errors are incorrect and significance tests are decreased in power (Box-
Steffensmeier & Zorn, 2001: 972). It is common for a covariate to fail the assumption of proportional
hazards, and the implication for estimation should be reported. There are alternative ways to check:
Partial residual plots (Schoenfeld residuals PH test) , Graphical methods may be used to
examine covariates. In SPSS one may create a plot of scaled Schoenfeld residuals on the y axis
against time on the x axis, with one such plot per covariate. A lowess smoothing line
summarizing the residuals should be close to the horizontal 0 reference line for the y axis, since
the average value of residuals at an tiime should be zero if the effects of the covariate being
plotted are proportional (see Box-Steffensmeier & Zorn, 2001: 978-981). Partial residual
methods are the most common and preferred methods for testing for non-proportionality in
Cox models.
In PASW/SPSS select "Partial residual plots" under the Plots button after first having saved
partial residuals by checking "Partial residuals" in the "Save New Variables" dialog box under
the Save button in the Cox regression dialog. The X axis is survival time. The Y axis is the
partial residual for a given covariate. In a well-fitting model, distribution of residuals over time
is random. This can be checked further in the Chart Editor by adding a loess smoothing line or
linear regression line to show non-random trends. If random, fit lines should not diverge much
from the Y-axis 0 reference line.
In Stata. A statistical version is available in Stata by issuing the "estat phtest" postestimation
command, provided the prior stcox command requested Schoenfeld residuals with the
schoenfeld() option as illustrated in the figure below. The null hypothesis is that there is a 0
slope of the log hazard ratio regressed on time. A finding of nonsignificance, as in the figure
below, accepts the null hypothesis and means the proportional hazards assumption is not
violated.

Martingale residual plots . If Martingale residuals on Y are plotted against the linear predictor
(the right-hand side of the model equation) on X, there should be no pattern of correlation if
the proportional hazards assumption is met. PASW/SPSS does not save martingale residuals
directly but they may be computed as mresid = event-haz_1, where event is the event variable
and haz_1 is the variable saved under the Save option for the cumulative hazard function. The
Save option saves the linear predictor values under the default variable name of X'Beta where
XBeta is linear combination of mean corrected covariates times regression coefficients from
the final model.
Survival probability plots . A plot of cumulative survival on the y axis and analysis time on the
x axis may be generated for two or more groups of a covariate. If the lines cross, the covariate
violates the proportional hazards assumption. This is an indication that it is a time-dependent
variable.
PASW/SPSS: The covariate in question is entered as a "Strata" variable, not in the
Covariates box. Inder the Plots button, select "Survival".
Stata: In Stata, the stcoxkm command may be run after defining data with stset but
before running stcox (stcoxkm runs Cox itself, for comparision purposes). One can add
a "by" parameter (ex., stcoxkm, by(gender) ) to get multiple pairs of predicted/observed
curves, one pair for each value of a discrete covariate. There will be one curve for
observed and one for predicted values. If the two lines are close together, the
proportional hazards assumption is not violated. This tests if the proportional hazards
assumption is valid for all groups. The sthplot command is a similar test, also
supporting a "by" parameter: if the proportional hazards assumption is valid, the lines
for the "by" variable should be parallel and not cross.
Log minus log plots (log-log plots or LML plots). Alternatively, use the log minus log test of
proportionality . In this test, requested under the Plots button in PASW/SPSS, have specified
the categorical covariate as the Strata variable. When entered as a Strata variable rather than as
a covariate, proportional hazard functions are not enforced for each level of the categorical
variable. The cumulative survival estimate after the ln(-ln) transformation is applied to the
estimates. The X axis is survival time. The Y axis is log minus log. If the survival plots for the
groups of a single categorical covariate are oughly parallel (and certainly should not cross),
then the baseline survival functions are parallel and the researcher rejects the need to conduct
stratified Cox regression. That is, if there is no violation, the hazard function lines or LML for
each category should be parallel. Intersecting survival, hazard function, or LML lines indicate
clear violation of the assumption of proportional hazards. The LML method is not
recommended for multiple covariates or when a covariate is continuous (see Box-
Steffensmeier & Zorn, 2001: 975-976).
Time interaction test . If the assumption of proportional hazards is not violated for a given
numerical (continuous or categorical) covariate, then the interaction term between that
covariate and time (ex., age*time or more commonly, age*log(time)) can be added to the
model as in regression, and should have a regression coefficient not significantly different from
zero. If the time interaction effect is significant for a covariate, then the proportional hazards
assumption is violated and the covariate should be modeled as time-dependent. In the
PASW/SPSS option for "Cox Regression with a Time-Dependent Covariate" one may add
time-covariate interactions to the model and if the interaction is not significant, then the
covariate in question is not time-dependent and would not violate the proportional hazards
assumption in Cox regression.
Categorical covariates . For a given categorical covariate, one may compute the baseline
hazard function for each category of that covariate. The shape of the baseline hazard functions
should be similar if the assumption of proportional hazards is not violated. In PASW/SPSS,
click Plots, check the "Hazard" checkbox, and enter the categorical covariate in the "Separate
lines for" textbox.
Piecewise regression method . Though considered an imprecise "rule of thumb" method, one
may divide the sample into observations above and below the median survival times, then
model each sample separately to see if the estimated hazard ratio for each covariate coefficient
is the same, thus supporting the proportional hazards assumption.
Harrell's rho . A rho coefficient may be computed for each covariate. A significant rho means
that covariate violates the proportional hazards assumption.
Relation to Cox regression with time-dependent covariates . If a covariate fails the test of
proportional hazards, this is evidence that it is time-dependent and one needs to abandon
ordinary Cox regression in favor of Cox regression with time-dependent covariates.
Alternatively, one may include a time-covariate interaction term in the model. As a third
alternative, the covariate may be entered as a Strata variable, but then regression coefficients
are not computed so this is only an option when the covariate is not of research interest.
o True starting time . The ideal model for survival analysis would be manufacturing of a motor or light
bulb, where there is a true zero time (the time of manufacture, before which failure is logically
impossible). In medicine, the true zero point is often birth, before which death from a disease is
impossible. However, the true zero time in other analyses may be less clear. This is the case in most
time-to-adoption studies, where what is adopted is an innovation or piece of legislation. If the zero
point is arbitrary or ambiguous, this means that the data series will be different depending on starting
point and hence the computed hazard rate coeffiicients will differ, perhaps markedly. (Except if there
are no data on predictor variables for, say, years 1900-1980 in a study of 1900-2000, the coefficients
will be the same as for a study of 1981-2000). If there is ambiguity about the true starting time, at a
minimum the researcher should conduct a sensitivity analysis to see how coefficients may change
according to different starting points for data on the predictor variables. Sensitivity analysis may or
may not lead the researcher to conclude that Cox modeling is inappropriate.
o Clearly defined events . The status variable must be unambiguously defined, so that any subject for
any time period, that subject may be clearly assigned (usually to status=0 or status=1, depending on
whether the event of interest had occurred). "Ordinary" Cox modeling deals with situations where the
unit of analysis has a risk of a particular event, not a series of different types of events. If the actual
data have events representing multiple states, the researcher should use more complex multiple event
models for such data. For example, the model for "diplomatic resolution" may be very different from
the model for "military resolution," and subsuming both under "conflict resolution" will yield
estimates unsatisfactory for explaining either state when using usual single-event Cox models. Rather,
multiple states should be modeled explicitly.
o Absence of outliers . As in nearly all forms of analysis, outlier cases can bias estimates. See above for
a discussion of statistical output used in analysis of possible outliers.
o No small samples . Precision of parameter estimates using the partial likelihood methods employed in
Cox models can be much less than for maximum likelihood methods employed in parametric event
history models. Therefore, according to Box-Steffensmeier & Jones (1997: 1434), "this [Cox] method
should not be used with small samples."
o Proper model specification . As in other forms of regression, the Cox (and parametric EHA models)
regression coefficients may change substantially and even reverse direction if previously omitted
relevant variables are added to the model, or if irrelevant but correlated variables are removed from the
model. In an event history analysis (EHA) context, this is discussed as the problem of unobserved
heterogeneity , meaning bias introduced by omitting important explanatory variables. Unobserved
heterogeneity (the effects of variance in important but unobserved variables) is associated with
downward bias in duration dependence (Vermunt and Moors, 2005: 10).
Unobserved heterogeneity also biases estimates of covariate effects. Unobserved heterogeneity
may be addressed by including random effects in the EHA model, using a time-constant latent
covariate. See Heckman and Singer (1982) on random effects procedures. See Box-
Steffensmeier & Jones (2004: Chapter 9) for an extended discussion of unobserved
heterogeneity and ways to deal with it, including frailty models (including a random parameter
in the hazard rate to represent unmeasured risk factors) and split-population models (dividing
observations into a sample that will never experience the event and a sample at true risk of
experiencing the event, so as to avoid the bias that arises when large numbers of cases are not
"truly" at risk).
Model-trimming strategies apply to Cox and other EHA models. Since coefficient size is a
function of other covariates in the model, including inappropriate covariates, when the hazard
ratio for some covariates is found to be non-significant, the researcher should drop the most
non-significant covariate from the model, re-run the analysis, and proceed stepwise until there
are no more non-significant covariates in the final model. It is possible that substantive
interpretation of the final covariates may differ from inferences that might have been made for
the model including non-significant covariates.
o Few ties . Because Cox methods rely on order of events, handling ties poses a computational problem.
Although there are methods for handling ties (ex., the Breslow method is most often used), as a rule of
thumb, there should be 5% or fewer tied observations in the dataset to still assume insignificant bias
(Prentice & Farewell, 1986: 14).
o Independent observations . EHA models assume the observation's event status at one point in time
does not predict the observation's event status at a subsequent point in time. Lack of independence
leads to error terms being correlated, which in turn leads to biased estimates of standard error and
significance. This is the problem of autocorrelation in time series analysis. Since in diffusion studies
and many other social science areas independence is not a sound assumption to make, time
dependence must be modeled. For instance, a time variable may be included as a covariate, and/or a
surrogate variable added such as number of neighbors adopting the innovation in a diffusion study.
Robust estimators . When data independence is an issue, the problem can be mitigated by the
use of robust variance estimation , which relaxes assumptions about the distribution of error
terms. Less commonly, clustered standard errors may be computed, which relaxes
assumptions of independence even further. Clustering accounts for serial time or spatial
dependence by dividing the data into groups defined by a grouping variable, then computes
standard error across clusters.
With time series data, one should assume that it is quite possible that data will be temporally
dependent (the value at time t+1 is partly a function of its value at time t). This is related to the
autocorrelation problem in time series analysis . In Cox and other EHA models, however, the
researcher need not de-trend the data but only use "robust variance estimation", which refers to
algorithms by Lin & Wei (1989) and Huber (1967) to adjust standard errors for time
dependency. Robust estimation is usually the default in Cox and EHA software. It results in the
same parameter estimates as standard variance (algorithms assuming independence) but higher
standard errors. That is, robust estimation increases the possibility that parameters will be
found to be non-significant. Robust estimation is recommended for parameter estimation for
time-dependent covariates unless the researcher can demonstrate lack of time dependency in
the data (that is, robust estimation should be used most of the time).
o Not applying single-event models to multiple event data . "Ordinary" Cox modeling deals with
situations where the unit of analysis has a risk of an event, and after the event occurs the unit drops out
of the risk pool. If the actual data are multiple event in nature, meaning the unit is still at risk even
after the event occurs the first time, the use of single-event models in serial fashion assumes that
experiencing an event in the past has no influence on experiencing the event in the future. Since this
assumption may well not be met, hazard ratios will be biased. Instead, the researcher should use more
complex multiple event models for such data.
o Exogenous covariates . Interpretation of hazard ratios in models with time-varying covariates
assumes those covariates are exogenous (covariate values may affect duration to event, but duration
does not cause the values of the covariate). Box-Steffensmeier & Jones (2004: 112) give the example
of casualties as a time-dependent covariate in a model of war duration: the Cox model assesses if
casualties affect war duration, but if war duration also causes casualties (as it would), casualties is an
endogenous covariate and Interpretation of hazard ratios will be biased for that covariate.
Unfortunately, there is no accepted method of dealing with endogenous covariates, yet leaving out a
causally important endogenous covariate may be a form of model misspecification, with equally
problematic implications. The researcher is forced to choose the path of lesser evil. This problem is
not unique to Cox modeling.
o Factor invariance . It is assumed that the causal factor structure is the same at the end as at the
beginning of the study period.
o Baseline distribution of survival times . Cox regression does not assume any particular baseline
distribution of survival times, unlike parametric survival analysis models such as Weibull models,
exponential models, and other models as found in Stata's streg procedure (see above). Put another way,
Cox regression does not assume any particular distribution shape for the duration times of events. This
is because the "dependent variable" in Cox regression is not the event or time to event, but rather the
hazard rate. As such Cox regression is more robust than parametric models if the other assumptions of
Cox regression are met.
o Hazard rate linearity . Se o tempo medido por uma varivel de contador em unidades de tempo, o
modelo de Cox assume que o risco aumenta linearmente com o tempo, condio de co-variveis no
modelo.
o Log linearity . Covariates are assumed to be linearly related to the log of the hazard function. This is
tested by running the model without the given covariate, then computing martingale residuals and
plotting them on the y axis against the omitted covariate on the x axis. If the loess smoothing line
through the scatterplot is close to linear, there is log linearity for that covariate. If log linearity is not
present, one may have to transform the covariate (ex., use the square). PASW/SPSS does not save
martingale residuals, but it does save values for the cumulative hazard; then use Transform, Compute
Variable to compute martingale = event - Haz_1, where event is the event variable and Haz_1 is the
saved cumulative hazard variable.
o No high multicollinearity . Not having high multicollinearity is an assumption of Cox regression, as
in other forms of regression. The "Correlation Matrix of Regression Coefficients" table in
PASW/SPSS output checks this. If there are multiple highly correlated covariates, one strategy is to
include in the model only one variable from the set of intercorrelated variables.
o Random sampling of data is assumed. This is discussed further in the FAQ section below .
o No censoring patterns . Censored cases must be independent of the survival distribution. Censored
data are the cases where the event never occurs (where the status variable remains equal to 0) for all
time periods. There should be no pattern to these cases, which instead should be missing at random.
For example, it could be all censored cases in a public policy study are cases which were ineligible for
policy benefits, thereby affecting their status on the status variable. When there is no patterning,
subjects entering in different time cohorts should be similar on the average.

Example of PASW/SPSS Cox Regression Output
o Cox Regression output from PASW/SPSS 14

Perguntas mais freqentes
o Why can't we just use OLS or logistic regression to analyze time until event data?
There are four main reasons:
0. Censored data are not handled by traditional methods. Any given dataset on, say,
disease and death, will contain data on people who have the disease and died (the
uncensored observations) and people who have the disease but who have not yet died
(the censored observations, meaning that the data on how long they will live is not yet
known). Censored observations occur in all time to event data unless the data are
historical, with all data present for all observations. Traditional regression methods
would require either dropping censored cases, thereby risking sample selection bias, or
treating censored cases the same as those for whom the event (ex., death) occurred in
the final time period. thereby also biasing computed coefficients. Whereas the usual
regression model uses ordinary least squares or maximum likelihood estimation of
parameters, Cox regression uses partial likelihood methods, which do not assume
uncensored data. In Cox regression, the computation of the regression coefficients is
based only on the uncensored cases, but all cases are used when estimating the baseline
hazard. Thus Cox regression uses all available information and is considered a full
information method, whereas OLS and logistic regression are partial information
methods when censored data are present.
1. Time varying independent variables can be handled in Cox regression but not in
traditional regression.
2. Event distribution . Traditional regression requires events be well distributed over time.
However, event analysis frequently centers on the analysis of rare events which are not
well distributed. With such data, most time periods will have a value of zero. The large
numbers of zeros may inflate correlations and parameter estimates in traditional
regression, which is why techniques such as Poisson regression are more appropriate.
3. Full effect vs. net effect . Also, OLS and logistic regression on cross-sectional data
yields effect sizes which show net effect. When the variable in question "cuts both
ways," effects could even cancel out, yielding an effect size of zero and the erroneous
conclusion that the variable did not matter (ex., education in the short term decreases
the likelihood of being employed but in the long term increases the likelihood of being
employed; for a population ages 18-22, it is possible that these cross-cutting effects
would cancel out). Even when there is not complete self-canceling, traditional
regression on cross-sectional data lacks the ability to establish causal direction of the
net effects. Moreover, if the process being studied is not stable over time, even the net
effects found in cross-sectional regression will be misleading (if, for instance, the
proportion of unemployed to employed varies greatly over time in a study of the effects
of eduction on employment). To study such processes, one needs a time series method
which traces the individual through various states (ex., unemployment, employment)
over a long period of time during which various relevant events (ex., degree
completion) may occur.
o Couldn't I use Poisson or logistic regression instead of event history models when analyzing time to
event?
1. Cross-sectional OLS using duration times as the dependent variable was the original approach.
However, OLS does not allow assessment of time-varying predictors unless such variables are
aggregated, but aggregation intoduces bias of its own. OLS models of duration times can even
generate impossible negative durations.
2. Time series regression using count of cases experiencing the event in a given time period
became a second popular approach. Because counts were the dependent, Poisson regression
was often used in place of OLS regression. While this approach supports time-varying
predictors, it does not support individual-level (id-level) effects.
3. Logistic regression using a binary (0, 1) event variable as the dependent became another
popular approach, but this did not support time-varying predictors either. For further discussion
of why event history methods like Cox regression or survival analysis are preferred to using
logit or probit regression in diffusion studies, click here .
o When would one use a parametric event history analysis model rather than a Cox model?
Only when one has strong theoretical reasons for positing a particular distribution (shape) for
the baseline hazard function, which is very rarely. Cox models can generate the same
information as EHA parametric models without having to make as strong data assumptions.
Box-Steffensmeier & Jones (2004: 66) write, "there are few instances we can think of where
one would naturally prefer a parametric duration model over a Cox-type event history model
for most kinds of social science applications." Also, as noted by Buckley & Westerland (2004),
in the past there has been over-reliance on parametric EHA models such as logit and probit
which, unlike Cox models, require the researcher to specify duration dependence (the shape of
the hazard rate over time), misspecification of which can lead to computed standard errors
which are too large or too small, leading to errors of inference.
o Describe data setup for Cox regression
Event history data setup . If there are no time-varying covariates, event history data setup has a
code for the unit of analysis (ex., states), a 0-1 code for whether the risk event (the "censoring
variable") ever occurred for that unit, a duration (time elapsed) count variable (ex., 12 for 12
time units since onset of risk), and one or more columns for the time-fixed covariate(s). If there
is a time-varying covariate, there must also be a duration (time periods to event) variable and
each unit of analysis must have a separate row for each time the covariate changes in value.
More often, however, the counting process data setup is used for time dependent data. Of
course, data setup must be compatible with the software used. Data setup in Stata is discussed
below .
Counting process data setup . Time dependent data and multiple event data (where the risk
event may occur more than once for the same unit of analysis) are usually entered in "counting
process" format. Each unit of analysis (ex., states) has an id code and is represented by as many
rows of data as there are time periods (ex., years). There is also a column for the time periods
(ex., years from 1980, 1981, etc.). There are also columns for the start or stop interval number,
with the start representing the start of risk and coded 0 (thus start/stop 3,4 would be the start of
the 4th year of risk and the stop would be the end of the 4th year). The start of "0" would not
necessarily be the same actual year for every unit if for some reason the start of risk varied by
unit. There would also be a column for the risk event (the "censoring indicator"), coded 0 or 1,
with 1 being the occurrence of the event. And there would be additional columns for the time-
varying and time-fixed covariates.
Discontinuous risk intervals . Under unusual circumstances, some units of analysis
might not have rows for some time periods (ex., some years) if risk did not exist for
those periods. For example, in a study of peace=0, war=1, a country already at war
would not be at risk of war, so that country would have a row for the year war started
but would have no further rows until it was again at risk of another war (that is, the first
year of peace).
o Cox data setup in Stata:
Survival time data (st data) is a data format in which each observation is a time span for a
given observation (subject). There is an id variable which indicates the subject associated with
the given observation. If the id variable is omitted, it is assumed all observations pertain to a
single subject ("single-record st data"). There are variables t and t0, where the span is (t0, t),
meaning the period from just after analysis time t0 up to and including time t. If there is no t0
variable, t0 is assumed to equal 0. For instance, the t0 variable might be labeled "Begin" and
the t variable labeled "End." There may also be an event (aka status or failure) variable, d, for
each observation, where d=1 if the observation failed (the event occurred) during that
particular span but if not, is 0. For instance, the event variable d might be labeled "Died" or
"Adopted." If there is no event variable, it is assumed that all observations fail (the event
occurs) at time t. There may also be covariate variables (ex., Age, Income). In Stata, Cox
regression and related survival analysis is performed on st data.
Declaring st data in Stata is the first step in Cox regression in Stata (unless you have ct data,
discussed below), accomplished with the stset command. In the menu system, select Statistics,
Survival Analysis, Setup & Utilities, Declare data to be survival-time data. Enter the time
variable and the failure variable. The stset command declares the researcher's data format. At a
bare minimum, the time variable must be declared. There are various variants depending on
whether the st data also have an id variable, a t0 variable, or an event variable. Covariates will
be utilized if in the dataset and do not have to be declared. Examples are from the Stata
manual:
0. Single record data . Command: stset failure. For a dataset on electric generator
lifetimes, with three variables: failtime (the t or analysis time variable), load (a
covariate), and bearings (another covariate). Failure is assumed to occur at time =
failtime. The t0 variable is assumed to be 0.
1. Single-record data with censoring . Command: stset failtime, failure(failed). For a
similar dataset but with an event variable called 'failed' as well as failtime, load, and
bearings. If the event variable is zero (failed = 0) for an observation, failtime is the
time, t, at the point of observation and no failure occurred (ex., measurement was
stopped at time t and the case is censored, meaning we know the generator will fail at
some point after t but we do not know when).
2. Multiple-record data . Command: stset t, id(patid) failure(died). For a dataset on
patients where patid is the patient id; t is the analysis time at the point of measurement;
died is the event variable (0 or 1, with 1 = died); and there are covariates also.
3. Multiple-record data with multiple events . Command: stset day, id(patid)
fail(code==402). For dataset with patid = patient id; day = the time variable (t); code =
hospital patient status codes, where 402 = death; and there are covariates. So this
command is saying day is the time variable, patid is the id variable, and code=402 is
equivalent to the event variable = 1. (Note the actual command must have two equal
signs).
4. Multiple record data recording time rather than t (analysis time) . Command: stset
curday, id(patid) fail(code==402) origin(time adday). For a similar dataset, but with
adday containing the day of admission (entered in time units) and curday containing the
time variable (number of days since the ward opened in this case). The origin for a
given patient is (curday - adday). Analysis is done on curday adjusted for adday. That
is, the origin() function converts the time variable into an analysis time variable. Note:
in Stata, dates may be displayed in date format but are, in fact, integers, so in this
example, curday could be a date variable without any change to the command syntax.
5. Multiple record data with time from event . Command: stset curday, id(patid)
fail(code==402) origin(code==286). Let hospital code 286 mean "patient undergoes
operation." Then for the same dataset as above, this command analyzes time from
operation until death (code==402). That is, having an operation is considered the onset
of risk in this command syntax. In the one above, admission to hospital was considered
onset of risk.
6. Multiple record dataset with delayed entry of observations . Command: stset curday,
id(patid) fail(code--402) origina(time adday) enter(code=152). Let hospital code 152
indicate a patient is given a test. The enter() function adds a patient to the analysis only
once a record indicates the patient has had the test (code==152). That is, observations
for this patient after the one with code=152 will be in the sample.
7. Scaling time data . Sometimes the original time variable must be adjusted not only for a
different origin (ex., the original time variable has 0 as the start of measurement, not the
onset of risk) using the origin() function, but also there is a need to convert time units
using the scale() function. For instance, the original time variable may be in days, but
the researcher wants years. Since there are 365.25 days in a year, adding the function
scale(365.25) to the stset command line will rescale the timevar variable as desired. The
default is scale(1), which accepts the time units as originally entered.
8. Other functions . Not discussed here, Stata also provides a number of additional
functions such as enter() and exit() for specifying when an observation is in the sample;
and if(), ever(), never(), and after() for conditional inclusion,
9. Temporary re-declaration of st data . Not discussed here, Stata supports the streset
command to temporarily re-declare a previously declared st dataset, but with different
options (ex., a different definition of time origin).
10. Other data setup commands . The Stata command stfill is used to fill in missing values,
as by carrying forward covariate values from the first observation. The stbase command
resets all variables in a multiple-record dataset to the base values in the earliest record
for the subject. The command stgen will create new covariates as functions of time
variables and covariates (ex., create the variable evervoted if for any time period the
variable voted=1). The command stsplit will create multiple records out of one record,
as to add a time-varying covariate which will be the same for existing variables but
have different values of the covariate for each of the new records.
11. Error messages . Stata does a certain amount of data format error-checking, with error
messages for "event time missing," "entry time missing," "multiple records at the same
instant," and "overlapping records," among others.
Count time data (ct data) is an alternative data format in which each observation is a time. For
each time, there are variables for the number known to fail during that time; the number of
right-censored cases (see below); and the number of new cases added during the given time. In
Stata, ct data is first converted to st data using the ctset (declare data to be count-time data) and
cttost (convert ct data to st data) commands.
Snapshot data is a common real-world data format that must be converted to st data format.
Rather than have separate t0 (begin) and t (end) variables, there is just a time-of-observation
variable. In Stata one converts snapshot data to st data using the snapspan command (syntax:
snapspan idvar timevar varlist). Stata will take the earliest timevar and make that t0 and use
time units since t0 to create the analysis time, t, variable entries. The varlist variables in the
converted st dataset will have the values from the corresponding observations of the snapshot
dataset. Any variables not in varlist will have the values carried forward from the t0
record/observation.

o Why is no intercept coefficient reported for Cox models?
In Cox models, the intercept is incorporated in the baseline hazard function.

o Since the Cox model does not posit any particular baseline hazard ratio, how can the baseline hazard
function be retrieved?
The survivor function can be estimated from the order of failure times, the risk at any given
failure time, and the assumption of a constant hazard rate between failure times. From the
survival function, the hazard function can be derived. See the summary by Box-Steffensmeier
& Jones, 2004: 64-65; or the original articles by Kalbfleisch & Prentice, 1973, 1980. Note that
the estimate of the baseline hazard function in Cox models is data-driven, whereas in
parametric event history analysis models, the baseline hazard function is selected based on
theory, or possibly based on comparisons of model fit among several alternative parametric
models, each positing a shape of the baseline hazard function.
o Does SPSS support multilevel Cox regression?
No, although the strata option does generate different baseline hazard functions for subgroups
of a categorical variable. Stata software does support multilevel Cox regression.
o Can I use Cox regression with non-random samples?
Boehmke, Morey, & Shannon (2006) conducted Monte Carlo simulations on this question,
coming to the conclusion that "sample selection issues can lead to biased parameter estimates,
including the appearance of (nonexistent) duration dependence" (p.192). The authors further
found that nonrandom selection of samples could lead to "inaccurate predicted hazard and
survival functions" and "erroneous conclusions about what factors influence (or do not
influence) the duration process of interest" (p. 205).

Bibliografia
o Boehmke, Frederick J., Morey, Daniel S., & Shannon, Megan (2006). Selection bias and continuous-
time duration models: Consequences and a proposed solution. American Journal of Political Science
50(1): 192207.
o Blossfeld, Hans-Peter; Golsch, Katrin; & Rohwer, Gtz (2007). Event history analysis with Stata .
Mahwah, NJ: Lawrence Erlbaum Associates.
o Blossfeld, Hans-Peter; Rohwer, Gtz (1995). Techniques of event history modeling . Mahwah, NJ:
Lawrence Erlbaum.
o Box-Steffensmeier, Janet M. & DeBoef, Suzanna (2006). Repeated events survival models: The
conditional frailty model. Statistics in Medecine 25: 3518-3533.
o Box-Steffensmeier, Janet M.; DeBoef, Suzanna; & Joyce, Kyle A. (2007). Event dependence and
heterogeneity in duration models: The conditional frailty model. Political Analysis 15(3): 237-256.
o Box-Steffensmeier, Janet M. & Jones, Bradford S. (1997). Time is of the essence: Event history
models in political science. American Journal of Political Science . 41(4): 1414-1461.
o Box-Steffensmeier, Janet M. & Jones, Bradford S. (2004). Event history modeling: A guide for social
scientists . NY: Cambridge University Press.
o Box-Steffensmeier, Janet M. & Zorn, Christopher JW (2001). Duration models and proportional
hazards in political science. American Journal of Political Science 45(4): 972-988.
o Buckley, Jack, & Chad Westerland. (2004). Duration dependence, functional form, and correct
standard errors: Improving EHA models of state policy diffusion. State Politics and Policy Quarterly
4( 1): 94113.
o Cleves,Mario Alberto; Gould, William; Gutierrez, Roberto; & Marchenko, Yulia (2008). An
introduction to survival analysis using Stata, Second ed. . College Station, TX: Stata Press. Stata is a
preferred software package for Cox regression and survival analysis, and this is perhaps the most-
recommended Stata text for it.
o Gray, Todd Edward (1996). The impact of deviations from the proportional hazards assumption on
power in the analysis of survival data.. Unpublished MPH Thesis, Department of Biostatistics, Rollins
School of Public Health, Emory University.
o Hausman, Jerry A. (1978). Specification tests in econometrics. Econometrica 46: 1251-1271.
o Hosmer, DW & Lemeshow, S. (1999). Applied survival analysis . NY: John Wiley & Sons.
o Huber, PJ (1967) The behavior of maximum likelihood estimates under non-standard conditions. In
Proceedings of the Fifth Berkely Symposium on Mathematical Statistics and Probability . Berkeley:
University of California Press.
o Jones, Bradford S, & Branton, Regina P. (2005). Beyond logit and probit: Cox duration models of
single, repeating, and competing events for state policy adoption. State Politics and Policy Quarterly
5(4): 420-443.
o Kalbfleisch, JD & Prentice, RL (1973). Marginal likelihoods based on X\Cox's regression and life
model. Biometrika 60, 267-278.
o Kalbfleisch, JD & Prentice, RL (1980). The statistical analysis of failure rate data . NY: John Wiley.
o Klein, JP & Moeschberger, ML (1997). Survival analysis: Techniques for censored and truncated data
. NY: Springer.
o Lin, DY & LJ Wei (1989). The robust inference for the Cox proportional hazards model. Journal of
the American Statistical Association 84: 1074-1078.
o Mills, Melinda (2010). Introducing survival and event history analysis . London: Sage. Provides R
examples.
o Prentice, RL & Farewell, BT (1986). Relative risk and odds ratio regression. Annual Review of Public
Health 7: 335-338.
o Ragusa, Jordan Michael (2010). The lifecycle of public policy: An event history analysis of repeals to
landmark legislaive enactments, 1951-2006. American Politics Research XX(X): 1-37. Published
online in July, 2010, and downloaded from apr.sagepub.com. Provides an example of using event
history analysis using Stata.
o Spruance, SI; Reid, JE; Grace, M.; & Samore, M. (2004). Hazard ratio in clinical trials. Antimicrobial
Agents and Chemotherapy 48(8), 2787-2792.
o StataCorp (2005). Stata survival analysis and epidemiological tables reference manual release 9 .
College Station, TX: StataCorp LP. Lists all Stata commands and options pertaining to Cox regression
and survival analysis, with examples.
o Unrau, YA & Coleman, H. (2006). Evaluating program outcomes as event histories. Administration in
Social Work 30(1): 45-65.


@c 2006, 2008, 2009, 2010 G. David Garson
last updated 9/7/2010.





Estatstica Mdica e Epidemiologia (153133)
Anlise de Sobrevivncia (semana 02)
Hazard / taxas de insucesso, de regresso de Cox
K. Poortema, 24-10-2006


NDICE
1 Funo de sobrevivncia e funo de risco
2 Distribuies de taxa de falha
3 Kaplan Meier
4 Os modelos de regresso
5 modelo de riscos proporcionais
6 Modelagem e ensaios no modelo de riscos proporcionais
7 Atribuio


Seo 1: Funo de sobrevivncia e funo de risco
Esta parte do curso de Medicina de Estatstica e Epidemiologia negcios com a modelagem e anlise de dados que
tem como principal ponto final do tempo at que um evento ocorre. Tais eventos so referidos genericamente como
falhas que o evento pode, por exemplo, ser o desempenho de uma determinada tarefa em uma experincia de
aprendizagem em psicologia ou mudana de residncia, em um estudo demogrfico. As principais reas de
aplicao, no entanto, so estudos mdicos sobre doenas crnicas e ensaios de vida industrial.
Ns supomos que as observaes esto disponveis no tempo de falha independente indivduos. Deixar ser a
varivel aleatria no negativo que representa o tempo de falha de um indivduo arbitrrio. Supomos que a
distribuio de probabilidade de descrito por uma funo de densidade . Iremos introduzir a funo de
sobrevivncia ea funo de risco que caracterizam a distribuio de tambm. A funo de sobrevivncia
definida por
(1)
e igual a , Onde a distribuio cumulativa de . (Nota para cada nmero no caso de uma funo de densidade).
Desde a funo de distribuio cumulativa especifica a distribuio de , A distribuio de especificado como
tambm pela funo de sobrevivncia .
A funo de risco especifica a taxa instantnea de falha em sobrevivncia em condicional ao tempo e definida
pelo limite de da seguinte proporo:
(2)
Tomado esse limite obtemos
(3) .
Note que a derivada da funo de sobrevivncia igual a . A distribuio dos especificado por sua funo de
risco, mas tambm porque a funo de sobrevivncia determinado pela funo de risco:
(4)
(Nota: )

Seo 2: Distribuio de taxa de falha
Nesta seo, apresentamos uma srie de modelos de distribuio de .
O parmetro de uma distribuio exponencial obtida para tendo a funo de ser um perigo constante: (Com ,
Da

e siga com bastante facilidade. Assim, para a distribuio exponencial da taxa de falha instantnea independente
da de modo que a chance condicional de falha no depende de quanto tempo o indivduo foi a julgamento. Isso
conhecido como a propriedade sem memria da distribuio exponencial. Uma verificao emprica da distribuio
exponencial para um conjunto de dados de sobrevivncia fornecido por traar o log da estimativa da funo de
sobrevivncia versus . Essa parcela dever aproximar de uma reta passando pela origem como se pode concluir a
partir de (7).
Uma importante generalizao da distribuio exponencial permite uma dependncia de potncias da funo risco no
tempo. Isso produz os dois parmetros da distribuio Weibull com funo de risco
(8) .
Esta funo risco montona decrescente para montona crescente para e reduz a uma constante, se . Para a
distribuio Weibull obtemos
(9)
(10)
Uma verificao emprica para a distribuio Weibull fornecido por uma parcela da estimativa de contra . A
trama deve dar cerca de uma linha reta.
Em geral, a distribuio de uma falha ou tempo de sobrevivncia a inclinao. Skew distribuies podem ser
modelados por meio de uma distribuio lognormal ou uma distribuio gama to bem. Se tem uma distribuio
lognormal, ento isso significa que tem uma distribuio normal, descrito por expectativa e uma varincia . A
distribuio gama pode ser considerada como uma outra generalizao da distribuio exponencial, a sua funo
densidade
,
onde a conhecida gama de funes muito bem:
( ).
Para a densidade (11) se reduz a densidade da distribuio exponencial, a nota .
Seo 3: Estimador de Kaplan Meier
A anlise de sobrevivncia est preocupado em estudar o tempo entre a entrada de um estudo e um evento posterior.
Originalmente, a anlise estava preocupado com o tempo at morte, da o nome, mas a anlise de sobrevivncia
aplicvel a muitas reas, bem como a mortalidade. Uma caracterstica comum de dados de sobrevivncia censura,
isso significa que a falha exata tempos de um certo nmero de indivduos no so conhecidos.
Existem vrias razes para censurar, para citar alguns:
Alguns pacientes podem ter deixado o estudo inicial, so perdidos de seguimento.
Exemplos: a emigrao, os acidentes fatais no trnsito (concorrente de risco)
Estudo termina quando um tempo fixo atingido (direito de censura do tipo I)
Estudo ens quando um nmero fixo de ocorrer uma falha (direito de censura do tipo II)
Nestes exemplos, h direito a censura, o que significa que algumas vezes o fracasso no so conhecidas. Para estes
uma falha desconhecida vezes s se sabe que o tempo de falha superior a um valor conhecido, chamado censurar o
tempo. Neste texto, vamos supor que o processo de censura independente do processo que pretende estudar. Alm
disso, consideramos apenas a censura direita. Estudamos a sobrevivncia de 49 pacientes com cncer colorretal
Dukes'C. Os tempos de sobrevivncia (meses) de dois grupos de tratamento so os seguintes.
Control (

)
Tratamento (

cido linolico,

3 + 18 + 1 + 13 +
6 18 + 5 + 15 +
6 20 6 16 +
6 22 + 6 20 +
6 24 9 + 24
8 28 + 10 24 +
8 28 + 10 27 +
12 28 + 10 + 32
12 30 12 34 +
12 + 30 + 12 36 +
15 + 33 + 12 36 +
16 + 42 12 44 +

12 +

Aqui + significa censura. A primeira entrada (3 +) do grupo controle significa que o paciente deixou o estudo,
depois de meses de sobrevida 3. Assim, o tempo de sobrevivncia correspondente conhecido por ser superior a 3
meses, 3 (meses) o tempo de censura do paciente. Para o grupo de tratamento que deve estimar a funo de
sobrevivncia .
Para a estimativa do usamos o estimador de Kaplan Meier, tambm chamado de estimador produto limite. Suponha
que os tempos de sobrevivncia, incluindo observaes censuradas, de um grupo homogneo de pacientes so
representados por . Ns assumimos que os tempos de sobrevivncia (pacientes) j esto ordenados de tal forma que
. Para um dado valor encontrar o maior valor de tal forma que , A probabilidade ento estimado pela
(13)
onde o nmero de indivduos, pouco antes do tempo vivo (O dia k ordenou o tempo de sobrevivncia) e denota o
nmero de pessoas que morreram na hora . Vamos determinar as estimativas para o grupo de tratamento.
A estimativa da Frmula (13) o produto de fatores . Para observaes censuradas 1 + 5 + e esses fatores igual a
1. Recebemos para . Aps a recepo do estimador de Kaplan Meier, obtemos
(14) para
(15) para
(16) para
(17) para
para
A estimativa Kaplan Meier apenas um passo funo, funo esta etapa somente as mudanas no tempo de
sobrevida com um resultado positivo , Para o grupo de tratamento com esses tempos so 6, 10, 12, 24 e 32. Cada
fator no estimador de Kaplan Meier representa uma menos uma taxa de risco calculado. Tempo de sobrevivncia
considerarmos o nmero de pessoas ainda vivas, algumas vezes chamado o nmero de risco, este o nmero .
Ento, a probabilidade de sobreviver condional estimado de forma direta pela . parcela seguinte um grfico da
estimativa da funo de sobrevivncia do grupo de tratamento.

A parcela correspondente do grupo de controle a seguinte.


Seco 4: Os modelos de regresso
Na seo 2 distribuies de sobrevivncia foram introduzidas diversas para a modelagem da experincia de
sobrevivncia de uma populao homognea. Normalmente, no entanto, existem variveis explicativas sobre a qual
pode depender tempo de falha. Assim, torna-se interessante considerar generalizaes destes modelos a ter em conta
as informaes de variveis explicativas.
Considere vezes falha de indivduos. Para cada indivduo temos valores de variveis explicativas. Observe que
o explicativas podem incluir tanto variveis quantitativas e variveis qualitativas como grupo de tratamento, esta
pode ser incorporada atravs do uso de variveis indicadoras. O principal problema tratado nesta seo a de
modelagem a relao entre o tempo de falha e as variveis explicativas.
A distribuio exponencial pode ser generalizado para obter um modelo de regresso, permitindo que a taxa de falha
a funo de . Em modelos de regresso uma prtica comum que a varivel dependente depende das variveis
explicativas apenas por uma funo linear
,
onde so parmetros desconhecidos. Para a distribuio exponencial, temos uma funo de risco constante . Em
um modelo de regresso para anlise de sobrevivncia pode-se tentar modelar a dependncia dos motivos tomando a)
perigo de nova taxa (a ser
,
A) a nova taxa de risco ( considerado como sendo uma constante ( ) Algumas vezes a funo da funo linear .
taxas de risco a ser positiva, natural de escolher a funo de tal forma que positiva, independentemente dos
valores de . Por esta razo, muitas vezes leva , A taxa de risco em um modelo de regresso ento modelado por
.
Na anlise de sobrevivncia tempo de falha acelerado modelos so obtidos atravs de modelagem do tempo de falha
log em vez do tempo de falha em si. Vamos explicar o que a hiptese (21) sobre a funo de risco significa que se
ns estudamos o tempo de falha log . Vamos usar o seguinte fato da teoria da probabilidade: se tem a distribuio
exponencial com parmetro ento podemos escrever onde uma varivel aleatria com uma distribuio
exponencial com parmetro . Observe que a funo de sobrevivncia igual a
,
que igual a (7), a funo de sobrevivncia de uma distribuio exponencial com parmetro , Portanto, de fato e
so idnticos no que diz respeito sua distribuio. Conseqncias da (21) so:


Por tempo de falha log que quase se um modelo de regresso tradicional. Note que o termo o intercepto
(constante) do modelo de regresso, este prazo pode ser estimado considerando que ambos os e no podem ser
estimados. A perturbao no tem uma distribuio normal, em vez podemos dizer que tem a distribuio
exponencial com parmetro . De (24) pode-se concluir que os efeitos das covariveis (variveis explicativas) atuam
aditivamente na . Lembre comeamos com (21): o ato multiplicatively covariveis sobre a taxa de risco.
Vamos agora considerar a distribuio Weibull, portanto, uma funo de risco dada por (8). Para a distribuio
Weibull anlogo de (21) :

,
como uma questo de fato, a taxa de risco de base passa a ter
.
Voltamos a estudar o tempo de falha log . Usando a teoria da probabilidade, podemos afirmar o seguinte: se tem
uma distribuio de Weibull com parmetros e ento podemos escrever onde tem a distribuio exponencial com
parmetro . Para provar isso, ns mostramos que a funo de sobrevivncia equals (9), a funo de sobrevivncia da
distribuio de Weibull:
,
o que equivale a expresso (9). De (26) e pode-se obter:


com . Esta equao de regresso uma generalizao de (25), conforme o esperado. Mais uma vez os efeitos das
covariveis ato aditiva no tempo de falha de log.
Seco 5: O modelo de riscos proporcionais
Um modelo com uma taxa de risco especificados pelo (21) chamado de modelo de riscos proporcionais. Equao
(21) parte integrante do modelo de regresso com uma distribuio exponencial para o tempo de falha. Desde
os efeitos das covariveis so ditas multiplicatively agir sobre a taxa de risco. No caso da distribuio Weibull nosso
modelo pode ser chamado de um modelo de riscos proporcionais tambm. O modelo de risco proporcional mais
famoso o modelo de riscos proporcionais de Cox. No modelo de riscos proporcionais de Cox falha independente
vezes so estudados, cuja distribuio descrita por uma funo de risco dada por


onde uma base-line funo de risco indeterminado arbitrria que especifica uma distribuio contnua para uma
taxa de falha. Casos especiais so (Distribuio exponencial) e (Distribuio de Weibull), mas uma das
caractersticas mais importantes do modelo de Cox que nenhum modelo paramtrico feita para a linha de funo
de risco-base .
Seo 6: Modelagem e ensaios no modelo de riscos proporcionais
SPSS (como outros programas) fornece estimativas e erros-padro, por exemplo para os parmetros no modelo de
riscos proporcionais de Cox. aplicao de "Cox de regresso para um tem que escolher em SPSS Anlise primeiro,
depois de Sobrevivncia e, finalmente, Cox de regresso.
Para testar a teoria demonstrando que aplicar o modelo de riscos proporcionais aos dados da seo 3. No SPSS
temos que preencher os dados da matriz da seguinte maneira. Uma coluna contm os tempos de sobrevivncia 49. A
segunda coluna indica se os tempos de sobrevivncia so censurados ( ) Ou no , Portanto, esta coluna contm
apenas os nmeros 0 e 1. A terceira coluna indica a que cada grupo pertence o tempo de sobrevida, utilizou-se o
nmero 0 para o controle eo nmero 1 para o grupo de tratamento, assim que esta coluna contm apenas os nmeros
0 e 1 tambm. Ns demos as colunas (variveis) nomes: sobrevivncia, censor e tratamento. Para produzir a sada
relevante tem que escolher o tempo de sobrevivncia, censor de status (define evento nico valor 1) e tratamento
como covarivel. Use 'mtodo ainda: digite'.
Temos agora deve investigar se os grupos diferem muito em relao ao tempo de sobrevida. Ns aplicamos um
modelo de riscos proporcionais com motivos (varivel covarivel) tratamento. Fazendo isso, assumimos que a
funo de risco para um indivduo dada por

com o sendo os valores do tratamento varivel, . Para investigar se h realmente uma diferena entre os dois
grupos, ou se existe realmente um efeito do tratamento, testamos a hiptese nula contra a hiptese alternativa . H
que ter como estatstica de teste com sendo a estimativa da e sendo o erro padro correspondente. A distribuio
da estatstica de teste aproximada pela distribuio normal padro sob a hiptese nula. A hiptese nula rejeitada
se ou . Usando SPSS uma parte da produo a seguinte:
B SE Wald df Sig. Exp (B)
tratamento

0,430 0,345 1 0,557 0,777

Como o fator de podem ser absorvidos pela funo de risco de base , Nenhuma estimativa para o dado. De
sada, vemos e , Da o resultado de . Tendo em nvel de significncia de 5%, rejeitamos se ou ,
Equivalentemente, se . Em vez de SPSS apresenta uma Wald Estatstica igual a . Esta estatstica Wald tem
distribuio qui-quadrado com um grau de liberdade sob a hiptese nula: nvel de significncia de 5% significa que a
hiptese nula rejeitada se a estatstica de Wald , Isso torna um teste equivalente. Para os dados da seo 3, no
temos de rejeitar a hiptese nula, nenhum efeito do tratamento pode ser provada (a nvel de significncia de 5%).
Para a atribuio desta parte do curso de Medicina de Estatstica e Epidemiologia um conjunto de dados tem de ser
estudada, chamamos esse conjunto de dados os dados de amamentao. Os dados esto contidos pelo
breastfeeding.sav arquivo do sistema SPSS. A amamentao dados aos dados relativos aos 925 primeiros filhos
nascidos cujas mes escolheram para o aleitamento materno. As seguintes variveis so registradas:
Durao durao do aleitamento materno (semanas)
Censura 1 para amamentar concluda, 0 para censurados (ainda amamentando)
corrida raa da me ( branco, preto, outros)
Pobreza me em situao de pobreza ( sim, no)
Fumar a me fumou no nascimento da criana ( sim, no)
lcool uso de lcool me ao nascimento do filho ( sim, no)
Idade idade da me ao nascimento do filho
Nascimento ano de nascimento da criana
Escola anos de escolaridade (nvel superior)
Pr-natal O pr-natal, aps trs meses
rd
( sim, no)

Para uma primeira preparao para a atribuio estudamos como a durao depende do Nascimento covarivel.
Inspeo do conjunto de dados revela que o resultado do Nascimento covarivel intervalos de 78 (representando
1978) para 86. Para este tipo de covarivel no til para assumir uma taxa de risco de forma (31) com o sendo
agora os valores do Nascimento covarivel. O nascimento covarivel mais uma varivel categrica. Talvez a
durao do aleitamento materno diferente para os bebs de diferentes anos de nascimento. Diferenas de ano para
ano pode ser modelada atravs da atribuio de efeitos para os nveis (resultados) do Nascimento covarivel. Isso
pode ser feito atravs da introduo de variveis de indicadores. No caso dos dados de aleitamento materno nos
introduzir variveis indicadoras para o nascimento covarivel definidos como segue:
se o resultado de nascimento de 78 e em outro lugar, se o resultado de nascimento de 79 e em outros lugares,
..., se o resultado de nascimento de 85 e em outros lugares. Usando essas variveis o indicador de taxa de risco e,
portanto, o nosso modelo, torna-se

onde so os valores das variveis de cada indicador . De acordo com a frmula a relao entre os riscos de taxas
de nascimento dos anos 78 e 86 igual a . Da mesma forma, a relao entre os riscos de taxas de nascimento dos
anos 79 e 86 igual a . Assim, para os respectivos resultados da covarivel temos agora (possivelmente) diferentes
(multiplicativo) e efeitos aqui no ano de nascimento 86 serve como valor de referncia. Em vez de o ltimo valor o
primeiro valor pode ser escolhido como valor de referncia (categoria ) em SPSS. Usando SPSS o seguinte resultado
obtido.



B SE Wald df Sig. Exp (B)
nascimento 18,411 8 0,018
nascimento (1) -0,799 0,433 3,406 1 0,065 0,450
nascimento (2) -0,722 0,424 2,901 1 0,089 0,486
nascimento (3) -0,947 0,423 5,019 1 0,025 0,388
nascimento (4) -0,707 0,419 2,853 1 0,091 0,493
nascimento (5) -0,703 0,420 2,800 1 0,094 0,495
nascimento (6) -0,666 0,419 2,529 1 0,112 0,514
nascimento (7) -0,715 0,421 2,890 1 0,089 0,489
nascimento (8) -0,402 0,421 0,911 1 0,340 0,669

Na primeira coluna da tabela de parmetros so indicados, respectivamente, o nascimento (1), nascimento (2), ..., ao
nascer (8). Testando a hiptese nula contra a hiptese alternativa para cada indicador varivel nenhuma hiptese
nula deve ser rejeitada ao nvel de significncia de 5%, excepto um (verifique isso). Contudo, no til para testar
para cada varivel indicadora do Nascimento covarivel.
Em vez disso, pode testar se todos os efeitos do Nascimento covarivel so zero. Vamos testar a hiptese nula
contra a hiptese alternativa . SPSS apresenta (o resultado) uma estatstica de teste Wald sob a hiptese nula a sua
distribuio a distribuio qui quadrado com 8 graus de liberdade (df) e tem de se rejeitar a hiptese nula para
valores grandes da estatstica de teste. Os graus de liberdade depende do nmero de variveis indicadoras, pode ser
diferente para os conjuntos de dados diferentes. Em nossos testes problema que temos de rejeitar se Wald (Chi
quadrado com df , O nvel de significncia de 5%). Desde o resultado das Wald 18,411 estamos aqui rejeitar a
hiptese nula. Conclumos que a distribuio (de) Durao depende do Nascimento covarivel.
Ns no damos uma frmula explcita para a estatstica Wald com (aqui) de 8 graus de liberdade. Acabamos de
indicar como trabalhar com ele.
Seco 7: Atribuio
Antes de comear: consultar o texto do arquivo Sobre SPSS.doc. Use SPSS quando voc faz as peas A en B desta
tarefa.
Voc no tem que escrever um relatrio para este trabalho. Apenas faa a sua sada do computador e suas prprias
anotaes com voc para uma oral) de discusso (com o professor sobre as respostas das partes A e B. Para fazer uma
nomeao para o servio: enviar um e-mail ( k.poortema @ ewi.utwente . nl ) ou anel (074) 4893379.

Parte Um
Selecione um nmero de subgrupos e parcelas de estudo da estimativa de Kaplan Meier da funo de sobrevivncia,
a fim de responder s seguintes questes. Ao invs de parcelas da funo de sobrevivncia voc pode usar terrenos
da funo de risco ou em funo da funo de sobrevivncia.
(1) a distribuio da durao do aleitamento materno bem modelada por meio de uma distribuio de Weibull ou
uma distribuio exponencial para os subgrupos escolhidos?
(2) O modelo de riscos proporcionais de ajustar os dados?
Parte B
Agora vamos supor que o modelo de riscos proporcionais de Cox vlido para os dados de aleitamento materno.
Investigar dentro desse modelo em que o covariveis dependentes) Durao varivel (depende realmente. Para as co-
variveis idade e escola (e Nascimento) decidir se voc tomar as covariveis categricas como covarivel (em caso
afirmativo, v para etc ..., categricas no menu de Regresso de Cox). Em caso de covariveis categricas voc no
precisa se preocupar com as variveis indicadoras descrito na seo 6: SPSS apresenta essas variveis indicador
automaticamente.
aspectos importantes:
Tente explicar a durao varivel dependente to bom quanto possvel, mas se abstenha de incluir co-variveis
(variveis explicativas) que parecem ser suprfluos.
Seguir uma estratgia clara, a fim de selecionar as covariveis. Use testes estatsticos.

Das könnte Ihnen auch gefallen