Análise de Sobrevivência na Tese em 2026: Kaplan-Meier e Regressão de Cox (Guia Metodológico)
Quando a variável dependente da sua investigação não é uma medida contínua nem uma categoria, mas sim o tempo até à ocorrência de um evento — morte, recidiva, abandono escolar, falha de equipamento, reincidência criminal —, os métodos clássicos de regressão linear ou logística tornam-se inadequados. A análise de sobrevivência (também designada análise de tempo ao evento ou event history analysis) é o conjunto de técnicas estatísticas desenvolvido precisamente para modelar este tipo de dados, incorporando uma característica estrutural incontornável: a censura, ou seja, a presença de indivíduos para os quais o evento não foi observado até ao fim do período de acompanhamento.
Este guia metodológico destina-se a estudantes de mestrado e doutoramento que precisam de implementar — e fundamentar com rigor — uma análise de sobrevivência no capítulo de métodos da sua tese. São abordados os dois instrumentos centrais: o estimador de Kaplan-Meier para descrição e comparação univariável de grupos, e a regressão de Cox para análise multivariável com covariáveis. São apresentados exemplos de código em R e instruções no SPSS, bem como orientações para reporte segundo as normas APA 7.
A análise de sobrevivência modela o tempo até um evento com dois instrumentos complementares: (1) o estimador de Kaplan-Meier, não paramétrico, para estimar e visualizar curvas de sobrevivência e comparar grupos via teste log-rank; e (2) a regressão de Cox, semiparamétrica, para quantificar o efeito de covariáveis ajustadas através do hazard ratio (HR), sob o pressuposto de riscos proporcionais.
O Que É a Análise de Sobrevivência — e Onde Se Aplica
A designação «análise de sobrevivência» tem origem na sua aplicação histórica na medicina, onde o evento de interesse era literalmente a morte do doente. O quadro metodológico é, porém, completamente generalizado: o «evento» pode ser qualquer ocorrência discreta que marque a transição entre dois estados definidos à priori.
| Área | Evento de Interesse | Ponto de Origem |
|---|---|---|
| Oncologia / Saúde | Morte, recidiva tumoral, hospitalização | Data de diagnóstico ou início do tratamento |
| Ciências Sociais e Educação | Abandono escolar, primeiro emprego, divórcio | Data de matrícula, casamento ou contratação |
| Engenharia da Fiabilidade | Falha de componente ou sistema | Início de operação |
| Economia e Gestão | Saída de empresa, incumprimento de crédito, falência | Data de fundação ou de concessão do crédito |
| Criminologia | Reincidência criminal | Data de libertação |
A análise de sobrevivência é adequada quando três condições se verificam simultaneamente: (a) existe um evento binário bem definido com uma data de ocorrência mensurável; (b) os sujeitos entram no estudo num ponto de origem claramente determinado; e (c) nem todos os sujeitos experienciam o evento durante o período de observação — ou seja, existem observações censuradas.
Conceitos Fundamentais: Tempo ao Evento, Censura e Funções
Tempo ao Evento
A variável central é T, o tempo decorrido desde o ponto de origem até à ocorrência do evento. T é uma variável aleatória contínua e não negativa. O objetivo da análise é modelar a distribuição de T — a partir dos dados observados (abordagem não paramétrica como Kaplan-Meier), assumindo uma forma funcional (abordagens paramétricas como a distribuição de Weibull ou log-normal), ou de modo semiparamétrico (modelo de Cox).
Censura: Quando o Evento Não É Observado
A censura à direita é o tipo mais frequente e ocorre quando o período de acompanhamento termina antes de o indivíduo experimentar o evento. Existem três origens práticas:
- Fim do estudo: o protocolo de investigação define uma data de encerramento e o sujeito permanece sem o evento até essa data (ex.: doente vivo na última consulta de seguimento).
- Perda de seguimento: o participante abandona o estudo por razões alheias ao evento de interesse (ex.: muda de residência, retira o consentimento informado).
- Evento competitivo: ocorre um evento alternativo que impede logicamente a ocorrência do evento primário (ex.: morte por causa cardiovascular num estudo de recidiva tumoral). Este subtipo requer atenção especial e pode implicar modelos de riscos concorrentes.
A censura à esquerda é menos frequente: sabe-se que o evento ocorreu antes do início da observação, mas não se conhece a data exata. A análise de sobrevivência padrão pressupõe que a censura é não informativa — o mecanismo de censura é independente do risco de ocorrência do evento. A violação deste pressuposto constitui uma fonte de enviesamento que deve ser discutida explicitamente na tese.
Função de Sobrevivência S(t) e Função de Risco h(t)
A função de sobrevivência S(t) representa a probabilidade de o evento ainda não ter ocorrido até ao instante t:
S(t) = P(T > t)
S(t) é monotonicamente decrescente, com S(0) = 1 e tendendo para 0 quando t cresce indefinidamente.
A função de risco (hazard function) h(t) quantifica a taxa instantânea de ocorrência do evento no instante t, condicionada à sobrevivência até esse momento:
h(t) = limΔt→0 P(t ≤ T < t + Δt | T ≥ t) / Δt
S(t) e h(t) são matematicamente equivalentes: a partir de qualquer uma das duas é possível derivar a outra. O modelo de Kaplan-Meier estima S(t) diretamente; o modelo de Cox modela h(t).
Estimador de Kaplan-Meier e Teste Log-rank

Construção e Interpretação das Curvas
O estimador de Kaplan-Meier (KM) é uma abordagem não paramétrica que estima S(t) sem assumir qualquer forma distribucional. A cada instante de evento ti, o produto acumulado de sobrevivências condicionais é calculado como:
Ŝ(t) = ∏ti ≤ t (1 − di / ni)
onde di é o número de eventos no instante ti e ni é o número de indivíduos «em risco» (ainda sob observação e sem o evento) imediatamente antes de ti. O resultado é uma curva em degraus que desce cada vez que ocorre um evento; os indivíduos censurados são indicados convencionalmente com uma marca «+» na curva.
O Teste Log-rank: Comparar Grupos
Quando existem dois ou mais grupos (ex.: doentes com tratamento A vs. tratamento B), o teste log-rank avalia formalmente se as curvas de sobrevivência diferem. A hipótese nula é H0: SA(t) = SB(t) para todo o t. A estatística de teste segue aproximadamente uma distribuição qui-quadrado com k − 1 graus de liberdade (sendo k o número de grupos).
O teste log-rank atribui peso igual a todos os instantes de tempo, sendo mais sensível a diferenças que persistem ao longo de todo o seguimento. Variantes como o teste de Breslow (Wilcoxon generalizado) atribuem maior peso aos eventos precoces. A escolha entre variantes deve ser definida a priori com base na hipótese de investigação, e não em função dos resultados observados.
Regressão de Cox — Modelo de Riscos Proporcionais
A regressão de Cox (Cox, 1972) é o modelo semiparamétrico de referência para a análise multivariável de dados de sobrevivência. A sua forma é:
h(t | X) = h0(t) × exp(β1X1 + β2X2 + … + βpXp)
onde h0(t) é a função de risco basal — que permanece não especificada, daí o carácter semiparamétrico do modelo —, e X1, …, Xp são as covariáveis observadas. A estimação dos β é feita por verossimilhança parcial, o que dispensa a especificação de h0(t).
O Hazard Ratio (HR) e a Sua Interpretação
Os coeficientes β estimados pelo modelo traduzem-se em hazard ratios: HR = exp(β). O HR compara o risco instantâneo de dois indivíduos que diferem numa unidade na covariável Xj, mantendo todas as restantes constantes:
- HR = 1: a covariável não está associada ao risco de evento.
- HR > 1: a covariável aumenta o risco (efeito de risco acrescido).
- HR < 1: a covariável reduz o risco (efeito protetor).
Exemplo ilustrativo (dados fictícios para fins pedagógicos): Num estudo hipotético sobre tempo até readmissão hospitalar, um HR = 1.45 associado ao diagnóstico de insuficiência cardíaca significaria que os doentes com esse diagnóstico apresentam, em cada instante de tempo, um risco de readmissão 45% superior ao dos restantes, após ajuste para as covariáveis incluídas no modelo.
Como Verificar o Pressuposto de Riscos Proporcionais
O pressuposto central do modelo de Cox é o de riscos proporcionais: o HR entre dois indivíduos quaisquer deve ser constante ao longo do tempo, ou seja, não depende de t. Quando este pressuposto é violado, as estimativas de HR tornam-se médias temporais de efeitos variáveis, perdendo interpretabilidade.
Existem três abordagens complementares para avaliar este pressuposto:
- Resíduos de Schoenfeld: se existir uma correlação sistemática entre os resíduos e o tempo, o pressuposto é posto em causa. O teste formal, implementado por
cox.zph()em R, produz um valor de p por covariável e um valor global. - Gráficos log-log: representar ln(−ln[Ŝ(t)]) em função de ln(t) por grupo; se as curvas forem aproximadamente paralelas, o pressuposto é suportado graficamente.
- Covariáveis dependentes do tempo: incluir no modelo um termo de interação X × g(t) para testar formalmente se o efeito da covariável muda com o tempo.
Quando o pressuposto é violado, as alternativas incluem: estratificação pela covariável infratora (o modelo estima uma função de risco basal diferente por estrato, sem impor proporcionalidade), uso explícito de covariáveis tempo-dependentes, ou recurso a modelos paramétricos alternativos (Weibull, log-logistic, log-normal).
Implementação em R (survival + survminer)
O R é o ambiente de eleição para análise de sobrevivência, sobretudo através de dois pacotes: survival (Therneau, 2024), que fornece todas as funções de estimação, e survminer, que produz gráficos prontos para publicação com recurso a ggplot2. Para orientações sobre a escolha de software estatístico para a tese, consulte o guia R vs Python vs Excel 2026: Qual Usar para Analisar os Dados da Tese.
# --- Instalar e carregar pacotes ---
install.packages(c("survival", "survminer"))
library(survival)
library(survminer)
# --- 1. Criar objeto Surv ---
# tempo : vetor com o tempo ao evento ou à censura
# status: 1 = evento ocorreu; 0 = censurado à direita
surv_obj <- Surv(time = dados$tempo, event = dados$status)
# --- 2. Estimador de Kaplan-Meier por grupo ---
km_fit <- survfit(surv_obj ~ grupo, data = dados)
summary(km_fit) # tabela com Ŝ(t), IC 95%, n em risco
# --- 3. Curvas KM com survminer ---
ggsurvplot(
km_fit,
data = dados,
pval = TRUE, # inclui p-value do teste log-rank
conf.int = TRUE, # banda de IC 95%
risk.table = TRUE, # tabela de n em risco abaixo do gráfico
xlab = "Tempo (meses)",
ylab = "Probabilidade de Sobrevivência",
legend.labs = c("Grupo A", "Grupo B")
)
# --- 4. Regressão de Cox ---
cox_fit <- coxph(surv_obj ~ variavel1 + variavel2 + variavel3,
data = dados)
summary(cox_fit) # HR (Exp(coef)), IC 95%, Wald, log-rank global
# --- 5. Verificar pressuposto de riscos proporcionais ---
ph_test <- cox.zph(cox_fit)
print(ph_test) # valor de p por covariável e global
ggcoxzph(ph_test) # gráfico dos resíduos de Schoenfeld
A função Surv() cria o objeto de resposta bivariado (tempo, indicador de evento) que todas as funções do pacote survival reconhecem. Para censura por intervalo é necessário especificar type = "interval2" com dois argumentos de tempo. O índice de concordância de Harrell (C-statistic), reportado automaticamente no summary() do modelo Cox, avalia a capacidade discriminativa do modelo e deve ser incluído no reporte.
Análise no SPSS
O IBM SPSS Statistics disponibiliza rotinas específicas para análise de sobrevivência em Analisar > Sobrevivência. Para uma visão geral das capacidades do SPSS na análise de dados da tese, consulte o guia Como Analisar Dados Quantitativos da Tese com SPSS e Jamovi.
Kaplan-Meier no SPSS:
- Analisar > Sobrevivência > Kaplan-Meier.
- Colocar a variável de tempo em «Tempo» e a variável de estado em «Estado»; clicar em «Definir evento» e indicar o valor que sinaliza a ocorrência do evento (normalmente 1).
- Colocar a variável de agrupamento em «Fator» para obter curvas separadas por grupo.
- Em «Comparar Fatores», selecionar o teste log-rank e, opcionalmente, o teste de Breslow (Wilcoxon) e o de Tarone-Ware.
- Em «Opções», solicitar estatísticas de sobrevivência (média e mediana com IC 95%) e gráficos das funções de sobrevivência e de risco acumulado.
Regressão de Cox no SPSS:
- Analisar > Sobrevivência > Regressão de Cox.
- Especificar a variável de tempo e a variável de estado com o respetivo valor de evento.
- Colocar as covariáveis em «Covariáveis»; para variáveis categóricas, usar o botão «Categórica» para especificar a codificação em indicadores (dummies) com a categoria de referência adequada.
- O SPSS apresenta os coeficientes B, o Exp(B) (= HR), o IC 95% para Exp(B), a estatística de Wald e o valor de p por covariável, bem como os testes de razão de verossimilhança global.
- Para verificar os riscos proporcionais: Analisar > Sobrevivência > Regressão de Cox com Covariáveis Dependentes do Tempo — criar termos T_ × covariável e testar a sua significância.
Como Reportar em APA 7
A APA 7 não define um modelo específico para análise de sobrevivência, mas os princípios gerais de reporte estatístico aplicam-se integralmente. Para a formatação de tabelas e figuras segundo as normas APA, consulte Como Criar Gráficos e Tabelas em Normas APA para a Tese. Para a redação dos resultados, ver também Como Escrever os Resultados e a Discussão da Tese em 2026.
Modelos de frase para o Kaplan-Meier e teste log-rank:
«As curvas de sobrevivência de Kaplan-Meier revelaram uma sobrevivência mediana de X meses (IC 95% [X, X]) no grupo A e de X meses (IC 95% [X, X]) no grupo B. O teste log-rank indicou uma diferença estatisticamente significativa entre os grupos, χ²(1) = X.XX, p = .XXX.»
Modelo de frase para a regressão de Cox:
«O modelo de regressão de Cox indicou que [variável X] estava significativamente associada ao tempo até [evento], após ajuste para [covariáveis], HR = X.XX, IC 95% [X.XX, X.XX], p = .XXX. O pressuposto de riscos proporcionais foi verificado por meio dos resíduos de Schoenfeld, com o teste global não significativo, χ²(p) = X.XX, p = .XXX. O índice de concordância de Harrell para o modelo foi de C = 0.XX.»
| Técnica | Elementos a Reportar |
|---|---|
| Kaplan-Meier | N total; n eventos; n censurados; sobrevivência mediana com IC 95% por grupo; curva KM em figura com tabela de n em risco; estatística e p-value do log-rank |
| Regressão de Cox | N e n eventos; HR com IC 95% e p-value por covariável; teste de verossimilhança global; verificação do pressuposto de riscos proporcionais; índice de concordância de Harrell (C) |
O dimensionamento da amostra em análise de sobrevivência depende do número esperado de eventos — e não apenas do N total. Para o cálculo de potência estatística adequada ao seu estudo, consulte o guia Como Calcular o Tamanho da Amostra da Tese com o G*Power.
Para enquadrar a análise de sobrevivência no capítulo de métodos da sua tese, consulte também o guia completo de metodologia de investigação para a tese em 2026, que orienta a justificação das escolhas metodológicas do início ao fim.
Perguntas Frequentes
Posso usar regressão logística em vez da regressão de Cox quando tenho dados de tempo ao evento?
A regressão logística modela a probabilidade de ocorrência do evento (sim/não) sem considerar o tempo. Quando há variação substancial no período de acompanhamento entre participantes, ou quando existem observações censuradas, a regressão logística produz estimativas enviesadas porque descarta a informação temporal e trata os censurados de forma inadequada — assumindo que o evento não ocorreu, quando na realidade apenas não foi observado. Use a regressão de Cox sempre que o tempo for a variável de resposta principal e existir censura.
O que fazer quando o pressuposto de riscos proporcionais é violado?
As principais estratégias são: (1) estratificação pela covariável infratora — o modelo estima funções de risco basais separadas por estrato sem impor proporcionalidade, mas as restantes covariáveis mantêm o pressuposto; (2) inclusão de um termo de interação com o tempo para modelar a não-proporcionalidade de forma explícita; (3) uso de modelos paramétricos alternativos como o de Weibull, log-logistic ou log-normal, que não assumem riscos proporcionais; (4) modelos de risco aditivo de Aalen. A escolha deve ser fundamentada teoricamente e comunicada no capítulo de métodos.
Qual a diferença entre análise de sobrevivência clássica e análise de riscos concorrentes?
Na análise de sobrevivência clássica, a censura é assumida como não informativa: o risco futuro do indivíduo censurado é idêntico ao dos não censurados. Quando existem riscos concorrentes — por exemplo, morte por cancro ou por causa cardiovascular num mesmo estudo — a ocorrência de um evento elimina a possibilidade do outro, tornando a censura informativa para o evento primário. Neste contexto, o estimador de Kaplan-Meier sobrestima o risco de cada evento individual; deve utilizar-se o estimador de Aalen-Johansen para a função de incidência acumulada e a regressão de Fine-Gray ou modelos de subdistribuição para as covariáveis.
Quantos eventos são necessários para que a regressão de Cox produza estimativas estáveis?
A regra clássica na literatura metodológica recomenda um mínimo de 10 eventos por variável preditora (EPV — events per variable) incluída no modelo. Uma EPV baixa pode conduzir a estimativas de HR instáveis, intervalos de confiança excessivamente amplos e separação perfeita dos dados. Quando o número de eventos é limitado, recomenda-se reduzir o número de preditores com base em seleção teórica à priori, usar métodos de penalização (ridge Cox, LASSO) ou considerar o índice de propensão para reduzir a dimensionalidade.
O estimador de Kaplan-Meier pode ser aplicado com covariáveis contínuas?
O estimador KM não é concebido para covariáveis contínuas porque gera uma curva separada por cada valor único, tornando-se impraticável. A solução habitualmente utilizada para fins descritivos é dicotomizar a covariável num ponto de corte (ex.: mediana), mas esta abordagem perde informação e pode ser arbitrária — o ponto de corte ótimo não deve ser determinado a partir dos dados do mesmo estudo. Para análise inferencial com covariáveis contínuas, a regressão de Cox é a opção correta, permitindo estimar o HR associado a cada unidade de incremento da covariável.
Como justificar metodologicamente a escolha da análise de sobrevivência no capítulo de métodos da tese?
A justificação assenta em três argumentos: (1) a variável dependente é, pela sua natureza, um tempo ao evento, tornando a análise de sobrevivência o quadro estatístico epistemologicamente adequado; (2) a presença de observações censuradas invalida o uso de regressão linear ou logística sem enviesamento; (3) o modelo de Cox é semiparamétrico e robusto à forma da distribuição basal, sendo adequado quando não existe razão teórica para assumir uma distribuição paramétrica específica. A justificação deve incluir as referências seminais — Kaplan e Meier (1958) para o estimador não paramétrico, e Cox (1972) para o modelo de riscos proporcionais — e deve constar explicitamente do capítulo de metodologia da tese.
