Como fazer TCC com dados secundários passo a passo: do IBGE ao capítulo de Resultados
A maioria dos estudantes pensa que TCC significa necessariamente aplicar questionários ou conduzir entrevistas. Não é verdade. Usar dados secundários de fontes públicas como IBGE, DataSUS e INEP é uma escolha metodológica válida, academicamente rigorosa e muitas vezes mais representativa do que dados primários coletados por um único estudante. Este guia mostra o pipeline completo: do download dos microdados até ao capítulo de Resultados pronto para a banca.
O Brasil tem um dos sistemas de estatísticas públicas mais completos do mundo. O IBGE realiza o Censo Demográfico, a PNAD Contínua e dezenas de pesquisas especializadas. O INEP publica anualmente o Censo Escolar (educação básica) e o Censo da Educação Superior. O DataSUS agrega dados de mortalidade, nascimentos, internações e notificações de doenças. Toda esta informação é pública, gratuita e pode ser usada no teu TCC — desde que a abordagem metodológica seja correta.
Quando usar dados secundários no TCC
Usa dados secundários quando:
- A tua pergunta de investigação envolve um fenómeno de grande escala (nacional, regional) que não podias estudar com uma amostra própria.
- Não tens acesso direto à população de interesse (ex: mortalidade infantil, desempenho escolar em escolas públicas).
- O prazo não permite coletar dados primários suficientes para uma análise estatisticamente robusta.
- Queres fazer análise longitudinal ou comparativa entre anos — disponível nas séries históricas do IBGE e INEP.
Não uses dados secundários apenas para “facilitar” — a banca vai perguntar se os dados disponíveis são adequados para responder à tua pergunta específica. A escolha tem de ser justificada na metodologia.
Principais fontes de dados secundários para TCC no Brasil
| Fonte | Área | Principais datasets | URL |
|---|---|---|---|
| IBGE | Demografia, economia | PNAD Contínua, Censo 2022, MUNIC | ibge.gov.br |
| DataSUS | Saúde | SIM, SINASC, SIH, SINAN | datasus.saude.gov.br |
| INEP | Educação | ENEM, Censo Escolar 2024, SAEB | inep.gov.br |
| CAPES | Pós-graduação | Coleta, avaliação de programas | capes.gov.br |
| BCB | Economia/Finanças | Séries temporais, crédito, câmbio | bcb.gov.br/sgspub |
| IPEA Data | Economia e social | +8.000 indicadores históricos | ipeadata.gov.br |
Passo 1 — Download dos microdados do IBGE
Os microdados do IBGE são ficheiros de dados ao nível individual (pessoa, domicílio), em formato .txt ou .csv, com dicionário de variáveis. São a fonte mais rica para TCCs em ciências sociais, economia, saúde pública e educação.
Como descarregar a PNAD Contínua
- Acede a ibge.gov.br → PNAD Contínua.
- Clica em “Microdados” no menu lateral esquerdo.
- Selecciona o ano e trimestre desejados (ex: 4º trimestre 2024).
- Descarrega o ficheiro .zip — contém o ficheiro de dados (.txt), o dicionário de variáveis (.xls) e o questionário.
- Lê sempre o dicionário de variáveis antes de qualquer análise — é onde estão os códigos e as categorias de cada variável.
Alternativa: pacote PNADcIBGE em R
# Instalar e carregar
install.packages("PNADcIBGE")
library(PNADcIBGE)
# Descarregar PNAD Contínua 4T2024
pnad <- get_pnadc(year = 2024, quarter = 4)
# Visualizar as primeiras linhas
head(pnad)
Passo 2 — Download de dados do DataSUS
O DataSUS TabNet permite fazer consultas online e exportar os resultados em .csv. Para acesso aos microdados completos (para análises mais avançadas), usa o portal de transferência de arquivos do DataSUS.
Sistemas mais usados em TCCs
- SIM (Sistema de Informação sobre Mortalidade): óbitos por causa, idade, sexo e município.
- SINASC (Sistema de Informação sobre Nascidos Vivos): nascimentos, peso, APGAR, prematuridade.
- SINAN (Sistema de Informação de Agravos de Notificação): doenças de notificação compulsória.
- SIH (Sistema de Informação Hospitalar): internações no SUS por diagnóstico (CID-10).
Passo 3 — Download de dados do INEP
O INEP disponibiliza microdados do Censo Escolar, Censo da Educação Superior, ENEM e SAEB. São indispensáveis para TCCs em pedagogia, educação, políticas educacionais e ciências sociais.
Censo Escolar 2024
Publicado em Abril de 2025, o Censo Escolar 2024 cobre dados de todas as escolas de educação básica do Brasil: matrículas, docentes, infraestrutura e rendimento. Descarrega em inep.gov.br → Microdados → Censo Escolar.
Microdados do ENEM
Contêm as notas por área, dados socioeconómicos dos candidatos e informações sobre a escola. Série histórica disponível desde 2009. Ficheiros grandes (o ENEM 2023 tem mais de 3 milhões de linhas) — recomenda-se análise em R ou Python, não em Excel.
Passo 4 — Limpeza de dados em R ou Python
Os microdados de fontes governamentais brasileiras raramente chegam prontos para análise. Há valores em falta, variáveis codificadas com números que precisam de dicionário e formatos inconsistentes. Esta fase — limpeza de dados — é a mais trabalhosa mas a mais importante.
Pipeline de limpeza em R (tidyverse)
library(tidyverse)
library(readr)
# 1. Importar microdados (PNAD exemplo)
dados <- read_csv2("PNADC_2024_trimestre4.csv",
locale = locale(encoding = "latin1"))
# 2. Seleccionar variáveis relevantes
dados_sel %
select(UF, V2009, VD4020, VD4031, V1028) %>%
rename(estado = UF,
idade = V2009,
rend_habitual = VD4020,
horas_trab = VD4031,
peso_amostral = V1028)
# 3. Filtrar casos válidos
dados_limpos %
filter(!is.na(rend_habitual),
idade >= 18,
horas_trab > 0)
# 4. Verificar valores ausentes
summary(dados_limpos)
Pipeline equivalente em Python (pandas)
import pandas as pd
import numpy as np
# Importar dados
df = pd.read_csv("PNADC_2024_T4.csv",
sep=";", encoding="latin1")
# Seleccionar e renomear variáveis
df = df[["UF", "V2009", "VD4020", "VD4031", "V1028"]].copy()
df.columns = ["estado", "idade", "rend_habitual",
"horas_trab", "peso_amostral"]
# Filtrar casos válidos
df_limpo = df.dropna(subset=["rend_habitual"])
df_limpo = df_limpo[df_limpo["idade"] >= 18]
df_limpo = df_limpo[df_limpo["horas_trab"] > 0]
print(df_limpo.describe())
Guarda sempre o script de limpeza e o dataset original — a banca pode pedir para verificar a reprodutibilidade da análise. Disponibiliza o notebook no GitHub como material suplementar do TCC.
Passo 5 — Análise estatística no Jamovi
O Jamovi é gratuito, de código aberto e tem uma interface gráfica intuitiva que facilita a análise de dados sem necessidade de programação. Cobre as análises mais comuns em TCCs de ciências sociais, saúde e educação.
Análises disponíveis no Jamovi relevantes para TCC
- Estatísticas descritivas: média, mediana, moda, desvio padrão, frequências, percentis.
- Teste t independente e emparelhado: comparação de médias entre dois grupos.
- ANOVA one-way e factorial: comparação de médias entre mais de dois grupos.
- Qui-quadrado de Pearson: associação entre variáveis categóricas.
- Correlação de Pearson e Spearman: relação entre variáveis numéricas.
- Regressão linear e logística: predição e controlo de variáveis confundidoras.
Importar dados do R/Python para o Jamovi
- No R, exporta o dataset limpo:
write.csv(dados_limpos, "dados_tcc.csv"). - No Jamovi, clica em “Open” → selecciona o ficheiro .csv.
- Verifica os tipos de variáveis (nominal, ordinal, contínua) no menu de cada coluna.
- Selecciona a análise pretendida no menu “Analyses”.
- Os resultados são gerados automaticamente e podem ser exportados em Word (.docx) para inserir no TCC.
Passo 6 — Redigir o capítulo de Resultados
O capítulo de Resultados de um TCC com dados secundários tem uma estrutura específica. Cada resultado deve incluir: a estatística reportada, o nível de significância (se aplicável) e a interpretação descritiva — sem juízo de valor ou discussão (isso fica para o capítulo seguinte).
Estrutura típica do capítulo de Resultados
- Caracterização da amostra: descreve as características demográficas do dataset (n, distribuição por sexo, idade, região).
- Estatísticas descritivas das variáveis principais: tabela com média, desvio padrão e amplitude para variáveis contínuas; frequências e percentagens para variáveis categóricas.
- Resultados por objetivo específico: para cada objectivo, apresenta o teste estatístico correspondente, a estatística obtida e o p-valor.
- Figuras e tabelas numeradas: todas as figuras e tabelas devem ser numeradas sequencialmente, com legenda e fonte (ex: “Fonte: IBGE, PNAD Contínua 2024, elaboração própria”).
Exemplo de redação de resultado
“A Tabela 1 apresenta as estatísticas descritivas do rendimento habitacional mensal por região do Brasil. A região Sudeste apresentou a maior média de rendimento (R$ 2.847,32; DP = 1.923,45), enquanto a região Nordeste registou a menor (R$ 1.234,56; DP = 876,23). A ANOVA one-way revelou diferenças estatisticamente significativas entre as cinco regiões [F(4, 89.432) = 1.243,7; p < 0,001; η² = 0,053].”
Para a redação da discussão, onde conectas os resultados com a literatura, consulta o artigo sobre como redigir a discussão da tese com o framework IMRyD. Para os aspectos de formatação ABNT, vê o guia sobre como formatar o TCC nas normas ABNT.
Como discutir as limitações dos dados secundários
Esta é a secção que distingue um TCC de nível de um TCC mediano. As limitações dos dados secundários devem ser discutidas explicitamente — a banca vai perguntar sobre elas.
Limitações típicas a discutir:
- Variáveis proxy: se a variável que queres medir não está directamente disponível e usas outra como aproximação, justifica a escolha e discute as implicações.
- Sub-notificação: dados do DataSUS podem sub-representar populações sem acesso ao SUS; dados do INEP podem ter inconsistências de preenchimento entre municípios.
- Dados desactualizados: se o dataset mais recente é de 2022 ou 2023, discute o que pode ter mudado entretanto.
- Causalidade vs correlação: dados secundários permitem identificar associações, não causalidade — a menos que uses métodos quase-experimentais (diferenças-em-diferenças, variáveis instrumentais).
- Erros de medição: respostas auto-reportadas (rendimento, horas de trabalho) têm viés de desejabilidade social.
Vê também o guia completo sobre como fazer TCC passo a passo com IA e o artigo sobre como evitar plágio na tese ao usar IA.
FAQ — TCC com dados secundários no Brasil
O que são dados secundários no TCC?
Dados secundários são dados coletados por terceiros e reutilizados pelo investigador para responder à sua pergunta de investigação. No Brasil, as principais fontes são o IBGE, o DataSUS, o INEP, a CAPES e o SINASC. São diferentes dos dados primários, que são coletados diretamente pelo investigador.
Dados secundários são aceites pela banca do TCC?
Sim, desde que a escolha seja justificada metodologicamente. Dados secundários de qualidade (IBGE, DataSUS, INEP) são frequentemente mais rigorosos e representativos do que dados primários coletados por um único estudante. A chave é discutir explicitamente as limitações das bases de dados usadas.
Preciso de aprovação do CEP para TCC com dados secundários?
Depende da área e da fonte. Para dados completamente anonimizados de bases governamentais públicas (IBGE, INEP), geralmente não é necessária aprovação do CEP. Para dados do DataSUS com identificação de pacientes ou dados sensíveis de saúde, a aprovação do CEP é obrigatória. Consulta sempre o comité de ética da tua instituição.
Qual a diferença entre usar IBGE, DataSUS e INEP no TCC?
O IBGE cobre demografia, economia e condições de vida. O DataSUS cobre dados de saúde e mortalidade. O INEP cobre educação básica e superior. Escolhe a fonte de acordo com o objeto de estudo do TCC.
O Jamovi é adequado para análise de dados secundários do TCC?
Sim. O Jamovi é gratuito e cobre as análises mais comuns em TCC: estatísticas descritivas, testes t, ANOVA, qui-quadrado, correlação e regressão. Para datasets muito grandes (+100.000 linhas), é preferível usar R ou Python.
Como citar corretamente dados do IBGE no TCC com ABNT?
Formato ABNT: INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Nome da Pesquisa. Ano de referência. Local: IBGE, ano de publicação. Disponível em: URL. Acesso em: data. Exemplo: IBGE. PNAD Contínua 2024. Rio de Janeiro: IBGE, 2025. Disponível em: ibge.gov.br. Acesso em: 10 jan. 2026.
