HomeBlog

Como fazer TCC com dados secundários passo a passo: do IBGE ao capítulo de Resultados

Como fazer TCC com dados secundários passo a passo: do IBGE ao capítulo de Resultados

A maioria dos estudantes pensa que TCC significa necessariamente aplicar questionários ou conduzir entrevistas. Não é verdade. Usar dados secundários de fontes públicas como IBGE, DataSUS e INEP é uma escolha metodológica válida, academicamente rigorosa e muitas vezes mais representativa do que dados primários coletados por um único estudante. Este guia mostra o pipeline completo: do download dos microdados até ao capítulo de Resultados pronto para a banca.

O Brasil tem um dos sistemas de estatísticas públicas mais completos do mundo. O IBGE realiza o Censo Demográfico, a PNAD Contínua e dezenas de pesquisas especializadas. O INEP publica anualmente o Censo Escolar (educação básica) e o Censo da Educação Superior. O DataSUS agrega dados de mortalidade, nascimentos, internações e notificações de doenças. Toda esta informação é pública, gratuita e pode ser usada no teu TCC — desde que a abordagem metodológica seja correta.

Resposta rápida: Pipeline para TCC com dados secundários: (1) define a pergunta de investigação; (2) identifica a fonte de dados (IBGE/DataSUS/INEP); (3) descarrega os microdados; (4) limpa e transforma em R ou Python; (5) analisa no Jamovi; (6) redige o capítulo de Resultados com tabelas e figuras numeradas.

Quando usar dados secundários no TCC

Usa dados secundários quando:

  • A tua pergunta de investigação envolve um fenómeno de grande escala (nacional, regional) que não podias estudar com uma amostra própria.
  • Não tens acesso direto à população de interesse (ex: mortalidade infantil, desempenho escolar em escolas públicas).
  • O prazo não permite coletar dados primários suficientes para uma análise estatisticamente robusta.
  • Queres fazer análise longitudinal ou comparativa entre anos — disponível nas séries históricas do IBGE e INEP.

Não uses dados secundários apenas para “facilitar” — a banca vai perguntar se os dados disponíveis são adequados para responder à tua pergunta específica. A escolha tem de ser justificada na metodologia.

Principais fontes de dados secundários para TCC no Brasil

Fonte Área Principais datasets URL
IBGE Demografia, economia PNAD Contínua, Censo 2022, MUNIC ibge.gov.br
DataSUS Saúde SIM, SINASC, SIH, SINAN datasus.saude.gov.br
INEP Educação ENEM, Censo Escolar 2024, SAEB inep.gov.br
CAPES Pós-graduação Coleta, avaliação de programas capes.gov.br
BCB Economia/Finanças Séries temporais, crédito, câmbio bcb.gov.br/sgspub
IPEA Data Economia e social +8.000 indicadores históricos ipeadata.gov.br

Passo 1 — Download dos microdados do IBGE

Os microdados do IBGE são ficheiros de dados ao nível individual (pessoa, domicílio), em formato .txt ou .csv, com dicionário de variáveis. São a fonte mais rica para TCCs em ciências sociais, economia, saúde pública e educação.

Como descarregar a PNAD Contínua

  1. Acede a ibge.gov.br → PNAD Contínua.
  2. Clica em “Microdados” no menu lateral esquerdo.
  3. Selecciona o ano e trimestre desejados (ex: 4º trimestre 2024).
  4. Descarrega o ficheiro .zip — contém o ficheiro de dados (.txt), o dicionário de variáveis (.xls) e o questionário.
  5. Lê sempre o dicionário de variáveis antes de qualquer análise — é onde estão os códigos e as categorias de cada variável.

Alternativa: pacote PNADcIBGE em R

# Instalar e carregar
install.packages("PNADcIBGE")
library(PNADcIBGE)

# Descarregar PNAD Contínua 4T2024
pnad <- get_pnadc(year = 2024, quarter = 4)

# Visualizar as primeiras linhas
head(pnad)

Passo 2 — Download de dados do DataSUS

O DataSUS TabNet permite fazer consultas online e exportar os resultados em .csv. Para acesso aos microdados completos (para análises mais avançadas), usa o portal de transferência de arquivos do DataSUS.

Sistemas mais usados em TCCs

  • SIM (Sistema de Informação sobre Mortalidade): óbitos por causa, idade, sexo e município.
  • SINASC (Sistema de Informação sobre Nascidos Vivos): nascimentos, peso, APGAR, prematuridade.
  • SINAN (Sistema de Informação de Agravos de Notificação): doenças de notificação compulsória.
  • SIH (Sistema de Informação Hospitalar): internações no SUS por diagnóstico (CID-10).
Atenção CEP: Para TCCs em saúde que usam dados do DataSUS com identificação individual, é necessária aprovação do Comité de Ética em Pesquisa (CEP). Para dados agregados ou completamente anonimizados, geralmente não é necessário. Consulta o teu orientador e o CEP da instituição antes de iniciar a análise.

Passo 3 — Download de dados do INEP

O INEP disponibiliza microdados do Censo Escolar, Censo da Educação Superior, ENEM e SAEB. São indispensáveis para TCCs em pedagogia, educação, políticas educacionais e ciências sociais.

Censo Escolar 2024

Publicado em Abril de 2025, o Censo Escolar 2024 cobre dados de todas as escolas de educação básica do Brasil: matrículas, docentes, infraestrutura e rendimento. Descarrega em inep.gov.br → Microdados → Censo Escolar.

Microdados do ENEM

Contêm as notas por área, dados socioeconómicos dos candidatos e informações sobre a escola. Série histórica disponível desde 2009. Ficheiros grandes (o ENEM 2023 tem mais de 3 milhões de linhas) — recomenda-se análise em R ou Python, não em Excel.

Passo 4 — Limpeza de dados em R ou Python

Os microdados de fontes governamentais brasileiras raramente chegam prontos para análise. Há valores em falta, variáveis codificadas com números que precisam de dicionário e formatos inconsistentes. Esta fase — limpeza de dados — é a mais trabalhosa mas a mais importante.

Pipeline de limpeza em R (tidyverse)

library(tidyverse)
library(readr)

# 1. Importar microdados (PNAD exemplo)
dados <- read_csv2("PNADC_2024_trimestre4.csv",
                    locale = locale(encoding = "latin1"))

# 2. Seleccionar variáveis relevantes
dados_sel %
  select(UF, V2009, VD4020, VD4031, V1028) %>%
  rename(estado = UF,
         idade = V2009,
         rend_habitual = VD4020,
         horas_trab = VD4031,
         peso_amostral = V1028)

# 3. Filtrar casos válidos
dados_limpos %
  filter(!is.na(rend_habitual),
         idade >= 18,
         horas_trab > 0)

# 4. Verificar valores ausentes
summary(dados_limpos)

Pipeline equivalente em Python (pandas)

import pandas as pd
import numpy as np

# Importar dados
df = pd.read_csv("PNADC_2024_T4.csv",
                  sep=";", encoding="latin1")

# Seleccionar e renomear variáveis
df = df[["UF", "V2009", "VD4020", "VD4031", "V1028"]].copy()
df.columns = ["estado", "idade", "rend_habitual",
               "horas_trab", "peso_amostral"]

# Filtrar casos válidos
df_limpo = df.dropna(subset=["rend_habitual"])
df_limpo = df_limpo[df_limpo["idade"] >= 18]
df_limpo = df_limpo[df_limpo["horas_trab"] > 0]

print(df_limpo.describe())

Guarda sempre o script de limpeza e o dataset original — a banca pode pedir para verificar a reprodutibilidade da análise. Disponibiliza o notebook no GitHub como material suplementar do TCC.

Passo 5 — Análise estatística no Jamovi

O Jamovi é gratuito, de código aberto e tem uma interface gráfica intuitiva que facilita a análise de dados sem necessidade de programação. Cobre as análises mais comuns em TCCs de ciências sociais, saúde e educação.

Análises disponíveis no Jamovi relevantes para TCC

  • Estatísticas descritivas: média, mediana, moda, desvio padrão, frequências, percentis.
  • Teste t independente e emparelhado: comparação de médias entre dois grupos.
  • ANOVA one-way e factorial: comparação de médias entre mais de dois grupos.
  • Qui-quadrado de Pearson: associação entre variáveis categóricas.
  • Correlação de Pearson e Spearman: relação entre variáveis numéricas.
  • Regressão linear e logística: predição e controlo de variáveis confundidoras.

Importar dados do R/Python para o Jamovi

  1. No R, exporta o dataset limpo: write.csv(dados_limpos, "dados_tcc.csv").
  2. No Jamovi, clica em “Open” → selecciona o ficheiro .csv.
  3. Verifica os tipos de variáveis (nominal, ordinal, contínua) no menu de cada coluna.
  4. Selecciona a análise pretendida no menu “Analyses”.
  5. Os resultados são gerados automaticamente e podem ser exportados em Word (.docx) para inserir no TCC.

Passo 6 — Redigir o capítulo de Resultados

O capítulo de Resultados de um TCC com dados secundários tem uma estrutura específica. Cada resultado deve incluir: a estatística reportada, o nível de significância (se aplicável) e a interpretação descritiva — sem juízo de valor ou discussão (isso fica para o capítulo seguinte).

Estrutura típica do capítulo de Resultados

  1. Caracterização da amostra: descreve as características demográficas do dataset (n, distribuição por sexo, idade, região).
  2. Estatísticas descritivas das variáveis principais: tabela com média, desvio padrão e amplitude para variáveis contínuas; frequências e percentagens para variáveis categóricas.
  3. Resultados por objetivo específico: para cada objectivo, apresenta o teste estatístico correspondente, a estatística obtida e o p-valor.
  4. Figuras e tabelas numeradas: todas as figuras e tabelas devem ser numeradas sequencialmente, com legenda e fonte (ex: “Fonte: IBGE, PNAD Contínua 2024, elaboração própria”).

Exemplo de redação de resultado

“A Tabela 1 apresenta as estatísticas descritivas do rendimento habitacional mensal por região do Brasil. A região Sudeste apresentou a maior média de rendimento (R$ 2.847,32; DP = 1.923,45), enquanto a região Nordeste registou a menor (R$ 1.234,56; DP = 876,23). A ANOVA one-way revelou diferenças estatisticamente significativas entre as cinco regiões [F(4, 89.432) = 1.243,7; p < 0,001; η² = 0,053].”

Para a redação da discussão, onde conectas os resultados com a literatura, consulta o artigo sobre como redigir a discussão da tese com o framework IMRyD. Para os aspectos de formatação ABNT, vê o guia sobre como formatar o TCC nas normas ABNT.

Como discutir as limitações dos dados secundários

Esta é a secção que distingue um TCC de nível de um TCC mediano. As limitações dos dados secundários devem ser discutidas explicitamente — a banca vai perguntar sobre elas.

Limitações típicas a discutir:

  • Variáveis proxy: se a variável que queres medir não está directamente disponível e usas outra como aproximação, justifica a escolha e discute as implicações.
  • Sub-notificação: dados do DataSUS podem sub-representar populações sem acesso ao SUS; dados do INEP podem ter inconsistências de preenchimento entre municípios.
  • Dados desactualizados: se o dataset mais recente é de 2022 ou 2023, discute o que pode ter mudado entretanto.
  • Causalidade vs correlação: dados secundários permitem identificar associações, não causalidade — a menos que uses métodos quase-experimentais (diferenças-em-diferenças, variáveis instrumentais).
  • Erros de medição: respostas auto-reportadas (rendimento, horas de trabalho) têm viés de desejabilidade social.
Tesify para TCC Brasil: O Tesify PT ajuda-te a redigir o capítulo de Metodologia, a secção de “Fonte de Dados” e a discussão das limitações — adaptado às normas ABNT e ao vocabulário académico brasileiro. Experimenta gratuitamente.

Vê também o guia completo sobre como fazer TCC passo a passo com IA e o artigo sobre como evitar plágio na tese ao usar IA.

FAQ — TCC com dados secundários no Brasil

O que são dados secundários no TCC?

Dados secundários são dados coletados por terceiros e reutilizados pelo investigador para responder à sua pergunta de investigação. No Brasil, as principais fontes são o IBGE, o DataSUS, o INEP, a CAPES e o SINASC. São diferentes dos dados primários, que são coletados diretamente pelo investigador.

Dados secundários são aceites pela banca do TCC?

Sim, desde que a escolha seja justificada metodologicamente. Dados secundários de qualidade (IBGE, DataSUS, INEP) são frequentemente mais rigorosos e representativos do que dados primários coletados por um único estudante. A chave é discutir explicitamente as limitações das bases de dados usadas.

Preciso de aprovação do CEP para TCC com dados secundários?

Depende da área e da fonte. Para dados completamente anonimizados de bases governamentais públicas (IBGE, INEP), geralmente não é necessária aprovação do CEP. Para dados do DataSUS com identificação de pacientes ou dados sensíveis de saúde, a aprovação do CEP é obrigatória. Consulta sempre o comité de ética da tua instituição.

Qual a diferença entre usar IBGE, DataSUS e INEP no TCC?

O IBGE cobre demografia, economia e condições de vida. O DataSUS cobre dados de saúde e mortalidade. O INEP cobre educação básica e superior. Escolhe a fonte de acordo com o objeto de estudo do TCC.

O Jamovi é adequado para análise de dados secundários do TCC?

Sim. O Jamovi é gratuito e cobre as análises mais comuns em TCC: estatísticas descritivas, testes t, ANOVA, qui-quadrado, correlação e regressão. Para datasets muito grandes (+100.000 linhas), é preferível usar R ou Python.

Como citar corretamente dados do IBGE no TCC com ABNT?

Formato ABNT: INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Nome da Pesquisa. Ano de referência. Local: IBGE, ano de publicação. Disponível em: URL. Acesso em: data. Exemplo: IBGE. PNAD Contínua 2024. Rio de Janeiro: IBGE, 2025. Disponível em: ibge.gov.br. Acesso em: 10 jan. 2026.