Gestão de Dados de Investigação 2026: Princípios FAIR, DMP e Repositórios de Dados Abertos
Depositar ficheiros numa pasta partilhada e apagar dados após a defesa já não é aceitável em 2026. A FCT e o Horizon Europe exigem que os projetos financiados publicamente adotem práticas formais de gestão de dados de investigação — incluindo a elaboração de um Plano de Gestão de Dados (DMP), a aplicação dos princípios FAIR e o depósito em repositórios certificados. Se está a iniciar uma tese de mestrado ou doutoramento, ou a submeter uma proposta de financiamento, este guia descreve o que tem de saber e fazer, passo a passo.
Os princípios FAIR e os DMPs deixaram de ser exclusividade dos grandes laboratórios. Mestrandos, doutorandos e equipas de investigação de qualquer área são cada vez mais obrigados — ou fortemente incentivados — a planear, documentar e partilhar os seus dados desde o primeiro dia do projeto. Ignorar estes requisitos pode comprometer a aprovação de financiamento ou a aceitação de artigos em revistas de acesso aberto de referência.
O que é a gestão de dados de investigação
A gestão de dados de investigação (GDI) abrange o conjunto de práticas, políticas e ferramentas que permitem organizar, documentar, armazenar, partilhar e preservar os dados produzidos ao longo de um projeto científico. Inclui tudo, desde os ficheiros de dados brutos e os scripts de análise até os metadados que descrevem como os dados foram recolhidos e processados.
O ciclo de vida dos dados de investigação tem, tipicamente, seis fases: planeamento, recolha, processamento, análise, preservação e partilha. A GDI aplica-se a todas elas — e não apenas à fase final de publicação ou arquivo. Uma boa metodologia de investigação começa sempre com decisões conscientes sobre que dados serão produzidos, como serão organizados e quem poderá aceder-lhes.
O interesse crescente nesta área não é acidental. A reprodutibilidade científica tornou-se uma prioridade institucional: quando os dados estão bem documentados e acessíveis, outros investigadores podem verificar os resultados, reutilizar os conjuntos de dados e construir sobre o trabalho já feito — reduzindo o desperdício de recursos e acelerando a ciência.
Os quatro princípios FAIR em detalhe
Publicados em 2016 na revista Scientific Data por Wilkinson et al., os princípios FAIR são hoje o standard de referência para a gestão de dados científicos. O acrónimo descreve quatro propriedades que os dados e os seus metadados devem ter:
F — Findable (Encontrável)
Os dados e os metadados devem ser fáceis de localizar tanto por humanos como por máquinas. Isto implica atribuir um identificador persistente e globalmente único a cada conjunto de dados — habitualmente um DOI (Digital Object Identifier) — e garantir que os metadados são indexados em recursos pesquisáveis. Um DOI funciona como o ISBN de um livro: mesmo que o ficheiro mude de servidor, o identificador permanece válido.
A — Accessible (Acessível)
Uma vez localizados, os dados devem poder ser acedidos por um protocolo aberto, livre e universalmente implementável — tipicamente HTTPS. Isto não significa que todos os dados tenham de ser públicos: dados sensíveis ou sujeitos a questões de privacidade podem ficar em acesso restrito, desde que os metadados estejam sempre acessíveis. A distinção é importante: o princípio A aplica-se aos metadados mesmo quando os dados em si são confidenciais.
I — Interoperable (Interoperável)
Os dados devem utilizar formatos e vocabulários que permitam a sua integração com outros conjuntos de dados. Isto inclui usar formatos abertos e não proprietários (CSV em vez de XLSX proprietário, por exemplo), vocabulários controlados como o MeSH para ciências da saúde ou o Getty AAT para humanidades, e ontologias padronizadas que permitam que sistemas distintos “entendam” os dados sem intervenção humana.
R — Reusable (Reutilizável)
Os dados devem ser suficientemente bem descritos para poderem ser reutilizados por outros investigadores, em contextos diferentes do original. Isto exige metadados ricos e precisos, a indicação clara das condições de uso (licença — tipicamente Creative Commons), e informação sobre a proveniência dos dados: como foram produzidos, por quem, quando e com que instrumentos.
O que é um DMP e o que deve incluir
Um Plano de Gestão de Dados (do inglês Data Management Plan, DMP) é um documento formal — habitualmente entre 3 e 10 páginas — que descreve como os dados produzidos num projeto de investigação serão geridos durante e após o projeto. Não se trata de um relatório final: é um documento vivo, redigido no início do projeto e atualizado à medida que este avança.
Secções obrigatórias de um DMP
| Secção | O que deve responder |
|---|---|
| Descrição dos dados | Que tipo de dados serão produzidos? Qual o volume estimado? Em que formatos? |
| Metadados e documentação | Que padrões de metadados serão utilizados? Como será documentado o processo de recolha? |
| Partilha e acesso | Onde serão depositados os dados? Em que condições e com que licença poderão ser acedidos? |
| Ética e privacidade | Os dados contêm informação pessoal? Como será garantida a conformidade com o RGPD? |
| Armazenamento e segurança | Onde serão guardados os dados durante o projeto? Existe política de cópias de segurança? |
| Preservação a longo prazo | Os dados serão preservados após o fim do projeto? Por quanto tempo e por quem? |
A ferramenta mais utilizada para redigir DMPs em Portugal e no contexto europeu é o DMPonline, desenvolvido pelo Digital Curation Centre (DCC) e disponível gratuitamente em dmponline.dcc.ac.uk. Inclui templates específicos para a FCT e para o Horizon Europe, o que simplifica consideravelmente o processo. Para um roteiro detalhado de cada secção, consulte o nosso guia sobre como fazer o Plano de Gestão de Dados (DMP) da tese.
Obrigações da FCT e do Horizon Europe em 2026
A FCT — Fundação para a Ciência e a Tecnologia publicou a sua política de acesso aberto a publicações científicas e dados de investigação no quadro do Plano Nacional de Ciência Aberta. Os projetos financiados pela FCT estão obrigados a:
- Elaborar um DMP no início do projeto (habitualmente nos primeiros seis meses);
- Depositar os dados em repositório de acesso aberto certificado, o mais tardar no momento da publicação dos resultados ou no fim do projeto;
- Garantir que os dados respeitam os princípios FAIR, com especial atenção à atribuição de identificadores persistentes e ao uso de licenças abertas.
O Horizon Europe — o principal programa de financiamento de investigação da União Europeia (2021–2027) — vai mais longe: o DMP é obrigatório para todos os projetos financiados, e os dados devem ficar acessíveis “tão abertos quanto possível, tão fechados quanto necessário” (as open as possible, as closed as necessary). O Horizon Europe exige que o DMP seja entregue nos primeiros seis meses após o início do projeto e que seja atualizado sempre que ocorram mudanças significativas.
Para os investigadores portugueses que escrevem a primeira tese de mestrado e ainda não estão familiarizados com estes requisitos, vale a pena contactar a biblioteca da universidade ou o gabinete de apoio à investigação: muitas instituições portuguesas (Universidade do Porto, Universidade de Lisboa, Universidade do Minho) têm já serviços dedicados de apoio à GDI.
Repositórios certificados: Zenodo, RCAAP e Dendro
Selecionar o repositório certo é uma decisão com impacto a longo prazo. Os repositórios certificados garantem preservação, atribuição de DOI e conformidade com os standards internacionais. As principais opções para investigadores lusófonos em 2026 estão reunidas no nosso guia de repositórios de dados de investigação lusófonos; em resumo:
Zenodo
Zenodo (zenodo.org) é o repositório multidisciplinar de acesso aberto desenvolvido no CERN no âmbito da infraestrutura OpenAIRE. Aceita qualquer tipo de ficheiro de investigação (dados, software, pré-impressões, apresentações) até 50 GB por depósito, atribui DOI automaticamente e é reconhecido pela FCT e pelo Horizon Europe. É a opção mais simples para investigadores que não têm repositório institucional dedicado à sua área ou que trabalham em projetos interdisciplinares. O Zenodo foi também integrado com o GitHub, permitindo arquivar versões de software diretamente a partir de um repositório de código.
RCAAP e o Repositório de Dados Científicos
O RCAAP (Repositórios Científicos de Acesso Aberto de Portugal) agrega a produção científica de dezenas de instituições portuguesas. Para dados de investigação especificamente, o RCAAP disponibiliza o Repositório de Dados Científicos (dados.rcaap.pt), um repositório piloto para dados produzidos por instituições portuguesas. É especialmente indicado para projetos nacionais financiados pela FCT, uma vez que está alinhado com as políticas de ciência aberta da agência. Importa sublinhar que o RCAAP agrega também os repositórios institucionais das universidades — ao depositar no repositório da sua universidade, o registo fica automaticamente acessível via RCAAP.
Dendro
Dendro é uma plataforma de descrição e depósito de dados desenvolvida na Universidade do Porto, especialmente concebida para ligar a descrição multidisciplinar de dados às infraestruturas europeias de dados (EUDAT). Permite descrever os dados com vocabulários específicos de cada área científica e está integrada com o repositório institucional da U.Porto. É a opção preferível para investigadores desta universidade ou para projetos que exijam descrição disciplinar detalhada.
Como aplicar a GDI na sua tese de mestrado ou doutoramento
Mesmo que a sua tese não seja financiada por qualquer agência, adotar boas práticas de GDI tem benefícios diretos: facilita a escrita da metodologia, reduz o risco de perda de dados, e torna o trabalho mais fácil de reutilizar em futuras publicações. Eis um roteiro prático para a tese:
- Antes da recolha de dados: Defina que dados vai produzir, em que formatos e onde os vai guardar. Se recolher dados pessoais, confirme os procedimentos RGPD com a comissão de ética da sua instituição. Documente tudo no caderno de laboratório (físico ou digital).
- Durante a recolha: Use formatos abertos sempre que possível (CSV, JSON, TIFF, ODF). Nomeie os ficheiros de forma consistente e inclua sempre um ficheiro README que explique a estrutura das pastas e o significado de cada variável.
- Após a análise: Arquive os dados brutos separadamente dos dados processados. Documente os scripts de análise (R, Python, SPSS) com comentários suficientes para que outra pessoa possa reproduzir os resultados. Uma ferramenta como o R Markdown ou o Jupyter Notebook permite combinar código e narrativa num único documento reprodutível.
- Aquando da entrega da tese: Deposite os dados num repositório (Zenodo é a opção mais simples), obtenha o DOI e inclua-o nas referências da tese ou numa nota de rodapé. A maioria das universidades portuguesas aceita — e algumas já exigem — a indicação de onde os dados estão disponíveis.
A gestão de dados está intimamente ligada à questão da integridade académica: quando os dados e os processos de análise estão bem documentados e acessíveis, é muito mais fácil verificar que o trabalho é original e que os resultados são reproducíveis. Veja como reforçar essa integridade no guia sobre como verificar plágio e autoplágio antes de entregar a tese.
Para aprofundar a relação entre GDI e rigor metodológico, a Biblioteca da ECA-USP publicou recursos úteis sobre fontes e repositórios académicos abertos — incluindo um guia sobre acesso gratuito a livros e recursos académicos digitais que complementa os repositórios de dados.
Erros frequentes a evitar
- Confundir “aberto” com “sem restrições”: Dados com informação pessoal devem ter acesso restrito. Ser FAIR não obriga a publicar tudo publicamente.
- Deixar o DMP para o fim: O DMP é um documento de planeamento. Redigido à última hora, perde a sua utilidade e frequentemente não cumpre os requisitos do financiador.
- Usar formatos proprietários: Guardar dados apenas em formatos como .docx, .xlsx ou .sav (SPSS) dificulta a interoperabilidade e pode tornar os dados inacessíveis se o software deixar de existir.
- Não atribuir identificadores persistentes: Partilhar dados através de links para pastas partilhadas (Dropbox, Google Drive) não é adequado: estes links caducam. Um DOI num repositório certificado é permanente.
- Esquecer a documentação: Dados sem README, sem dicionário de variáveis e sem informação sobre a metodologia de recolha são, na prática, inutilizáveis por outros investigadores.
- Ignorar as diferenças entre tipos de dados: Dados de inquérito, dados de entrevista, dados laboratoriais, imagens e código de software têm requisitos diferentes de formato, metadados e licenciamento.
A Biblioteca da Unesp em São João da Boa Vista disponibiliza regularmente formação sobre comunicação científica e publicação aberta — incluindo uma série de webinars Springer sobre publicação e comunicação científica para 2026, que incluem temas como gestão de dados e acesso aberto.
FAQ: Perguntas frequentes sobre gestão de dados de investigação
A gestão de dados de investigação é obrigatória para teses de mestrado em Portugal?
Formalmente, a obrigatoriedade aplica-se sobretudo a projetos financiados pela FCT ou pelo Horizon Europe. No entanto, um número crescente de universidades portuguesas está a introduzir, nos seus regulamentos de ciclo de doutoramento e mestrado, requisitos de depósito de dados e de declaração de disponibilidade. Mesmo que a sua instituição não exija formalmente um DMP para a tese, adotar boas práticas de GDI é recomendado e melhora a qualidade do trabalho.
Posso usar o Zenodo para depositar dados de uma tese de mestrado?
Sim. O Zenodo aceita depósitos de qualquer investigador, independentemente de afiliação institucional ou de o projeto ter financiamento externo. O registo é gratuito, o DOI é atribuído automaticamente e o acesso pode ser definido como aberto, embargado ou restrito. É a opção mais acessível e internacionalmente reconhecida para estudantes de mestrado e doutoramento.
O que acontece se os meus dados contiverem informação pessoal dos participantes?
Dados com informação pessoal identificável devem ser anonimizados antes do depósito ou ficar em acesso restrito. Em qualquer caso, os metadados — que descrevem o conjunto de dados sem revelar os dados em si — devem ser públicos (princípio A do FAIR). A conformidade com o RGPD é prioritária: em caso de dúvida, consulte a comissão de proteção de dados da sua instituição antes de proceder ao depósito.
Que licença devo usar ao depositar dados de investigação?
Para dados de investigação, a licença mais comum e recomendada é a CC BY 4.0 (Creative Commons Atribuição), que permite uso, redistribuição e adaptação livre, desde que o autor original seja citado. Para dados que não devem ser reutilizados comercialmente, a CC BY-NC 4.0 é uma alternativa. Para software ou scripts de análise, a licença MIT ou Apache 2.0 são as mais utilizadas. Evite depositar dados sem licença explícita: sem licença, outros investigadores não sabem legalmente se podem reutilizá-los.
Qual a diferença entre um repositório de dados e um repositório institucional?
Um repositório institucional (como o RepositóriUM da Universidade do Minho ou o Repositório da Universidade de Lisboa) aloja primariamente teses, artigos e relatórios produzidos pelos membros da instituição. Um repositório de dados é especializado no arquivo de conjuntos de dados brutos ou processados, com metadados estruturados e identificadores persistentes. Alguns repositórios institucionais têm módulos para dados; outros encaminham os investigadores para o Zenodo ou o Repositório de Dados Científicos do RCAAP.
Como citar um conjunto de dados na minha tese?
Cite os dados como citaria qualquer outra fonte, incluindo: autor(es), ano, título do conjunto de dados, versão (se aplicável), nome do repositório e DOI. Exemplo em APA 7.ª edição: Silva, A. R. (2025). Dados de inquérito sobre literacia digital universitária [Conjunto de dados]. Zenodo. https://doi.org/10.xxxxx/zenodo.xxxxxx. O DOI garante que a citação permanece válida mesmo que o URL mude.
Escreva a sua tese com rigor metodológico
A gestão de dados de investigação faz parte de uma tese de qualidade — tal como a estrutura do capítulo de metodologia, a revisão de literatura e a discussão dos resultados. O Tesify ajuda-o a organizar e a redigir cada secção da tese com rigor académico, incluindo a descrição das fontes de dados e dos procedimentos de recolha.
