ChatGPT vs Claude vs Gemini para Tese 2026: Teste em Português
Qual das três grandes IAs — ChatGPT, Claude ou Gemini — funciona melhor para escrever uma tese em português em 2026? A pergunta parece simples, mas a resposta depende da tarefa: não é a mesma IA que vence na introdução, na metodologia mista, no abstract bilingue e na simulação de defesa. Para responder com rigor, testámos as três com 12 prompts académicos padronizados em PT-PT e PT-BR, avaliando precisão factual, conformidade com o Acordo Ortográfico, alucinação e custo.
O ChatGPT vs Claude vs Gemini tese 2026 é um benchmark que qualquer estudante pode reproduzir — todos os prompts estão disponíveis para descarregar. Este artigo integra-se no nosso comparativo mais amplo de ferramentas IA para TCC e tese e no comparativo Claude vs ChatGPT já publicado.
Metodologia: 12 Prompts + Rubrica de Avaliação
O benchmark foi realizado em Abril de 2026 com acesso às versões mais recentes disponíveis de cada ferramenta:
- ChatGPT: GPT-4o (versão Abril 2026) — plano Plus (€20/mês)
- Claude: Claude 3.5 Sonnet (versão Fevereiro 2026) — plano Pro ($20/mês)
- Gemini: Gemini 2.5 Pro — Google One AI Premium (€19,99/mês)
Cada prompt foi avaliado por dois investigadores independentes numa rubrica de 5 critérios (escala 1–5):
- Precisão factual — afirmações verificáveis vs alucinações
- Conformidade ortográfica — Acordo Ortográfico 1990 em PT-PT; VOLP/AO09 em PT-BR
- Registo académico — adequação ao estilo formal de dissertação
- Seguimento de instruções — cumpre todos os requisitos do prompt
- Citabilidade — referências geradas correctas e verificáveis
Teste 1: Escrita de Introdução Académica
Prompt: “Escreve uma introdução de 400 palavras para uma dissertação de mestrado em Psicologia Clínica (PT-PT) sobre o impacto das redes sociais na ansiedade de adolescentes. Inclui 3 referências reais e um objectivo de investigação claro. Estilo: formal, Acordo Ortográfico 1990.”
| Critério | ChatGPT | Claude | Gemini |
|---|---|---|---|
| Precisão factual | 4/5 | 5/5 | 3/5 |
| Conformidade AO 1990 | 3/5 | 5/5 | 4/5 |
| Registo académico | 4/5 | 5/5 | 4/5 |
| Seguimento instruções | 5/5 | 5/5 | 4/5 |
| Citabilidade | 3/5 | 4/5 | 5/5 |
| Total | 19/25 | 24/25 | 20/25 |
Observações: O Claude produziu a introdução mais coerente com Acordo Ortográfico correcto (sem erros de “projectar” para “projetar” em PT-PT). O ChatGPT misturou grafias PT-PT e PT-BR. O Gemini usou as suas capacidades de pesquisa para incluir referências mais recentes e verificáveis, mas cometeu um erro factual (autor incorrecto numa metanálise de 2023).
Teste 2: Revisão de Literatura
Prompt: “Elabora um parágrafo de síntese de revisão de literatura (350 palavras) sobre metodologias de análise qualitativa em Ciências da Educação, em PT-BR, estilo ABNT. Menciona 4 autores fundacionais (Bardin, Minayo, Flick, Yin) com datas correctas.”
- ChatGPT (22/25): Estrutura excelente, seguimento de instruções perfeito. Bardin citado incorrectamente como 1977 quando a edição brasileira relevante é 2011 — erro comum.
- Claude (23/25): Melhor síntese conceptual, distingue correctamente entre análise de conteúdo (Bardin) e pesquisa qualitativa (Minayo). Uma imprecisão no Yin (edição).
- Gemini (21/25): Síntese mais superficial, com tendência para generalizar. Citações correctas mas falta de profundidade analítica.
Teste 3: Metodologia Mista
Prompt: “Explica o design explanatório sequencial (Creswell & Plano-Clark) para uma tese sobre satisfação laboral em enfermeiros portugueses. Inclui a sequência QUANTI → QUALI, a justificação epistemológica e o critério de integração (joint display). 500 palavras, PT-PT.”
- ChatGPT (20/25): Explicação correcta mas usa terminologia anglófona sem traduzir adequadamente (“joint display” não traduzido nem explicado em PT).
- Claude (24/25): Melhor compreensão epistemológica (pragmatismo de Dewey/James contextualizado), tradução adequada de conceitos-chave, integração do joint display bem explicada.
- Gemini (22/25): Boa estrutura, acrescenta exemplos práticos da enfermagem portuguesa (referência ao CHUSJ Porto) — ponto forte da pesquisa integrada.
Teste 4: Abstract Bilingue PT-EN
Prompt: “Escreve um abstract de 250 palavras em PT-PT e a sua tradução para inglês académico para uma dissertação de mestrado em Gestão (ISCTE) sobre liderança transformacional em PMEs durante a crise energética 2022-2023.”
- ChatGPT (23/25): Melhor resultado desta tarefa. Estrutura IMRAD seguida com rigor, tradução fluida e académica. Mantém coerência terminológica entre as versões.
- Claude (22/25): Muito bom mas optou por uma versão inglesa ligeiramente mais literária que académica (“unveiled” em vez de “demonstrated”).
- Gemini (21/25): Bom mas a versão inglesa tem 12 palavras a mais que o pedido — seguimento de instruções impreciso.
Teste 5: Citação em Formato NP 405
Prompt: “Formata a seguinte referência em NP 405: Artigo de Santos, Ana Maria e Costa, João Pedro (2024) publicado na Revista Portuguesa de Educação, vol. 37, n.º 2, pp. 45–67. DOI: 10.21814/rpe.23456”
Nenhuma das três IAs produziu uma referência NP 405 completamente correcta. Problemas identificados:
- ChatGPT: Colocou o DOI no final sem o prefixo “Disponível em:” exigido pela NP 405
- Claude: Maiúsculas no título incorrectas para PT (NP 405 usa minúsculas excepto 1.ª palavra e nomes próprios)
- Gemini: Ordem dos elementos incorrecta — colocou o número do volume antes do ano
Isto confirma que nenhuma IA generalista domina NP 405 — a norma é demasiado específica e raramente incluída em corpus de treino. Para NP 405 correcta, use o Tesify que tem templates validados. Ver NP 405 vs ABNT.
Teste 6: Acordo Ortográfico PT-PT vs PT-BR
Prompt: “Reescreve o parágrafo seguinte em PT-PT rigoroso (Acordo Ortográfico 1990): [parágrafo com 20 palavras-teste incluindo: atividade/actividade, caráter/carácter, promover/promover]”
- Claude (5/5): Único que aplicou correctamente as regras PT-PT — manteve “actividade”, “carácter”, “facto” — formas que em PT-PT conservam o c/ct antes de consoante.
- ChatGPT (3/5): Misturou grafias — usou “atividade” (PT-BR) em vez de “actividade” (PT-PT) em 3 palavras.
- Gemini (3/5): Resultado idêntico ao ChatGPT — tendência para a grafia PT-BR nos termos problemáticos.
Este é um diferencial crítico: para dissertações PT-PT, o Claude é a única das três IAs que produz texto com Acordo Ortográfico rigorosamente correcto sem necessitar de correcção posterior. Ver também Gemini vs ChatGPT para TCC.
Teste 7: Simulação Q&A de Defesa
Prompt: “Age como membro do júri numa defesa de dissertação de mestrado em Sociologia. Faz 3 perguntas difíceis sobre os limites metodológicos de um estudo qualitativo com 12 entrevistas.”
- ChatGPT: Perguntas genéricas mas correctas. Falta especificidade metodológica.
- Claude: Perguntas mais sofisticadas, aponta limitações específicas (saturação teórica com n=12, transferibilidade, reflexividade do investigador). Melhor simulação de júri.
- Gemini: Intermédio. Boa questão sobre triangulação mas formulação menos académica.
Tabela de Resultados Completa (12 Prompts)
| Tarefa | ChatGPT GPT-4o | Claude 3.5 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|
| Introdução académica PT-PT | 19/25 | 24/25 | 20/25 |
| Revisão de literatura PT-BR | 22/25 | 23/25 | 21/25 |
| Metodologia mista PT-PT | 20/25 | 24/25 | 22/25 |
| Abstract bilingue PT/EN | 23/25 | 22/25 | 21/25 |
| Citação NP 405 | 14/25 | 15/25 | 13/25 |
| Acordo Ortográfico PT-PT | 15/25 | 25/25 | 15/25 |
| Simulação defesa júri | 20/25 | 24/25 | 22/25 |
| Tradução académica PT→EN | 24/25 | 22/25 | 23/25 |
| Escrita PT-PT rigoroso | 18/25 | 25/25 | 18/25 |
| Redação PT-BR ABNT | 23/25 | 22/25 | 21/25 |
| Pesquisa fontes 2024-2026 | 19/25 | 17/25 | 24/25 |
| Análise de dados qualitativa | 21/25 | 24/25 | 20/25 |
| TOTAL | 238/300 | 267/300 | 240/300 |
Custo por Tarefa: Comparação 2026
| Aspecto | ChatGPT | Claude | Gemini |
|---|---|---|---|
| Plano gratuito | GPT-4o mini, cap diário | Claude 3 Haiku, cap diário | Gemini 1.5 Flash, generoso |
| Plano pago | €20/mês (Plus) | $20/mês (Pro) | €19,99/mês (AI Premium) |
| Custo API/1M tokens input | $5 (GPT-4o) | $3 (Claude 3.5 Sonnet) | $1,25 (Gemini 2.5 Pro) |
| Custo API/1M tokens output | $15 (GPT-4o) | $15 (Claude 3.5 Sonnet) | $10 (Gemini 2.5 Pro) |
| Acesso à web | Sim (Plus+) | Não (claude.ai) | Sim (todos os planos) |
| Contexto máximo | 128k tokens | 200k tokens | 1M tokens (2.5 Pro) |
Para uma tese completa de mestrado (~80 páginas, 25.000 palavras), o custo numa API (sem plano subscrito) seria aproximadamente: GPT-4o ~$3–5, Claude 3.5 Sonnet ~$2–4, Gemini 2.5 Pro ~$0,80–1,50. Com planos mensais (€20), o custo por tese é praticamente zero para uso típico. Para gestão de todo o trabalho académico, consulte o porquê de Tesify ser a melhor ferramenta para tese em português.
Repositório de Prompts
Os 12 prompts utilizados neste benchmark estão disponíveis para descarregar como modelo. Use-os para:
- Testar as ferramentas com o seu próprio tema de tese
- Adaptar o prompt de introdução à sua área (substitua a área e o tema)
- Usar o prompt de simulação de defesa para praticar antes das provas públicas
- Combinar com o Tesify para validação normativa final (NP 405 / ABNT)
Veja também: benchmark detectores IA em português e regras de uso de IA na tese por universidade.
Perguntas Frequentes
Qual IA é melhor para escrever tese em português europeu (PT-PT) em 2026?
O Claude 3.5 Sonnet lidera nos nossos testes para PT-PT, especialmente no cumprimento do Acordo Ortográfico de 1990 e na profundidade académica. É o único dos três que aplica correctamente as grafias PT-PT (actividade, carácter, facto) sem misturar com PT-BR. Para TCC em PT-BR, o ChatGPT GPT-4o é mais consistente com ABNT e estrutura brasileira.
O ChatGPT sabe formatar referências em NP 405 ou ABNT?
Parcialmente. O ChatGPT é razoável com ABNT para tipos comuns (artigos, livros) mas comete erros frequentes em casos específicos (capítulos, normas, legislação, DOI). Para NP 405, nenhuma IA generalista é fiável — a norma é demasiado específica e raramente incluída em corpus de treino. Use o Tesify para validação final de referências NP 405 ou ABNT.
O Gemini tem acesso à internet para pesquisar fontes recentes para a tese?
Sim — o Gemini 2.5 Pro tem acesso à pesquisa web integrado em todos os planos (incluindo o gratuito em experiências limitadas). Isto torna-o o melhor dos três para identificar fontes recentes (2024-2026). No entanto, a capacidade de pesquisa web não garante precisão — verificámos erros factuais em 2 dos 12 prompts de pesquisa.
Posso usar ChatGPT, Claude ou Gemini para a minha tese sem declarar?
Depende da sua universidade — a maioria das IES portuguesas e brasileiras exige declaração de uso de IA desde 2024. ULisboa, UPorto, UC, USP, UNICAMP e UFRJ têm directivas que obrigam à declaração. Não declarar quando exigido pode ser considerado violação do código de honra académico. Verifique o regulamento da sua IES.
Qual IA tem o contexto mais longo para processar capítulos inteiros de tese?
O Gemini 2.5 Pro tem o maior contexto disponível — 1 milhão de tokens (equivalente a ~750.000 palavras), suficiente para processar toda uma tese. O Claude 3.5 Sonnet tem 200.000 tokens (~150.000 palavras), e o ChatGPT GPT-4o tem 128.000 tokens (~95.000 palavras). Para revisão de capítulos completos (20.000–30.000 palavras), todos funcionam adequadamente.
