Analisando respostas abertas com IA: mineração de texto vs. codificação por LLM

Se você já aplicou uma pesquisa com clientes, conhece bem a sensação. O painel com as respostas de múltipla escolha fica limpo e pronto para compartilhar. Enquanto isso, a coluna de texto livre segue ali — com centenas ou milhares de respostas, completamente por ler. "Precisamos fazer algo com as respostas abertas" virou um item permanente da pauta. Três semanas depois, você está passando o olho nelas tomando café, esperando que algum padrão salte. Geralmente não salta.

A IA generativa é a primeira tentativa crível de finalmente quebrar esse gargalo. Mas — e essa é a parte honesta — ela não é a bala de prata que o marketing sugere. Um artigo revisado por pares de 2024 aponta o Claude atingindo 93,9% de acurácia, quase empatando com codificadores humanos. Outro artigo de 2024 conclui que LLMs de propósito geral são inadequados sem fine-tuning. Ambos estão corretos; testaram coisas diferentes. Este texto percorre o que mineração de texto e codificação por LLM realmente entregam, onde cada uma tropeça e como escolher a combinação que cabe no que você quer fazer.

1. Duas abordagens para análise de respostas abertas

A análise de respostas abertas se divide em duas tradições.

Abordagem 1: mineração de texto (baseada em palavras e coocorrências)

A abordagem clássica: análise morfológica / tokenização → frequência de palavras → rede de coocorrências → sentimento. Forte em análise quantitativa de tendências em nível de palavra ("quais termos aparecem mais?"), fraca em compreensão contextual.

Abordagem 2: codificação por LLM (baseada em contexto e significado)

Alimenta-se cada resposta aberta a um modelo da classe GPT / Claude / Gemini e pede-se que ele classifique conforme um codebook predefinido. Desde 2023, pesquisas acadêmicas e do setor têm começado a caracterizar o quão bem isso de fato funciona.

2. O que a pesquisa de 2024 diz sobre codificação por LLM — acurácia e limites

Um conjunto de pesquisas revisadas por pares em 2024 avaliou o desempenho da codificação por LLM com resultados concretos e mensuráveis.

LLMs podem se aproximar da acurácia humana em condições certas

Mellon et al. (2024), Research & Politics avaliaram a codificação por LLM de uma pergunta aberta sobre "a questão mais importante" em uma pesquisa social no Reino Unido. O Claude-1.3 alcançou 93,9% de acurácia, quase empatando com os 94,7% dos codificadores humanos. Com amostra suficiente e um esquema de codificação claro, LLMs podem, de forma plausível, atingir desempenho comparável ao humano.

Mas os resultados variam bastante caso a caso

Em contrapartida, um estudo do arXiv em 2024 analisando respostas abertas em alemão sobre motivação para responder pesquisas concluiu que LLMs de propósito geral produziram acurácia insuficiente e apenas um modelo com fine-tuning alcançou níveis satisfatórios. Idioma, complexidade do tema e nível de abstração das categorias deslocam significativamente a acurácia possível.

LLMs têm fraquezas estruturais

Um artigo do PMC de 2024 mapeia as limitações estruturais da análise de respostas abertas baseada em LLM:

LLMs processam cada resposta de forma isolada — não têm acesso às outras respostas do mesmo respondente, à consistência entre perguntas, à leitura de tom ou ironia, nem ao contexto de perguntas de follow-up que codificadores humanos utilizam
Tratam mal respostas ambíguas — respostas que codificadores humanos resolveriam pelo contexto acabam classificadas de forma quase aleatória pelos LLMs
Alta sensibilidade ao prompt — os mesmos dados e o mesmo modelo podem produzir resultados materialmente diferentes sob prompts distintos

Esses são limites estruturais da codificação por LLM demonstrados repetidamente.

Um caso de falha no mundo real

Um white paper da Langer Research relata que um piloto usando uma ferramenta de IA de destaque sobre dados de texto livre da Texas Education Poll de 2024 produziu desalinhamento significativo com os codificadores humanos, ampla classificação incorreta e falha em capturar tom e direção. Um caso amplamente citado mostrando que nem todas as ferramentas comerciais de IA entregam no nível sugerido pelo marketing.

3. Dois arquétipos de ferramentas — mineração de texto vs. QDA integrada com LLM

As escolhas de ferramentas se agrupam em dois arquétipos. Vale lembrar que os materiais dos fornecedores descrevem posicionamento e recursos, não benchmarks validados de forma independente — são úteis para orientação de mercado, não como garantias de desempenho.

Arquétipo 1: ferramentas dedicadas de mineração de texto

Focadas em tokenização + coocorrência + frequência. Populares em partes do setor de pesquisa para panoramas rápidos. Sites de comparação como o Thematic descrevem um universo amplo de ferramentas nessa área, embora a maior parte da cobertura aponte sua fraqueza em conteúdos longos e interpretação dependente de contexto.

Arquétipo 2: ferramentas tradicionais de QDA integrando IA generativa

Plataformas consolidadas de QDA estão adicionando recursos de IA:

NVivo (Lumivero) divulga seu Assistente de IA com resumo de texto, sugestões de codificação e análise de sentimento (segundo materiais do próprio produto)
MAXQDA descreve, de forma parecida, expansão do suporte com IA, conforme análises comparativas
Delve e novos entrantes semelhantes apostam mais fortemente em fluxos centrados em IA

Essas descrições vêm de fornecedores e sites de comparação, não de benchmarks independentes, mas a direção — combinar mineração clássica de texto com recursos baseados em LLM — é uma trajetória amplamente compartilhada no setor para 2025.

4. Escolhendo uma abordagem na prática

Juntando as evidências acadêmicas e o posicionamento do setor, três eixos tendem a guiar a escolha de abordagem no mundo real.

Eixo 1: volume de dados

Até 500 respostas: codificação por LLM uma a uma é economicamente razoável; aproveite a compreensão contextual
De 500 a alguns milhares: híbrido — mineração de texto para o formato geral, codificação por LLM para mergulhos específicos nos clusters mais interessantes
Dezenas de milhares ou mais: mineração de texto para redução dimensional, codificação por LLM em um subconjunto amostrado

Eixo 2: propósito

Monitoramento de tendências de mercado: mineração de texto costuma bastar
Identificação de questões por segmento (CX): a força contextual da codificação por LLM importa
Quantificar e acompanhar ao longo do tempo: defina categorias e codifique (LLM + humano) de forma consistente entre ondas
Encontrar um número pequeno de sinais importantes: revisão humana apoiada por LLM

Eixo 3: requisitos de acurácia

Decisões de alto impacto (reporte executivo, decisões de produto): revisão em dois estágios com LLM + humanos
Uma leitura direcional basta: mineração de texto sozinha pode funcionar

A visão da redação — o que, de fato, colocaríamos em produção

Depois de dois anos acompanhando esse espaço via casos públicos e comentários do setor, alguns padrões começaram a parecer os defaults "obviamente corretos". Os times que se queimam com análise de texto livre assistida por IA quase sempre cometem o mesmo erro: tentaram automatizar tudo e só descobriram os limites da abordagem quando a conta chegou. O abismo entre o discurso dos fornecedores e a realidade de campo ainda é real em 2026, então seremos diretos aqui.

1. Não pule a abordagem em dois estágios em conjuntos de dados grandes. Mineração de texto primeiro para ver o formato, depois LLM nos clusters que realmente importam. Ir direto para codificação 100% com LLM em dezenas de milhares de respostas é a forma mais comum de um time descobrir, três meses depois, que gastou uma pequena fortuna por um resultado medíocre, pouco diferente do que a abordagem em dois estágios teria entregado.

2. Não jogue um codebook feito "no olho". "A LLM vai resolver" é o caminho mais rápido para destruir a acurácia. Escreva suas categorias, definições, exemplos e casos de borda em prosa, antes de rodar qualquer coisa. Se isso parece muito trabalho no começo — ótimo. É o trabalho que ia acontecer de qualquer forma; agora você o faz uma vez, direito, em vez de sete vezes em retrabalho.

3. Não pule a revisão por amostra. Recodifique 5 a 10% manualmente e meça, de fato, a concordância. "Pareceu razoável quando eu passei o olho" não é uma métrica. Esse é o passo que os times cortam porque "a IA fez, então deve estar bom" — e é o passo que define se você consegue defender os resultados numa reunião com stakeholders.

4. Deixe respostas ambíguas viverem num balde "Outros / Incerto". Forçar uma resposta ruidosa em uma categoria limpa só lava o ruído para dentro dos seus gráficos. "100% codificado" soa impressionante até você perceber que 20% disso está errado. Preferimos ver "80% automatizado, 20% codificado à mão" — esse é o formato de um resultado em que dá para confiar.

5. Como a ferramenta de pesquisa Kicue apoia a análise de respostas abertas

O Kicue já vem com tipos de perguntas abertas (OA / FA) e um fluxo de autoria pensado para operações de campo confiáveis:

Tipos de pergunta OA / FA — suportam campos de texto curto e longo (referência de tipos de pergunta)
Exportação em CSV / Excel — exporte em formatos prontos para ferramentas externas (NVivo / MAXQDA / plataformas dedicadas de mineração de texto)
Autoria que reduz vieses — dicas de contagem de caracteres, rotulagem clara de obrigatório/opcional, UI ajustada para maiores taxas de conclusão
Detecção de fraude em texto livre — identifica respostas geradas por IA coladas em campos abertos (visão geral da detecção de fraude)

Envie o arquivo do questionário e a plataforma cuida do design, da coleta e da exportação dos campos abertos de ponta a ponta.

Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.

Recapitulando

Decisões-chave ao analisar respostas abertas com IA:

Duas abordagens — mineração de texto (palavra/coocorrência) e codificação por LLM (contexto/significado) — com pontos fortes distintos
LLMs podem chegar perto da acurácia humana, mas só sob certas condições — amostras adequadas, codebook claro, prompts bem projetados
Conheça os limites estruturais — isolamento, ambiguidade, sensibilidade ao prompt
Ferramentas comerciais de IA precisam ser validadas no seu contexto — casos públicos de falha são reais; meça antes de entrar em produção
Análise em dois estágios + revisão por amostra está virando prática padrão

Dados abertos historicamente foram subanalisados pela escala. Com a IA no kit, isso está mudando — mas o padrão vencedor é conhecer os limites de cada abordagem e manter uma checagem humana no loop, não automação cega.

Referências

Pesquisas acadêmicas e revisadas por pares

Relatórios do setor e comentários de fornecedores

Conheça Kicue — uma ferramenta de pesquisa online gratuita pensada para fluxos modernos de respostas abertas.