Analyser les réponses ouvertes avec l'AI : text mining contre codage par LLM

Si vous avez déjà piloté une enquête client, la scène vous est familière. Le tableau de bord des questions fermées est propre, prêt à être partagé. La colonne de texte libre, elle, reste là, des centaines voire des milliers de réponses de long, complètement non lues. « Il faudrait vraiment faire quelque chose avec les réponses ouvertes » est un point à l'ordre du jour permanent depuis l'invention des enquêtes. Et trois semaines plus tard, vous les lisez en diagonale devant un café, en espérant qu'un motif saute aux yeux. En général, il ne saute pas.

L'AI générative est la première piste crédible pour enfin lever ce goulot d'étranglement. Mais — et c'est la partie honnête — ce n'est pas la solution miracle que le marketing laisse entendre. Un article de 2024 avec comité de lecture rapporte que Claude atteint 93,9 % de justesse, presque au niveau des codeurs humains. Un autre article de 2024 conclut que les LLM généralistes restent insuffisants sans fine-tuning. Les deux sont corrects : ils n'ont simplement pas testé la même chose. Cet article explique ce que le text mining et le codage par LLM apportent réellement chacun, où chaque approche s'effondre, et comment choisir la combinaison qui correspond à ce que vous cherchez à faire.

1. Deux approches de l'analyse des réponses ouvertes

L'analyse des réponses ouvertes se divise en deux grandes traditions.

Approche 1 : text mining (basé sur les mots et les cooccurrences)

L'approche classique : analyse morphologique/tokenisation → fréquence des mots → réseau de cooccurrences → sentiment. Solide pour l'analyse quantitative au niveau du mot (« quels termes reviennent le plus ? »), plus faible pour la compréhension contextuelle.

Approche 2 : codage par LLM (basé sur le contexte et le sens)

On soumet chaque réponse ouverte à un modèle de classe GPT / Claude / Gemini et on lui fait classer la réponse selon un codebook prédéfini. Depuis 2023, la recherche académique et industrielle a commencé à caractériser concrètement l'efficacité réelle de cette approche.

2. Ce que disent les recherches de 2024 sur le codage par LLM : justesse et limites

Un ensemble de recherches évaluées par des pairs publiées en 2024 a mesuré la performance du codage par LLM avec des résultats concrets et quantifiés.

Les LLM peuvent approcher la justesse humaine dans de bonnes conditions

Mellon et al. (2024), Research & Politics ont évalué le codage par LLM d'une question ouverte « l'enjeu le plus important » dans une enquête sociale britannique. Claude-1.3 a atteint 93,9 % de justesse, presque au niveau des 94,7 % obtenus par les codeurs humains. Avec un échantillon suffisant et un schéma de codage clair, les LLM peuvent vraisemblablement atteindre une performance comparable à celle des humains.

Mais les résultats varient fortement selon les cas

À l'inverse, une étude arXiv de 2024 analysant des réponses ouvertes en allemand sur la motivation à répondre à une enquête a conclu que les LLM généralistes produisaient une justesse insuffisante, et que seul un modèle fine-tuné atteignait un niveau satisfaisant. La langue, la complexité du sujet et le niveau d'abstraction des catégories déplacent sensiblement la justesse atteignable.

Les LLM ont des faiblesses structurelles

Un article PMC de 2024 cartographie les limites structurelles de l'analyse des réponses ouvertes par LLM :

Les LLM traitent chaque réponse de façon isolée — ils n'ont pas accès aux autres réponses du même répondant, au ton, à l'ironie ou au contexte des questions de suivi sur lesquels s'appuient les codeurs humains
Mauvais traitement des réponses ambiguës — les réponses qu'un codeur humain résoudrait par le contexte sont classées de façon quasi aléatoire par les LLM
Forte sensibilité aux prompts — les mêmes données et le même modèle peuvent produire des résultats sensiblement différents selon la formulation du prompt

Ce sont des limites structurelles du codage par LLM, démontrées de façon répétée.

Un cas d'échec réel

Un livre blanc de Langer Research rapporte qu'un pilote utilisant un outil AI de premier plan sur les données en texte libre du Texas Education Poll 2024 a produit un désalignement significatif avec les codeurs humains, une mauvaise classification généralisée et une incapacité à saisir le ton ou la direction des propos. C'est un cas d'avertissement largement cité qui montre que tous les outils AI commerciaux ne tiennent pas le niveau annoncé par le marketing.

3. Deux archétypes d'outils : text mining contre QDA intégrant un LLM

Le choix d'outils se divise en deux archétypes. Les supports des éditeurs décrivent un positionnement et des capacités, pas des benchmarks validés de façon indépendante : ils sont utiles pour se repérer dans le marché, pas comme garantie de performance.

Archétype 1 : outils de text mining dédiés

Centrés sur tokenisation + cooccurrences + fréquence. Populaires dans certaines parties du secteur de la recherche par enquête pour obtenir rapidement un instantané des tendances. Des sites comparatifs comme Thematic décrivent un vaste ensemble d'outils dans cet espace, mais la plupart des retours notent leur faiblesse sur les textes longs et l'interprétation dépendante du contexte.

Archétype 2 : outils QDA traditionnels intégrant de l'AI générative

Les plateformes QDA établies ajoutent des fonctionnalités AI :

NVivo (Lumivero) met en avant un AI Assistant proposant résumé de texte, suggestions de codage et analyse de sentiment (d'après leurs propres supports produit)
MAXQDA décrit de la même façon une extension de son support AI selon les articles comparatifs
Delve et d'autres entrants plus récents s'appuient davantage sur des flux de travail « AI-first »

Ces descriptions proviennent de sites d'éditeurs et de comparatifs plutôt que de benchmarks indépendants, mais la tendance — combiner le text mining classique à des capacités fondées sur les LLM — est une trajectoire largement partagée par le secteur pour 2025.

4. Choisir une approche en pratique

En croisant les preuves académiques et le positionnement des éditeurs, trois axes structurent généralement le choix d'approche sur le terrain.

Axe 1 : volume de données

Moins de 500 réponses : le codage par LLM, une par une, reste économiquement raisonnable ; on profite de la compréhension contextuelle
500 à quelques milliers : hybride — text mining pour la vue d'ensemble, codage par LLM pour des plongées ciblées sur les clusters intéressants
Dizaines de milliers et plus : text mining pour réduire la dimensionnalité, codage par LLM sur un sous-ensemble échantillonné

Axe 2 : finalité

Suivi des tendances du marché : le text mining suffit souvent
Identification des enjeux par segment (usage CX) : la force contextuelle du codage par LLM compte
Quantifier et suivre dans le temps : définir des catégories, puis coder (LLM + humain) de façon cohérente entre les vagues
Trouver un petit nombre de signaux importants : revue humaine assistée par LLM

Axe 3 : exigences de justesse

Alimente directement des décisions majeures (reporting dirigeant, décisions produit) : revue en deux temps LLM + humain
Une lecture directionnelle suffit : le text mining seul peut convenir

Point de vue éditorial — ce que nous livrerions vraiment

Après deux ans passés à suivre ce sujet à travers les cas publics et les commentaires du secteur, quelques motifs commencent à ressembler à des choix par défaut « évidemment corrects ». Les équipes qui se brûlent sur l'analyse AI des textes libres partagent presque toujours une même erreur : elles ont voulu tout automatiser, et n'ont découvert les limites de l'approche qu'à la réception de la facture. L'écart entre le discours éditeur et la réalité de terrain est encore bien réel en 2026, alors soyons clairs.

1. Ne sautez pas l'approche en deux temps sur les gros jeux de données. Text mining d'abord pour la forme, puis LLM pour les clusters qui comptent vraiment. Passer directement au codage 100 % LLM sur des dizaines de milliers de réponses, c'est la voie royale pour découvrir, trois mois plus tard, que vous avez dépensé une petite fortune pour un résultat médiocre qui n'apporte presque rien de plus que l'approche en deux temps.

2. Ne nourrissez pas un codebook « au feeling ». « Le LLM va s'en sortir » est le moyen le plus rapide de détruire la justesse. Rédigez vos catégories, définitions, exemples et cas limites en prose, avant de lancer quoi que ce soit. Si cela ressemble à beaucoup de travail en amont, tant mieux. Ce travail allait arriver de toute façon ; là, vous le faites proprement une fois au lieu de sept fois en reprise.

3. Ne sautez pas la revue sur échantillon. Re-codez 5 à 10 % à la main et mesurez réellement l'accord. « Ça avait l'air raisonnable en parcourant » n'est pas une métrique. C'est l'étape que les équipes raccourcissent parce que « l'AI l'a fait, donc c'est bon » — et c'est précisément celle qui détermine si vous pouvez défendre les résultats en comité.

4. Laissez les réponses ambiguës vivre dans un panier « Autre / Incertain ». Forcer une réponse bruitée dans une catégorie propre revient à blanchir le bruit dans vos graphiques. « 100 % codé » sonne bien jusqu'au moment où vous réalisez que 20 % est faux. Nous préférons largement voir « 80 % automatisé, 20 % codé à la main » : c'est la forme d'un résultat auquel on peut réellement se fier.

5. Comment l'outil de sondage Kicue prend en charge l'analyse des réponses ouvertes

Kicue propose en standard des types de questions ouvertes (OA / FA) et un flux de rédaction orienté vers un fonctionnement fiable sur le terrain :

Types de questions OA / FA — champs de texte libre courts et longs (référence des types de questions)
Export CSV / Excel — export dans des formats prêts pour les outils d'analyse externes (NVivo / MAXQDA / plateformes dédiées de text mining)
Rédaction réduisant les biais — indication du nombre de caractères, libellés obligatoire/facultatif explicites, UI pensée pour des taux de complétion plus élevés
Détection de fraude sur les textes libres — détection des réponses générées par AI collées dans les champs ouverts (panorama de la détection de fraude)

Téléversez votre fichier de questionnaire et la plateforme prend en charge de bout en bout la conception, la collecte et l'export des champs ouverts.

Choisir le bon outil — Les limites du plan gratuit, le support du branchement, les capacités IA et l'export CSV varient beaucoup entre outils. Consultez notre comparatif des outils de sondage gratuits pour trouver le bon pour cette approche.

Récapitulatif

Décisions clés pour analyser les réponses ouvertes avec l'AI :

Deux approches — text mining (mots/cooccurrences) et codage par LLM (contexte/sens), aux forces distinctes
Les LLM peuvent atteindre une justesse proche de l'humain, mais sous conditions — échantillons suffisants, codebook clair, prompts bien conçus
Connaître les limites structurelles — isolement, ambiguïté, sensibilité aux prompts
Les outils AI commerciaux doivent être vérifiés dans votre contexte — les cas d'échec publics sont réels ; mesurez avant la mise en production
L'analyse en deux temps + revue sur échantillon s'impose comme la bonne pratique

Les données ouvertes ont longtemps été sous-exploitées à cause de l'échelle. Avec l'AI dans la boîte à outils, cela change — mais le schéma gagnant consiste à connaître les limites de chaque approche et à garder un contrôle humain dans la boucle, pas à automatiser à l'aveugle.

Références

Recherches académiques et évaluées par des pairs

Rapports sectoriels et commentaires d'éditeurs

Découvrez Kicue — un outil de sondage en ligne gratuit pensée pour les flux de travail modernes avec réponses ouvertes.