Nettoyage de données d'enquête — détecter les réponses négligentes et fixer les seuils d'exclusion

« On a collecté N=500, on a balancé les données brutes dans l'analyse, et des outliers évidents polluaient tout. » Ce moment où on ouvre les données et on hésite à nettoyer d'abord est universel. Même après un design serré, un pilote soigné et un terrain principal discipliné, une fraction des répondants renvoie des réponses négligentes (careless responding). Ce n'est pas un défaut de design, c'est un fait de la cognition humaine.

Cet article parcourt pourquoi reporter le nettoyage casse l'analyse, les cinq patterns de réponses négligentes, les trois couches de méthodes de détection, comment fixer les seuils d'exclusion en pratique, quand les indices multivariés aident, et les règles éditoriales que nous appliquons à chaque fois. C'est le troisième volet de la série sur la qualité des questions (rédaction → pilote), couvrant l'arc « concevoir → vérifier → préparer l'analyse ».

1. Ce qui se passe quand on reporte le nettoyage

L'incidence des réponses négligentes n'est pas anecdotique

Meade & Craig (2012) Identifying Careless Responses in Survey Data ont passé en revue une large littérature et rapportent que 8 à 12 % des répondants présentent une forme de réponse négligente. Maniaci & Rogge (2014) Caring About Carelessness confirme la même fourchette. Pour une étude N=500, c'est 40–60 cas contaminés par défaut.

Sauter le nettoyage déforme :

Les moyennes — la préférence pour le point milieu compresse les distributions vers le centre
Les corrélations — les réponses aléatoires diluent les vraies relations entre variables
L'analyse de clusters — les répondants négligents forment leur propre pseudo-cluster, les segments deviennent inintelligibles
Les différences entre sous-groupes — quand la négligence se concentre sur un segment, des différences inexistantes paraissent réelles

DeSimone et al. (2015) Best Practice Recommendations for Data Screening cadrent le screening comme « une condition préalable à l'analyse » et recommandent de documenter explicitement les procédures de screening dans les publications. Côté académique, c'est déjà standard.

« Tout exclure » et « tout garder » se valent en mauvais

Deux modes d'erreur chez les chercheurs moins expérimentés :

Sur-exclusion — éliminer tout ce qui ressemble à une ligne droite. On finit par couper des répondants qui ressentent vraiment « ni d'accord ni en désaccord » sur tous les items
Sous-exclusion — « je ne veux pas perdre de données » / « l'échantillon va rétrécir » → tout garder. Résultat : l'analyse est tirée par les réponses négligentes

La bonne réponse : fixer les règles de détection à l'avance et les appliquer mécaniquement. Bouger les seuils après avoir vu les données est structurellement identique au p-hacking.

2. Cinq patterns de réponses négligentes

Pour systématiser la détection, il faut une taxonomie. Curran (2016) Methods for the Detection of Carelessly Invalid Responses in Survey Data et Huang et al. (2012) Detecting and Deterring Insufficient Effort Responding servent de boussole.

Pattern 1 : Ligne droite (straight-lining) — même option sur toute la matrice

Choisir la même option sur toutes les lignes d'une question matricielle. Le plus facile à détecter, le plus prévalent. Concentré sur les milieux neutres (« ni d'accord ni en désaccord ») ou les positifs doux.

Pattern 2 : Réponse précipitée (speeding) — finir très vite

Compléter sans lire. Fréquent chez les répondants de panel motivés par l'incentive. Sous 3 secondes par question : seuil typique.

Pattern 3 : Réponses aléatoires ou avec pattern (random / patterned)

Cycler les options en 1, 2, 3, 4, 1, 2, 3, 4 ou complètement au hasard. Plus dur à attraper que la ligne droite.

Pattern 4 : Incohérence logique (logical inconsistency)

Réponses logiquement incompatibles entre questions liées. « Jamais utilisé le service » → « très satisfait du service » deux questions plus loin. Détectez en construisant des paires de questions de contrôle dans le design.

Pattern 5 : Style extrême / acquiescement (extreme / acquiescence response style)

Toujours choisir la valeur maximale (extrême positif) ou toujours dire « d'accord » (acquiescement). C'est plus un style de réponse qu'une négligence — parfois traité par correction en analyse plutôt que par exclusion.

Pattern	Difficulté de détection	Incidence typique
Ligne droite	★★★ (facile)	5–10 %
Précipité	★★★ (facile)	3–8 %
Aléatoire / pattern	★★ (moyen)	1–3 %
Incohérence logique	★★ (moyen, dépend du design)	2–5 %
Extrême / acquiescement	★ (difficile, corrigible)	5–15 %

Les patterns se chevauchent chez les mêmes répondants, donc le taux d'exclusion final tombe en général autour de 5–15 % comme règle empirique du secteur.

3. Trois couches de détection

La littérature converge sur trois couches.

Couche 1 : Basée sur des règles (détection automatique minimale)

Jugement mécanique par seuil. Coût d'implémentation faible, détection stable.

Temps total < N_questions × 3 sec → précipité
Même option sur toutes les lignes d'une matrice → ligne droite
Conflit avec un attribut obligatoire → incohérence
Achèvement à 100 % + tous les champs texte vides → effort minimal

La Couche 1 est détectable en temps réel pendant le terrain, avec une forte efficacité opérationnelle. La plupart des outils d'enquête majeurs, Kicue inclus, embarquent la Couche 1 en standard.

Couche 2 : Indices statistiques (détection multivariée)

Jugement statistique de la négligence à partir de patterns de réponses multi-questions. Attrape la « négligence subtile » que la Couche 1 manque.

IRV (Intra-individual Response Variability, variabilité intra-individuelle) — écart-type des réponses d'une personne. Extrêmement bas (même option partout) ou extrêmement haut (aléatoire) → suspect
Distance de Mahalanobis — distance par rapport à la moyenne de l'échantillon dans un espace multidimensionnel. Capture les outliers de pattern
Cohérence pair-impair (odd-even consistency) — corrélation entre items en positions paires et impaires mesurant le même construit. Faible corrélation → suspect
Synonymes / antonymes psychométriques (psychometric synonyms / antonyms) — cohérence entre paires de phrases synonymes ou antonymes

Ces indices se calculent typiquement en exportant les données brutes vers R / Python / SPSS. Curran (2016) introduit le package R dédié careless à cet effet.

Couche 3 : Basée sur modèles (détection par apprentissage automatique)

Détection des réponses générées par bots et agents IA via des modèles ML sur les logs d'opération et patterns d'input. La détection d'agents IA de Kicue se situe à cette couche (voir notre article sur la détection de fraude par agents IA).

Couche	Où	Ce qui est attrapé	Coût de calcul
1. Règles	Dans l'outil d'enquête	Précipités / lignes droites / incohérences explicites	Faible
2. Indices statistiques	R / Python (externe)	Aléatoires / négligence subtile	Moyen
3. Modèles	Outil d'enquête / service externe	Bots / agents IA	Élevé

En pratique : Couche 1 comme socle opérationnel + Couche 2 ajoutée avant l'analyse est réaliste.

4. Fixer les seuils d'exclusion en pratique

Les seuils de détection se fixent en gardant à l'esprit le trade-off sur-exclusion / sous-exclusion, à l'avance.

Trois principes

Principe 1 : fixer les seuils à l'avance. Ne pas les bouger après. Ajuster les seuils après le début de l'analyse — parce que le taux d'exclusion « semble trop élevé / trop bas » — biaise les résultats vers le chiffre voulu. Documenter le protocole et le verrouiller.

Principe 2 : utiliser des conditions AND entre plusieurs indices. Exclure sur un seul indice augmente les faux positifs. N'exclure que les répondants flaggés par deux indices ou plus (par ex. « précipité AND ligne droite ») supprime la mauvaise classification.

Principe 3 : prédire le taux d'exclusion à l'avance. Si le résultat s'éloigne beaucoup des 5–15 % de référence, la logique de détection ou le design des questions a probablement un problème. Revisitez les critères de détection, pas le seuil.

Repères de seuils courants

Indicateur	Seuil typique	Source
Temps de complétion (précipité)	< N_questions × 3 sec	Huang et al. (2012)
Ligne droite (matrice)	Toutes les lignes même option	Curran (2016)
IRV	< 0,5 (échelle 5 points supposée)	Dunn et al. (2018)
Cohérence pair-impair	r < 0,30	Johnson (2005)
Distance de Mahalanobis	outliers à p < 0,001	DeSimone et al. (2015)

Ce sont des points de départ. Il faut encore évaluer la validité dans le contexte de votre étude — le seuil de réponse extrême en particulier varie culturellement.

5. Quand utiliser chaque indice multivarié

Les indices de Couche 2 servent à compléter ce que la Couche 1 manque. Guide rapide.

IRV — trouve « les anormalement plats ou variables »

L'écart-type des réponses d'une personne. Attrape avec un seul indice à la fois la ligne droite (IRV ≈ 0) et le répondant complètement aléatoire (IRV ≈ SD d'une distribution uniforme). Bien adapté aux enquêtes riches en matrices.

Distance de Mahalanobis — trouve « les outliers de pattern »

La distance d'un pattern de réponse multidimensionnel à la moyenne de l'échantillon. Attrape les répondants qui paraissent normaux question par question mais anormaux en combinaison. Stable à partir de N=200.

Cohérence pair-impair — exploite le design

Placer des items mesurant le même construit en positions paires et impaires et regarder la corrélation. Les répondants négligents ont une corrélation faible (ils n'ont pas remarqué que le construit se répète). Demande une préparation au moment du design, mais haute précision.

Synonymes / antonymes psychométriques

Vérifier la cohérence de paires de phrases synonymes (« je suis un leader » / « je prends les rênes en groupe »). Demande aussi une préparation au design.

Notes sur l'usage multivarié

Sous N=100, les indices sont instables — la détection multivariée vise l'échelle du terrain principal
Le même répondant flaggé par plusieurs indices — utiliser AND entre indices pour supprimer les faux positifs
Le package R careless calcule IRV / distance de Mahalanobis / pair-impair en une passe

6. Vue éditoriale — cinq règles que nous appliquons à chaque fois

Tirées de la littérature et de la pratique, les cinq points sur lesquels nous insisterions.

1. Documenter les critères de nettoyage avant le démarrage du terrain. « Décider une fois l'analyse commencée » : non catégorique. Écrivez seuils, combinaisons AND, taux d'exclusion attendus avant le terrain et alignez avec les parties prenantes. Ajuster après biaise les résultats — structurellement identique au p-hacking.

2. Faire tourner règles + indices statistiques en deux étapes. Règles seules manquent la négligence subtile ; statistiques seules retardent l'analyse à attendre les précipités évidents. Règles comme filtre primaire pendant le terrain → indices statistiques comme filtre secondaire après l'export est le pattern opérationnel standard.

3. Si le taux d'exclusion sort de 5–15 %, soupçonner le design. Au-dessus de 20 %, l'enquête est probablement trop longue / dure / ennuyeuse. Ne relâchez pas les seuils ; revisitez la structure des questions. Le taux d'exclusion est aussi une métrique de qualité de design.

4. Insérer une question-piège dans le terrain principal. « Pour cette question, choisissez l'option 3 » — items explicites de contrôle d'attention. Quiconque échoue est confirmé inattentif — détection puissante. Particulièrement utile sur les enquêtes longues (n'en abusez pas — ça érode la confiance).

5. Sauvegarder les réponses exclues avec leur raison d'exclusion. Ne jetez pas complètement les répondants nettoyés. Gardez-les dans les données brutes avec un flag d'exclusion pour que le processus de screening soit auditable plus tard. Même philosophie que les rapports de screening dans les publications académiques.

7. Opérations de nettoyage de données dans l'outil de sondage Kicue

Kicue embarque la détection de Couche 1 (basée sur règles) en standard.

Quatre détecteurs automatiques

Détection de précipité — flag automatique pour les complétions sous N_questions × 3 sec
Détection de ligne droite — flag pour les matrices avec toutes les lignes sur la même option
Détection d'agents IA — patterns caractéristiques de réponses ChatGPT / Claude / Gemini
Détection de bots / doublons — navigateurs headless, signaux IP / cookie / fingerprint

Les réponses détectées sont flaggées en temps réel pendant le terrain et visibles dans la vue de monitoring.

Workflow de gestion des flags

La vue de gestion des flags suit chaque flag à travers trois états : pending (en attente) → confirmed (confirmé) / dismissed (rejeté). Le toggle « exclure les réponses flaggées » dans la vue d'analyse, lorsqu'il est actif, exclut de l'agrégation uniquement les réponses confirmées. Les pending et dismissed restent en dehors de l'exclusion — design qui prévient les exclusions accidentelles.

Export des données brutes pour analyse multivariée

L'export des données brutes sort chaque flag comme colonne CSV. À charger dans R / Python / SPSS pour calculer les indices statistiques de Couche 2 comme IRV et distance de Mahalanobis. Tout ce qui n'entre pas dans Kicue (détection négligence avancée) vit dans le traitement externe post-export.

Les contrôles de cohérence vivent dans le design

L'auto-détection d'incohérence logique n'est pas une fonctionnalité native. Les contrôles croisés entre attributs de cribage et réponses du questionnaire principal s'implémentent comme traitement post-export. Décidez quelles paires vous allez vérifier avant le démarrage du terrain.

Choisir le bon outil — Les limites du plan gratuit, le support du branchement, les capacités IA et l'export CSV varient beaucoup entre outils. Consultez notre comparatif des outils de sondage gratuits pour trouver le bon pour cette approche.

Résumé

Checklist de nettoyage de données :

L'incidence des réponses négligentes est de 8–12 % — concevez en supposant 40–60 cas contaminés pour N=500.
Cinq patterns — ligne droite / précipité / aléatoire / incohérence logique / extrême·acquiescement.
Trois couches — règles (in-tool) / indices statistiques (externe) / modèles (bot · IA).
Documenter les seuils avant le terrain — ne pas les bouger après. AND entre plusieurs indices pour supprimer les faux positifs.
Cinq règles éditoriales — pré-documenter les critères / deux étapes règles + statistiques / soupçonner le design au-delà de 20 % d'exclusion / une question-piège / sauvegarder les exclues.
Kicue couvre la détection précipité / ligne droite / IA / bot ; Couche 2 dans R / Python après export.

Le nettoyage de données n'est pas « jeter des données ». C'est définir ce qui compte comme données analysables. Rendez l'exclusion transparente et pré-décidez les critères, et N=500 devient un N=450 propre — avec une crédibilité analytique nettement plus solide.

Références

Académiques et méthodologiques

Meade, A. W., & Craig, S. B. (2012). Identifier les réponses négligentes dans les données d'enquête. Psychological Methods, 17(3), 437–455.
Curran, P. G. (2016). Méthodes pour la détection des réponses invalidées par négligence dans les données d'enquête. Journal of Experimental Social Psychology, 66, 4–19.
DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Recommandations de bonnes pratiques pour le screening de données. Journal of Organizational Behavior, 36(2), 171–181.
Huang, J. L., Curran, P. G., Keeney, J., Poposki, E. M., & DeShon, R. P. (2012). Détecter et dissuader les réponses à effort insuffisant dans les enquêtes. Journal of Business and Psychology, 27(1), 99–114.
Maniaci, M. R., & Rogge, R. D. (2014). Se soucier de la négligence — l'inattention des participants et ses effets sur la recherche. Journal of Research in Personality, 48, 61–83.

Organismes de standards et centres méthodologiques

Guides du secteur (à titre d'observation)

Vous voulez opérationnaliser le nettoyage de données de bout en bout ? Essayez Kicue — un outil de sondage en ligne gratuit. Détection précipité / ligne droite / IA / bot, gestion des flags, toggle d'exclusion, export des données brutes — tout est livré en standard. La Couche 1 se branche proprement sur votre pipeline R / Python pour la Couche 2.