L'échelle « très satisfait·e à très insatisfait·e » familière de toute enquête client est, dans le jargon du métier, une échelle de Likert — une technique de mesure introduite en 1932. CSAT, NPS, CES, évaluation de marque, enquêtes d'engagement — presque tous les items de notation des enquêtes web modernes sont des dérivés de l'échelle de Likert, et pourtant des questions de base comme « 5 points ou 7 ? » et « inclure un point médian ? » se règlent encore au feeling sur la plupart des projets.
Cet article parcourt l'essence de l'échelle de Likert, les bases académiques pour choisir le nombre de points, la question du point médian, les pièges du design d'étiquettes et le long débat statistique sur l'analyse des données. Des enquêtes qui tournent en « 5 points parce qu'on a toujours fait ça » produisent parfois des conclusions qui basculent dès qu'on change l'échelle — c'est plus proche des fondations qu'on ne le pense.
1. Ce qu'est une échelle de Likert
Une échelle de Likert est un instrument de mesure qui demande au répondant d'exprimer son attitude ou son évaluation en choisissant parmi plusieurs catégories ordonnées. Rensis Likert a proposé la technique dans sa thèse de doctorat de 1932 A Technique for the Measurement of Attitudes.
Format typique
Q. Globalement, quelle est votre satisfaction vis-à-vis de notre service ?
1. Très insatisfait·e
2. Plutôt insatisfait·e
3. Neutre
4. Plutôt satisfait·e
5. Très satisfait·e
Structure de base : deux pôles opposés avec des paliers gradués entre eux. Dérivés courants en enquête web :
- NPS (0–10, 11 points) — Reichheld (2003), intention de recommandation
- CSAT 5 points — standard d'évaluation du support
- Différentiel sémantique (SD) 7 points — paires d'adjectifs bipolaires (« clair vs. sombre »)
- Sliders — échelle continue 0–100
Quatre décisions de design
Le problème de design se ramène à quatre choix :
- Nombre de points — 5 / 7 / 9 / 11
- Point médian — inclure « neutre » ou non
- Étiquettes — texte complet sur chaque point ou seulement aux extrêmes
- Direction — « négatif → positif » ou « positif → négatif »
Chacune a sa propre littérature académique.
2. Pourquoi le « nombre de points » est tant débattu
Le débat sur le nombre de points découle d'un compromis entre fiabilité de mesure, validité et charge du répondant.
Avantages d'augmenter les points
- Discrimination plus fine — distinguer « plutôt satisfait » de « très satisfait »
- Plus d'information statistique — granularité accrue pour moyennes et écarts-types
- Atténue effets de plafond et de plancher — une échelle 5 points qui pousse tout le monde à « très satisfait » peut être étalée sur 7
Inconvénients d'augmenter les points
- Charge cognitive plus élevée — distinguer « plutôt » de « assez » satisfait coûte
- Temps de réponse plus long — matrices plus hautes en disposition verticale
- Paliers du milieu flous — à 9+ points, les catégories centrales deviennent indistinguables
- Fiabilité test-retest plus faible — même personne, même question, plus de variation
Cox (1980) « The Optimal Number of Response Alternatives for a Scale » a conclu que la plage optimale est 5–9 points — et c'est le consensus du secteur depuis.
3. 5 vs 7 vs 9 points — ce que dit la recherche
Principaux résultats
| Étude | Recommandé | Raison |
|---|---|---|
| Likert (1932) original | 5 points | Discrimination suffisante à charge minimale |
| Cox (1980) | 5–9 points | Au-delà de 9, gains de discrimination < gains de charge |
| Krosnick & Fabrigar (1997) | 7 points | Meilleur compromis fiabilité + validité |
| Preston & Colman (2000) | 7–10 points | La fiabilité se stabilise à 7+ |
| Lozano, García-Cueto & Muñiz (2008) | 4–7 points | La validité chute sous 4 ; plateau à 7 |
| Norman (2010) | 5 ou 7 points | L'analyse paramétrique va bien à 5+ |
La zone sûre académique est 5–7 points ; 9+ voit le coût cognitif dépasser les gains de discrimination.
Conventions par cas d'usage
En pratique, les conventions varient selon l'application :
| Cas d'usage | Standard | Pourquoi |
|---|---|---|
| CSAT | 5 points | Intuitif (5 sur 5) |
| NPS | 11 points (0–10) | Méthodologie figée de Reichheld |
| CES | 5 ou 7 points | L'original de Dixon et al. utilisait 5 |
| Évaluation de marque | 7 points | Veut des différences plus fines |
| Engagement | 5 points | Standard Gallup Q12 |
| Études académiques | 7 points | L'α de Cronbach se stabilise |
Quand 9 ou 11 ont du sens
- NPS à 11 points — Reichheld a soutenu que 0–10 capture spécifiquement la « force de la recommandation ». Académiquement, la convention 11 points est plus « pratique standard du secteur » que « optimale démontrablement ».
- 9 points — utilisé en études académiques et grands panels pour la discrimination maximale. Pas généralement recommandé pour l'enquête web typique.
« 5 ou 7 si l'on hésite » est le consensus entre recherche et littérature de praticiens.
4. Faut-il inclure le point médian dans une échelle de Likert ?
Inclure ou non un point médian « neutre » / « ni d'accord ni en désaccord » est aussi important que la question du nombre de points.
Avec point médian (échelles impaires)
- Pour : les répondants vraiment neutres ne sont pas forcés à se positionner. Réduit la charge.
- Contre : offre une cachette aux « préfèrerait ne pas répondre » ; risque de satisficing.
Sans point médian (échelles paires)
- Pour : force les répondants à exprimer une opinion, éliminant les « vaguement neutres ».
- Contre : force les vraiment neutres d'un côté ou l'autre, déformant les données.
Ce que recommande la recherche
Krosnick & Fabrigar (1997) concluent que le point médian devrait généralement être inclus. Raisons :
- De vrais répondants neutres existent — sans connaissance / sans intérêt / sans expérience.
- Le choix forcé augmente l'erreur de mesure — des choix « vaguement positifs » ajoutent du bruit.
- La preuve que le point médian gonfle le satisficing est faible — au bon nombre de points, l'effet est petit.
Cela dit, si les réponses neutres dominent, c'est la question qui est en cause, pas le point médian. Affine le libellé, ne supprime pas le point médian.
5. Pièges du design d'étiquettes
La façon d'étiqueter les catégories affecte directement la qualité des données.
Étiquettes complètes vs aux extrêmes seulement
Étiquettes complètes :
1. Très insatisfait·e / 2. Plutôt insatisfait·e / 3. Neutre / 4. Plutôt satisfait·e / 5. Très satisfait·e
Aux extrêmes seulement :
1 (très insatisfait·e) — 2 — 3 — 4 — 5 (très satisfait·e)
Krosnick & Berent (1993) ont montré que les échelles entièrement étiquetées ont une fiabilité et une validité plus élevées — les répondants n'interprètent pas les nombres nus, attacher du langage à chaque catégorie compte. Étiquette complète par défaut.
L'hypothèse « intervalles égaux »
On calcule routinièrement des moyennes en supposant des paliers également espacés — mais le sont-ils vraiment ?
Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response soulignent que la distance psychologique entre « très satisfait » et « plutôt satisfait » n'est pas nécessairement égale à celle de « plutôt satisfait » à « neutre ». D'où le débat ordinal-vs-intervalle (section suivante).
Conventions de direction
Que « négatif → positif » ou « positif → négatif » se lise de gauche à droite est une convention qui varie par région. Les règles non négociables : direction cohérente dans une enquête, et jamais changer en étude de tracking.
6. Ordinal ou intervalle — le débat statistique de 50 ans
Un débat académique qui dure un demi-siècle : peut-on calculer moyennes et écarts-types à partir de données Likert (les nombres 1–5) ?
Vue stricte : « C'est ordinal — les moyennes sont inappropriées »
Une échelle de Likert est fondamentalement ordinale — la différence entre « très satisfait » et « plutôt satisfait » est un palier numérique, mais pas nécessairement un palier psychologique. Donc :
- Les moyennes sont inappropriées — utilise médiane ou mode.
- Utilise des tests non paramétriques (Mann-Whitney U, etc.).
- Régression et tests t inappropriés.
Vue pragmatique : « Traite-la comme intervalle en pratique »
Norman (2010) « Likert Scales, Levels of Measurement and the 'Laws' of Statistics » conclut que traiter les échelles de Likert comme intervalle et appliquer des tests paramétriques (tests t, régression) ne pose essentiellement aucun problème en pratique. Raisons :
- Les études de simulation montrent la robustesse — même quand les intervalles ne sont pas égaux, les résultats sont largement corrects.
- Le théorème central limite s'applique avec 5+ points et grands échantillons — les distributions approchent la normale.
- La grande majorité de la recherche publiée utilise des tests paramétriques — la vue stricte n'a pas suivi la pratique.
Là où atterrit la pratique
Synthèse de la recherche et littérature praticienne :
- Likert 5+ points avec N ≥ 100 → moyennes, écarts-types et régression sont corrects en pratique.
- Pour articles et rapports formels, expliciter « données Likert traitées comme intervalle ».
- Quand il y a effets de plafond ou de plancher, valider avec des tests non paramétriques.
Les moyennes CSAT et la soustraction NPS sont routinières parce que la vue pragmatique est le standard de travail dans le secteur.
7. Vue rédactionnelle — cinq règles qui font la différence
En suivant les rapports sectoriels et les cas publics, cinq points sur lesquels nous insisterions fortement.
1. « 5 points si l'on hésite. » Choisir 7 seulement avec une raison. Les équipes oscillent entre 5 et 7, et l'heuristique pratique est « 5 sauf raison spécifique ». Quand tu choisis 7, documente pourquoi (« on a besoin d'une discrimination plus fine sur les items d'image de marque »). Choisir 7 parce que « ça paraît plus précis » est le schéma que la presse spécialisée renvoie : les équipes le regrettent parce que les résultats étaient moins intuitifs en 7 qu'en 5.
2. Inclure le point médian par défaut. Si « neutre » est trop élevé, corrige la question. Supprimer le point médian pour forcer un positionnement est un contournement qu'on voit périodiquement — et c'est généralement une erreur de catégorie. Une neutralité excessive signale une question abstraite ou peu engageante. Affûte le libellé, ne supprime pas le point médian. C'est aussi ce que soutient la recherche de Krosnick & Fabrigar.
3. Étiquette par défaut tout. Aux extrêmes seulement, c'est du « design économe ». Quand on voit « 1 — 2 — 3 — 4 — 5 (insatisfait — satisfait) » sans étiquettes intermédiaires, c'est typiquement le signe que quelqu'un a économisé l'effort de design. La recherche montre à plusieurs reprises que les échelles entièrement étiquetées ont une fiabilité plus élevée — la minute qu'il faut pour ajouter du langage à chaque catégorie achète une vraie qualité en aval. NPS est l'exception conventionnelle (0–10 numérique) ; tout le reste : étiquettes complètes.
4. En tracking, fige nombre de points, point médian et étiquettes — point. On voit des équipes « passer de 5 à 7 cette fois » ou « peaufiner le libellé » et tenter de comparer à la vague précédente. Une fois changé, les scores historiques et actuels ne partagent plus la même échelle, et la comparaison longitudinale est cassée pour toujours. Soit recollecter la vague historique sur la nouvelle échelle, soit ne pas changer.
5. La Likert n'est pas magique — le libellé fait 80 %, le design d'échelle 20 %. Le nombre de points et le point médian comptent, mais le libellé de la question déplace les résultats bien davantage. Que « Quelle est votre satisfaction vis-à-vis de notre service ? » soit en 5 ou 7 points, les données n'ont pas de sens si la question est trop abstraite. Polis le libellé d'abord, puis pense à l'échelle.
8. Échelles de Likert dans l'Outil de Sondage Kicue
Kicue embarque les capacités liées aux échelles en standard.
Types de question SCALE
Les types de question SCALE viennent en quatre saveurs :
- LIKERT — échelle de Likert standard (5 / 7 points et autres, entièrement configurable)
- NPS — optimisé pour le format 11 points (0–10)
- SLIDER — slider à valeur continue
- SD — différentiel sémantique (paires d'adjectifs bipolaires)
Combinaison avec les questions matricielles
Pour évaluer plusieurs items sur une échelle Likert partagée, combine les types matriciels avec SCALE. Pour les pièges spécifiques aux matrices, voir conception des questions matricielles.
Articles de design liés
Les échelles de Likert se connectent à d'autres sujets. Voir aussi notre guide CSAT, guide complet NPS, guide CES, conception de matrices et effets d'ordre des questions.
Choisir le bon outil — Les limites du plan gratuit, le support du branchement, les capacités IA et l'export CSV varient beaucoup entre outils. Consultez notre comparatif des outils de sondage gratuits pour trouver le bon pour cette approche.
Résumé
Checklist pour concevoir et exploiter les échelles de Likert :
- 5 ou 7 points est l'optimum académique. 9+ coûte plus en charge qu'il ne gagne en discrimination.
- Inclure le point médian par défaut. Le choix forcé augmente l'erreur de mesure.
- Étiqueter complètement chaque catégorie. Aux extrêmes seulement réduit la fiabilité.
- Traiter les données comme intervalle en pratique. Norman (2010) est le standard de travail.
- En tracking, figer le design de l'échelle. Le changer casse la comparaison longitudinale.
- Libellé d'abord, échelle ensuite. 80/20.
Les équipes qui traitent la Likert comme « 5 points, peu importe » produisent une fiabilité différente de celles qui décident délibérément nombre de points, point médian et étiquettes. C'est l'instrument de mesure derrière CSAT/NPS/CES — ça vaut la peine de le concevoir avec intention.
Références
Académique et méthodologique
- Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
- Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale. Journal of Marketing Research.
- Krosnick, J. A. et Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
- Krosnick, J. A. et Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
- Preston, C. C. et Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
- Lozano, L. M., García-Cueto, E. et Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
- Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
- Tourangeau, R., Rips, L. J. et Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.
Guides de prestataires et pratiques
- Qualtrics : Likert Scale Question Best Practices.
- SurveyMonkey : Likert Scale Design Tips.
- Pew Research Center : Question Wording.
Envie de concevoir des enquêtes avec des choix Likert délibérés de bout en bout ? Essayez l'outil de sondage en ligne gratuit Kicue. Les types LIKERT, NPS, SLIDER et SD sont livrés en standard, avec un contrôle complet sur le nombre de points, le point médian et la conception des étiquettes.
