Méthodes

Guide de conception de MaxDiff (Maximum Difference Scaling) — Mesurer les priorités

Éviter l'effet de plafond où toutes les items se retrouvent alignées sur « important » avec une échelle de Likert, et mesurer les véritables priorités avec MaxDiff (Maximum Difference Scaling, Best-Worst Scaling) — conception et analyse. Du design expérimental à la taille d'échantillon, du calcul des scores par bayésien hiérarchique à l'arbitrage avec le conjoint, le tout structuré à partir de l'article fondateur de Louviere & Woodworth (1990) et de la pratique des éditeurs implémenteurs.

« Quelle fonctionnalité est la plus prioritaire ? » — vous posez la question, et le rapport Likert qui revient affiche toutes les items alignées sur « très important ». Quiconque fait de la recherche depuis un an a déjà vu ce paysage. Ce moment où l'on se prend la tête : « ils disent que tout est important… impossible d'en tirer une décision… ».

Le MaxDiff (Maximum Difference Scaling, Best-Worst Scaling) est la méthode qui contourne structurellement cet effet de plafond (Ceiling Effect). Cet article organise — en partant des raisons pour lesquelles le Likert ne hiérarchise pas — la structure de base de MaxDiff, les règles du design expérimental, le calibrage de la taille d'échantillon, le calcul des scores (comptage vs bayésien hiérarchique), et l'arbitrage avec le conjoint et le PSM, en s'appuyant à la fois sur la pratique des éditeurs implémenteurs et les sources académiques originales.

1. Pourquoi le Likert ne hiérarchise pas les priorités

« Évaluez l'importance sur une échelle de 5 », demandé sur 10 items, et la quasi-totalité des items se retrouvent sur « important » ou « très important ». C'est la faiblesse structurelle de l'échelle de Likert.

Trois causes principales :

  • Effet de plafond : quand les répondants estiment que « tout est important », ils se collent contre la borne supérieure. Si les 10 items récoltent tous 5 points, aucune hiérarchie n'est identifiable
  • Biais de désirabilité sociale : les items qu'on a du mal à dénigrer — « sécurité », « qualité », « support » — ressortent plus hauts que leur priorité réelle
  • Bâclage par charge cognitive : attribuer une étoile à chacun des 10 items est monotone, et la deuxième moitié est répondue au hasard

Le résultat : on collecte des données « tout est important » et on se retrouve dans une situation inexploitable pour la décision.

Le Guide de conception de l'échelle de Likert traite de l'usage du Likert lui-même, mais pour les usages « je veux établir un classement », le Likert est structurellement inadapté — c'est la motivation d'utiliser MaxDiff.

2. La structure de base de MaxDiff — choisir le meilleur et le pire

MaxDiff est une méthode qui présente 4 à 5 items à la fois et demande de choisir le plus important (Best) et le moins important (Worst). En répétant cette opération sur 10 à 15 blocs, on estime statistiquement la priorité relative de chaque item.

À quoi ressemble la question

Exemple : pour comparer 10 items, le répondant verra l'écran suivant 12 fois.

Parmi les 4 items suivants, choisissez le plus important et le moins important.

[ ] Prix bas                  Le plus important [○]  Le moins important [ ]
[ ] Qualité du support        Le plus important [ ]  Le moins important [○]
[ ] Richesse fonctionnelle    Le plus important [ ]  Le moins important [ ]
[ ] Facilité d'utilisation    Le plus important [ ]  Le moins important [ ]

Chaque répondant est obligé de comparer directement les items entre eux — pas d'échappatoire « tout à 5 points » comme avec le Likert. Résultat : les forces et faiblesses relatives entre items ressortent nettement.

Pourquoi ce format fonctionne

L'intuition centrale de Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis est le fait psychologique que « le choix relatif est plus naturel à l'humain que l'évaluation absolue ». Nous sommes mauvais pour décider « ceci vaut 7 points », alors que « A ou B, lequel préférez-vous ? » se répond instantanément. MaxDiff exploite directement cette caractéristique cognitive.

3. Design expérimental — les règles du Balanced Incomplete Block Design

Le cœur de MaxDiff, c'est le design expérimental. Quand on compare 10 items, on ne peut pas montrer toutes les combinaisons (45 paires) au répondant, donc on disperse aléatoirement les items via le Balanced Incomplete Block Design (BIBD, design en blocs incomplets équilibrés).

Règles de base du design

  • 4 à 5 items par bloc : trop nombreux rend le choix difficile, trop peu donne une information de comparaison maigre
  • Chaque item apparaît le même nombre de fois : pour disperser 10 items sur 12 blocs, chaque item apparaît environ 5 fois
  • Chaque paire d'items co-apparaît le même nombre de fois : équilibrer le nombre de fois où « prix » et « support » figurent dans le même bloc
  • Aléatoriser la position des items : prévenir les effets d'ordre d'affichage

La réalité de l'implémentation

Construire un BIBD parfait à la main n'étant pas réaliste, on utilise standardement des outils spécialisés :

  • Sawtooth Software Lighthouse / Discover : éditeur standard du secteur pour MaxDiff, génération automatique du design
  • Package R support.BWS : open source, largement utilisé pour la recherche
  • SurveyEngine / Conjoint.ly : cloud, avec gabarits

Ces outils génèrent automatiquement le design des blocs à partir du nombre d'items saisi. Ne pas le fabriquer à la main de zéro — c'est la règle d'or.

4. Comment décider de la taille d'échantillon et du nombre de répétitions

« Combien de personnes faut-il interroger », « combien de blocs montrer à chaque répondant » — ce sont les points qui font le plus hésiter dans la pratique MaxDiff.

Repère pour le nombre de répétitions (blocs par personne)

  • Nombre d'items × 3 / 4 est la règle empirique du secteur. Exemple : 10 items → 7 à 8 blocs par personne, 15 items → 11 à 12 blocs
  • Trop peu de répétitions rend l'estimation au niveau individuel instable ; trop nombreuses font monter le taux d'abandon par charge cognitive
  • Plafonner à 5–10 minutes de temps de réponse et calculer à rebours — c'est le bon réflexe terrain

Repère pour le nombre de répondants

  • Analyse au niveau du groupe seulement : N = 200 à 300 suffit
  • Estimation bayésienne hiérarchique par segment : N = 100 ou plus par segment, total N = 400 à 500
  • Estimation au niveau individuel (analyse détaillée des clients clés) : N ≥ 500

Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) est un ouvrage pratique qui organise le design d'échantillon MaxDiff à partir de l'expérience d'implémentation de Sawtooth Software, et qui sert de guide standard de référence sur le terrain.

Voir aussi Comment décider de la taille d'échantillon d'une enquête pour les bases du calcul de taille d'échantillon.

5. Calcul des scores — analyse par comptage vs bayésien hiérarchique

Il existe principalement 2 façons de calculer le « score de priorité de chaque item » à partir des données de réponse MaxDiff.

Analyse par comptage (version simplifiée)

  • Pour chaque item, agréger « nombre de fois choisi comme Best − nombre de fois choisi comme Worst »
  • Après agrégation, comparer entre items
  • Faisable sous Excel, interprétation simple, efficace si on veut juste un classement grossier au niveau du groupe

Cependant, l'analyse par comptage ne permet pas de produire des scores au niveau individuel ni des comparaisons fines par segment.

Estimation bayésienne hiérarchique (HB, Hierarchical Bayes)

  • Le score individuel de chaque répondant est estimé via distribution a priori (moyenne du groupe) + correction a posteriori (choix individuels)
  • Comme les scores au niveau individuel sont disponibles, on peut faire de la segmentation et du clustering
  • Standardement implémenté via le module HB de Sawtooth Software, ou les packages R bayesm / ChoiceModelR

Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices est une référence qui organise les modèles mathématiques (modèles d'utilité aléatoire, MNL) du choix Best-Worst, et constitue le fondement théorique de l'implémentation HB.

Comment choisir en pratique

  • Présentation au comité de direction du type « la fonctionnalité A est 3 fois plus importante que la B » → estimation HB (scores individuels → présentés en moyenne)
  • Comparer les priorités entre 5 segments → estimation HB (distributions a posteriori par segment)
  • Partager en interne, de façon synthétique, « ce qui est le plus prioritaire au Q1 » → l'analyse par comptage suffit

Les détails théoriques de l'estimation bayésienne sont mieux compris en parallèle de Agrégation d'enquête et tests de significativité — tableaux croisés, chi-deux, tailles d'effet, par contraste avec l'approche fréquentiste.

6. Arbitrer entre MaxDiff / conjoint / PSM

Comme trois méthodes phares des enquêtes prix / priorités, MaxDiff, conjoint et PSM sont fréquemment discutés ensemble. Chacune répond à une question différente et convient à des contextes différents.

Arbitrer entre MaxDiff / conjoint / PSM

MaxDiff (Maximum Difference Scaling)
Mesurer la priorité d'items individuels. Identifier « ce qui est le plus important » parmi 10 à 30 fonctionnalités / demandes. Conception relativement simple, charge cognitive modérée. Optimal pour la priorisation de fonctionnalités, le screening de concepts, le filtrage d'attributs.
Analyse conjointe
Présenter des combinaisons d'attributs et faire de la simulation de parts de marché. Puissante quand on compare des profils produit (prix × fonctionnalités × marque). Conception et analyse plus complexes que MaxDiff. Optimal pour l'évaluation de concept produit et la mesure d'élasticité-prix.
Van Westendorp PSM
Demander directement 4 points de prix — « trop cher », « trop bon marché », « raisonnable », etc. Conception la plus simple, mais on n'obtient qu'une « plage de prix » — pas de hiérarchie de fonctionnalités. Optimal pour l'exploration initiale de la plage de prix d'un nouveau produit.

Flux de décision en pratique

  1. Décider « quoi développer en priorité »MaxDiff
  2. Voir « si ce prix + cet ensemble de fonctionnalités se vendra »conjoint
  3. Explorer « si on doit lancer à 3 000 / 5 000 / 8 000 ¥ »PSM

Il y a aussi des cas où on les utilise en parallèle. Après avoir filtré les priorités de fonctionnalités avec MaxDiff, faire un conjoint intégrant les 3 fonctionnalités du top, et un PSM pour la plage de prix — c'est le pattern standard des projets de taille moyenne.

Voir L'analyse conjointe en pratique et Guide de conception du Van Westendorp PSM en parallèle, l'arbitrage entre ces trois méthodes sœurs apparaît clairement.

7. Le regard de la rédaction — 5 points qui font toujours mouche en implémentation MaxDiff

Du point de vue de quelqu'un qui suit en continu les cas du secteur et les articles publics des éditeurs, voici 5 points qui font toujours mouche en implémentation MaxDiff.

1. Réduire à 10–20 items avant de commencer

« On veut faire passer les 30 items en MaxDiff » — c'est une demande fréquente, mais avec 30 items, il faut environ 22 blocs par personne et la charge cognitive explose. Discuter en interne « ce qui reste clairement / ce qui dégage clairement » avant le MaxDiff et réduire à 20 items ou moins avant de lancer — c'est l'usage du terrain.

2. Aligner la granularité des items

Mettre côte à côte « prix bas » et « facilité d'utilisation du formulaire de contact » : les niveaux d'abstraction sont trop différents et le répondant ne peut pas comparer. Aligner consciemment la granularité (niveau d'abstraction) des items — par exemple, tout au niveau « catégorie fonctionnelle », ou tout au niveau « point de contact concret ».

3. Ne pas mélanger « importance » et « satisfaction »

Si on veut collecter à la fois « importance » et « satisfaction actuelle » avec MaxDiff dans la même enquête, les séparer dans des blocs distincts. Faire choisir « ce qui est important ET satisfaisant » dans le même bloc embrouille le répondant. Si on combine avec une analyse de modèle de Kano, le plus sûr est de concevoir cela comme une enquête séparée.

4. Vérifier l'affichage des blocs sur appareil réel en prétest

Sur les écrans de bloc MaxDiff, le texte des items se retrouve fréquemment coupé en plusieurs lignes sur mobile et devient illisible. Vérifier impérativement l'affichage sur iOS et Android avant la diffusion en production. Voir Checklist avant publication d'enquête pour le cadre de vérification pré-publication.

5. Dans le rapport, le triplet « score + classement + taille d'effet »

Présenter à un dirigeant juste « la fonctionnalité A vaut 28,5 points » ne passe pas. Aligner sur une seule page le triplet « score », « classement », « est-ce que l'écart fonctionnalité A vs B est statistiquement significatif ». Avec une estimation HB, le recouvrement des distributions a posteriori permet de montrer intuitivement la significativité.

8. Implémentation MaxDiff dans l'outil d'enquête Kicue

⚠️ Prérequis important : Kicue n'a pas de type de question MaxDiff dédié. Comparé aux outils spécialisés de recherche (Sawtooth Software / SurveyEngine / Conjoint.ly), les fonctions d'automatisation de la conception et de l'analyse sont limitées.

2 options pour implémenter MaxDiff avec Kicue

Option A : implémenter une substitution avec Kicue

On peut reproduire le comportement MaxDiff avec des blocs itérés de questions à réponse unique :

  • Répéter 12 fois la question à réponse unique « parmi les 4 items suivants, le plus important »
  • Répéter 12 fois la question à réponse unique « parmi les 4 items suivants, le moins important »
  • Changer le set d'items par bloc (générer en amont le BIBD dans Excel / R et copier-coller dans les choix de chaque question)
  • Après collecte des réponses, export CSV → estimation HB avec les packages R bayesm / ChoiceModelR

Cette méthode est suffisamment opérationnelle pour les « projets initiaux qui ne peuvent pas se permettre un outil dédié » et les « validations simples avec 10 à 15 items ».

Option B : utiliser conjointement avec un outil spécialisé

Pour les projets MaxDiff sérieux :

  • Sawtooth Software Discover / Lighthouse : standard du secteur, de la conception à l'analyse HB de bout en bout
  • SurveyEngine / Conjoint.ly : SaaS facile à mettre en place
  • Mener l'enquête principale avec ces outils, et utiliser Kicue pour les questions de screening ou les questions de profilage additionnelles

Limites de Kicue

  • Génération automatique du BIBD → générer en amont avec un outil externe (R support.BWS / Sawtooth) et copier-coller dans Kicue
  • Estimation bayésienne hiérarchique → export CSV → R bayesm / module HB Sawtooth
  • Affichage de scores au niveau individuel dans le dashboard → outil BI externe (Tableau / Looker)
  • Aléatoirisation automatique de l'affichage des blocs → couverture partielle avec la fonction d'aléatorisation des choix de Kicue, l'équilibrage des paires entre items reste un contrôle manuel

Comme articles connexes, Guide de conception du Van Westendorp PSM, L'analyse conjointe en pratique, Guide de conception de l'échelle de Likert et Conception des questions de screening à lire en parallèle font apparaître l'arbitrage entre ces trois méthodes sœurs, ainsi que le design du screening en amont du MaxDiff.

Références


Si vous souhaitez mesurer les priorités de fonctionnalités ou les rankings de demandes avec une haute précision, essayez l'outil d'enquête gratuit Kicue. Implémentation de substitution de MaxDiff avec des blocs itérés de réponse unique, contrôle de l'ordre d'affichage avec la fonction d'aléatorisation des options, et intégration avec R / Sawtooth via l'export CSV — vous pouvez commencer la phase de vérification initiale de MaxDiff en un seul compte (la génération de BIBD, l'estimation bayésienne hiérarchique et l'analyse au niveau individuel nécessitent des outils spécialisés comme Sawtooth Software / SurveyEngine / R bayesm).

Articles liés

Méthodes

Guide des méthodes d'échantillonnage d'enquête — aléatoire, stratifié, par grappes

Comment choisir qui interroger : tour d'horizon des méthodes d'échantillonnage probabilistes (aléatoire simple, systématique, stratifié, par grappes) et non probabilistes (de convenance, par quotas, boule de neige). Bases académiques (Kish 1965, Lohr 2010) et conseils de terrain à l'ère des panels en ligne, vus depuis la rédaction.

Méthodes

Guide du test de concept — Mesurer l'acceptation avant le lancement

Comment concevoir un test de concept pour évaluer par enquête, avant le lancement, un nouveau produit, une nouvelle fonctionnalité ou une accroche publicitaire. L'usage respectif des tests monadique, monadique séquentiel et comparatif, les indicateurs standard — intention d'achat, nouveauté, attrait, singularité —, la lecture des Top Box, l'importance de la comparaison aux normes (base de données normative) et le soin apporté au stimulus (le texte du concept) : le tout structuré avec le grain de la pratique. La porte d'entrée des études pré-lancement, en amont du PSM, du conjoint et du MaxDiff.

Méthodes

Guide des enquêtes de segmentation client — Diviser les clients par analyse typologique

Comment concevoir une enquête de segmentation client qui range les clients en segments réellement utiles à partir des données d'enquête. La différence entre segmentation a priori et post-hoc (analyse typologique), les quatre axes de segmentation — démographique, comportemental, besoins, psychographique —, l'usage respectif de la classification ascendante hiérarchique, du k-means et de l'analyse en classes latentes, le choix du nombre de segments, et les six conditions d'un segment exploitable : le tout structuré à la lumière des travaux sur la segmentation depuis Smith (1956) et du grain de la pratique.

Prêt à créer votre propre enquête avec Kicue ?

Téléversez votre questionnaire et l’IA génère un formulaire web en 30 secondes.

Commencer gratuitement