Guide de conception de MaxDiff (Maximum Difference Scaling) — Mesurer les priorités

« Quelle fonctionnalité est la plus prioritaire ? » — vous posez la question, et le rapport Likert qui revient affiche toutes les items alignées sur « très important ». Quiconque fait de la recherche depuis un an a déjà vu ce paysage. Ce moment où l'on se prend la tête : « ils disent que tout est important… impossible d'en tirer une décision… ».

Le MaxDiff (Maximum Difference Scaling, Best-Worst Scaling) est la méthode qui contourne structurellement cet effet de plafond (Ceiling Effect). Cet article organise — en partant des raisons pour lesquelles le Likert ne hiérarchise pas — la structure de base de MaxDiff, les règles du design expérimental, le calibrage de la taille d'échantillon, le calcul des scores (comptage vs bayésien hiérarchique), et l'arbitrage avec le conjoint et le PSM, en s'appuyant à la fois sur la pratique des éditeurs implémenteurs et les sources académiques originales.

1. Pourquoi le Likert ne hiérarchise pas les priorités

« Évaluez l'importance sur une échelle de 5 », demandé sur 10 items, et la quasi-totalité des items se retrouvent sur « important » ou « très important ». C'est la faiblesse structurelle de l'échelle de Likert.

Trois causes principales :

Effet de plafond : quand les répondants estiment que « tout est important », ils se collent contre la borne supérieure. Si les 10 items récoltent tous 5 points, aucune hiérarchie n'est identifiable
Biais de désirabilité sociale : les items qu'on a du mal à dénigrer — « sécurité », « qualité », « support » — ressortent plus hauts que leur priorité réelle
Bâclage par charge cognitive : attribuer une étoile à chacun des 10 items est monotone, et la deuxième moitié est répondue au hasard

Le résultat : on collecte des données « tout est important » et on se retrouve dans une situation inexploitable pour la décision.

Le Guide de conception de l'échelle de Likert traite de l'usage du Likert lui-même, mais pour les usages « je veux établir un classement », le Likert est structurellement inadapté — c'est la motivation d'utiliser MaxDiff.

2. La structure de base de MaxDiff — choisir le meilleur et le pire

MaxDiff est une méthode qui présente 4 à 5 items à la fois et demande de choisir le plus important (Best) et le moins important (Worst). En répétant cette opération sur 10 à 15 blocs, on estime statistiquement la priorité relative de chaque item.

À quoi ressemble la question

Exemple : pour comparer 10 items, le répondant verra l'écran suivant 12 fois.

Parmi les 4 items suivants, choisissez le plus important et le moins important.

[ ] Prix bas                  Le plus important [○]  Le moins important [ ]
[ ] Qualité du support        Le plus important [ ]  Le moins important [○]
[ ] Richesse fonctionnelle    Le plus important [ ]  Le moins important [ ]
[ ] Facilité d'utilisation    Le plus important [ ]  Le moins important [ ]

Chaque répondant est obligé de comparer directement les items entre eux — pas d'échappatoire « tout à 5 points » comme avec le Likert. Résultat : les forces et faiblesses relatives entre items ressortent nettement.

Pourquoi ce format fonctionne

L'intuition centrale de Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis est le fait psychologique que « le choix relatif est plus naturel à l'humain que l'évaluation absolue ». Nous sommes mauvais pour décider « ceci vaut 7 points », alors que « A ou B, lequel préférez-vous ? » se répond instantanément. MaxDiff exploite directement cette caractéristique cognitive.

3. Design expérimental — les règles du Balanced Incomplete Block Design

Le cœur de MaxDiff, c'est le design expérimental. Quand on compare 10 items, on ne peut pas montrer toutes les combinaisons (45 paires) au répondant, donc on disperse aléatoirement les items via le Balanced Incomplete Block Design (BIBD, design en blocs incomplets équilibrés).

Règles de base du design

4 à 5 items par bloc : trop nombreux rend le choix difficile, trop peu donne une information de comparaison maigre
Chaque item apparaît le même nombre de fois : pour disperser 10 items sur 12 blocs, chaque item apparaît environ 5 fois
Chaque paire d'items co-apparaît le même nombre de fois : équilibrer le nombre de fois où « prix » et « support » figurent dans le même bloc
Aléatoriser la position des items : prévenir les effets d'ordre d'affichage

La réalité de l'implémentation

Construire un BIBD parfait à la main n'étant pas réaliste, on utilise standardement des outils spécialisés :

Sawtooth Software Lighthouse / Discover : éditeur standard du secteur pour MaxDiff, génération automatique du design
Package R support.BWS : open source, largement utilisé pour la recherche
SurveyEngine / Conjoint.ly : cloud, avec gabarits

Ces outils génèrent automatiquement le design des blocs à partir du nombre d'items saisi. Ne pas le fabriquer à la main de zéro — c'est la règle d'or.

4. Comment décider de la taille d'échantillon et du nombre de répétitions

« Combien de personnes faut-il interroger », « combien de blocs montrer à chaque répondant » — ce sont les points qui font le plus hésiter dans la pratique MaxDiff.

Repère pour le nombre de répétitions (blocs par personne)

Nombre d'items × 3 / 4 est la règle empirique du secteur. Exemple : 10 items → 7 à 8 blocs par personne, 15 items → 11 à 12 blocs
Trop peu de répétitions rend l'estimation au niveau individuel instable ; trop nombreuses font monter le taux d'abandon par charge cognitive
Plafonner à 5–10 minutes de temps de réponse et calculer à rebours — c'est le bon réflexe terrain

Repère pour le nombre de répondants

Analyse au niveau du groupe seulement : N = 200 à 300 suffit
Estimation bayésienne hiérarchique par segment : N = 100 ou plus par segment, total N = 400 à 500
Estimation au niveau individuel (analyse détaillée des clients clés) : N ≥ 500

Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) est un ouvrage pratique qui organise le design d'échantillon MaxDiff à partir de l'expérience d'implémentation de Sawtooth Software, et qui sert de guide standard de référence sur le terrain.

Voir aussi Comment décider de la taille d'échantillon d'une enquête pour les bases du calcul de taille d'échantillon.

5. Calcul des scores — analyse par comptage vs bayésien hiérarchique

Il existe principalement 2 façons de calculer le « score de priorité de chaque item » à partir des données de réponse MaxDiff.

Analyse par comptage (version simplifiée)

Pour chaque item, agréger « nombre de fois choisi comme Best − nombre de fois choisi comme Worst »
Après agrégation, comparer entre items
Faisable sous Excel, interprétation simple, efficace si on veut juste un classement grossier au niveau du groupe

Cependant, l'analyse par comptage ne permet pas de produire des scores au niveau individuel ni des comparaisons fines par segment.

Estimation bayésienne hiérarchique (HB, Hierarchical Bayes)

Le score individuel de chaque répondant est estimé via distribution a priori (moyenne du groupe) + correction a posteriori (choix individuels)
Comme les scores au niveau individuel sont disponibles, on peut faire de la segmentation et du clustering
Standardement implémenté via le module HB de Sawtooth Software, ou les packages R bayesm / ChoiceModelR

Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices est une référence qui organise les modèles mathématiques (modèles d'utilité aléatoire, MNL) du choix Best-Worst, et constitue le fondement théorique de l'implémentation HB.

Comment choisir en pratique

Présentation au comité de direction du type « la fonctionnalité A est 3 fois plus importante que la B » → estimation HB (scores individuels → présentés en moyenne)
Comparer les priorités entre 5 segments → estimation HB (distributions a posteriori par segment)
Partager en interne, de façon synthétique, « ce qui est le plus prioritaire au Q1 » → l'analyse par comptage suffit

Les détails théoriques de l'estimation bayésienne sont mieux compris en parallèle de Agrégation d'enquête et tests de significativité — tableaux croisés, chi-deux, tailles d'effet, par contraste avec l'approche fréquentiste.

6. Arbitrer entre MaxDiff / conjoint / PSM

Comme trois méthodes phares des enquêtes prix / priorités, MaxDiff, conjoint et PSM sont fréquemment discutés ensemble. Chacune répond à une question différente et convient à des contextes différents.

Arbitrer entre MaxDiff / conjoint / PSM

MaxDiff (Maximum Difference Scaling)

Mesurer la priorité d'items individuels. Identifier « ce qui est le plus important » parmi 10 à 30 fonctionnalités / demandes. Conception relativement simple, charge cognitive modérée. Optimal pour la priorisation de fonctionnalités, le screening de concepts, le filtrage d'attributs.

Analyse conjointe

Présenter des combinaisons d'attributs et faire de la simulation de parts de marché. Puissante quand on compare des profils produit (prix × fonctionnalités × marque). Conception et analyse plus complexes que MaxDiff. Optimal pour l'évaluation de concept produit et la mesure d'élasticité-prix.

Van Westendorp PSM

Demander directement 4 points de prix — « trop cher », « trop bon marché », « raisonnable », etc. Conception la plus simple, mais on n'obtient qu'une « plage de prix » — pas de hiérarchie de fonctionnalités. Optimal pour l'exploration initiale de la plage de prix d'un nouveau produit.

Flux de décision en pratique

Décider « quoi développer en priorité » → MaxDiff
Voir « si ce prix + cet ensemble de fonctionnalités se vendra » → conjoint
Explorer « si on doit lancer à 3 000 / 5 000 / 8 000 ¥ » → PSM

Il y a aussi des cas où on les utilise en parallèle. Après avoir filtré les priorités de fonctionnalités avec MaxDiff, faire un conjoint intégrant les 3 fonctionnalités du top, et un PSM pour la plage de prix — c'est le pattern standard des projets de taille moyenne.

Voir L'analyse conjointe en pratique et Guide de conception du Van Westendorp PSM en parallèle, l'arbitrage entre ces trois méthodes sœurs apparaît clairement.

7. Le regard de la rédaction — 5 points qui font toujours mouche en implémentation MaxDiff

Du point de vue de quelqu'un qui suit en continu les cas du secteur et les articles publics des éditeurs, voici 5 points qui font toujours mouche en implémentation MaxDiff.

1. Réduire à 10–20 items avant de commencer

« On veut faire passer les 30 items en MaxDiff » — c'est une demande fréquente, mais avec 30 items, il faut environ 22 blocs par personne et la charge cognitive explose. Discuter en interne « ce qui reste clairement / ce qui dégage clairement » avant le MaxDiff et réduire à 20 items ou moins avant de lancer — c'est l'usage du terrain.

2. Aligner la granularité des items

Mettre côte à côte « prix bas » et « facilité d'utilisation du formulaire de contact » : les niveaux d'abstraction sont trop différents et le répondant ne peut pas comparer. Aligner consciemment la granularité (niveau d'abstraction) des items — par exemple, tout au niveau « catégorie fonctionnelle », ou tout au niveau « point de contact concret ».

3. Ne pas mélanger « importance » et « satisfaction »

Si on veut collecter à la fois « importance » et « satisfaction actuelle » avec MaxDiff dans la même enquête, les séparer dans des blocs distincts. Faire choisir « ce qui est important ET satisfaisant » dans le même bloc embrouille le répondant. Si on combine avec une analyse de modèle de Kano, le plus sûr est de concevoir cela comme une enquête séparée.

4. Vérifier l'affichage des blocs sur appareil réel en prétest

Sur les écrans de bloc MaxDiff, le texte des items se retrouve fréquemment coupé en plusieurs lignes sur mobile et devient illisible. Vérifier impérativement l'affichage sur iOS et Android avant la diffusion en production. Voir Checklist avant publication d'enquête pour le cadre de vérification pré-publication.

5. Dans le rapport, le triplet « score + classement + taille d'effet »

Présenter à un dirigeant juste « la fonctionnalité A vaut 28,5 points » ne passe pas. Aligner sur une seule page le triplet « score », « classement », « est-ce que l'écart fonctionnalité A vs B est statistiquement significatif ». Avec une estimation HB, le recouvrement des distributions a posteriori permet de montrer intuitivement la significativité.

8. Implémentation MaxDiff dans l'outil d'enquête Kicue

⚠️ Prérequis important : Kicue n'a pas de type de question MaxDiff dédié. Comparé aux outils spécialisés de recherche (Sawtooth Software / SurveyEngine / Conjoint.ly), les fonctions d'automatisation de la conception et de l'analyse sont limitées.

2 options pour implémenter MaxDiff avec Kicue

Option A : implémenter une substitution avec Kicue

On peut reproduire le comportement MaxDiff avec des blocs itérés de questions à réponse unique :

Répéter 12 fois la question à réponse unique « parmi les 4 items suivants, le plus important »
Répéter 12 fois la question à réponse unique « parmi les 4 items suivants, le moins important »
Changer le set d'items par bloc (générer en amont le BIBD dans Excel / R et copier-coller dans les choix de chaque question)
Après collecte des réponses, export CSV → estimation HB avec les packages R bayesm / ChoiceModelR

Cette méthode est suffisamment opérationnelle pour les « projets initiaux qui ne peuvent pas se permettre un outil dédié » et les « validations simples avec 10 à 15 items ».

Option B : utiliser conjointement avec un outil spécialisé

Pour les projets MaxDiff sérieux :

Sawtooth Software Discover / Lighthouse : standard du secteur, de la conception à l'analyse HB de bout en bout
SurveyEngine / Conjoint.ly : SaaS facile à mettre en place
Mener l'enquête principale avec ces outils, et utiliser Kicue pour les questions de screening ou les questions de profilage additionnelles

Limites de Kicue

Génération automatique du BIBD → générer en amont avec un outil externe (R support.BWS / Sawtooth) et copier-coller dans Kicue
Estimation bayésienne hiérarchique → export CSV → R bayesm / module HB Sawtooth
Affichage de scores au niveau individuel dans le dashboard → outil BI externe (Tableau / Looker)
Aléatoirisation automatique de l'affichage des blocs → couverture partielle avec la fonction d'aléatorisation des choix de Kicue, l'équilibrage des paires entre items reste un contrôle manuel

Comme articles connexes, Guide de conception du Van Westendorp PSM, L'analyse conjointe en pratique, Guide de conception de l'échelle de Likert et Conception des questions de screening à lire en parallèle font apparaître l'arbitrage entre ces trois méthodes sœurs, ainsi que le design du screening en amont du MaxDiff.

Références

Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis: A novel method of measuring values in marketing research. Journal of Marketing Research, 27(4), 437-444.
Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices. Journal of Mathematical Psychology, 49(6), 464-480.
Orme, B. K. (2010). Getting Started with Conjoint Analysis: Strategies for Product Design and Pricing Research (2nd ed.). Research Publishers.
Cohen, S. H. (2003). Maximum difference scaling: Improved measures of importance and preference for segmentation. Sawtooth Software Research Paper.
Flynn, T. N., Louviere, J. J., Peters, T. J., & Coast, J. (2007). Best-worst scaling: What it can do for health care research and how to do it. Journal of Health Economics, 26(1), 171-189.

Si vous souhaitez mesurer les priorités de fonctionnalités ou les rankings de demandes avec une haute précision, essayez l'outil d'enquête gratuit Kicue. Implémentation de substitution de MaxDiff avec des blocs itérés de réponse unique, contrôle de l'ordre d'affichage avec la fonction d'aléatorisation des options, et intégration avec R / Sawtooth via l'export CSV — vous pouvez commencer la phase de vérification initiale de MaxDiff en un seul compte (la génération de BIBD, l'estimation bayésienne hiérarchique et l'analyse au niveau individuel nécessitent des outils spécialisés comme Sawtooth Software / SurveyEngine / R bayesm).