Agréger des données d'enquête dans Excel — 5 étapes de CSV au test du chi-deux

Télécharger un CSV depuis un outil d'enquête, l'agréger dans Excel et en faire un rapport — c'est la tâche la plus fréquente dans la conduite de recherches, mais sur le terrain, on voit souvent des erreurs de configuration de champs de tableau croisé dynamique, des caractères corrompus en UTF-8 et des erreurs d'arguments de la fonction TEST.KHIDEUX faire perdre 1 à 2 heures. Dans cet article, nous organisons en 5 étapes pour terminer en 30 minutes la procédure complète, de l'importation du CSV dans Excel jusqu'à l'agrégation GT, au tri croisé, au test du chi-deux et à la création de graphiques.

Chaque étape s'accompagne de points d'attention « là où beaucoup échouent » et de liens vers des articles spécialisés pour approfondir.

Étape 1: Importer le CSV dans Excel (parade contre les caractères corrompus en UTF-8)

Le premier obstacle lorsqu'on manipule un CSV dans Excel, ce sont les caractères corrompus en japonais ou en français accentué. Si vous ouvrez le fichier CSV directement par double-clic, les fichiers UTF-8 sans BOM s'affichent avec des « ? » ou des caractères aléatoires. Ouvrez toujours via « Obtenir des données ».

Procédure:

Lancez Excel → onglet « Données » → choisissez « À partir d'un fichier texte/CSV »
Sélectionnez le fichier CSV
Origine du fichier: spécifiez « 65001 : Unicode (UTF-8) »
Délimiteur: choisissez « Virgule »
Détection du type de données: « Fichier entier » recommandé
Cliquez sur « Charger »

Là où beaucoup échouent: ils ouvrent par double-clic, obtiennent des caractères corrompus → retéléchargent → redouble-cliquent, et tombent dans une boucle infinie. Prendre l'habitude de passer dès le départ par « Obtenir des données » permet de l'éviter.

Pour plus de détails, voir le guide complet du nettoyage de données d'enquête qui organise la détection pratique des réponses invalides (straightliners / speeders) après l'importation.

Étape 2: Créer une agrégation GT avec un Tableau croisé dynamique

L'agrégation GT (agrégation globale) est le travail de base consistant à sortir « le nombre et le pourcentage de réponses par option pour chaque question ». Un Tableau croisé dynamique le fait en un coup.

Procédure:

Sélectionnez la plage de données → « Insertion » → « Tableau croisé dynamique » → « OK »
Faites glisser la colonne de la question à agréger dans la zone « Lignes »
Faites glisser la même colonne de question dans la zone « Valeurs » (comptage automatique)
Paramètres du champ de valeur → « Afficher les valeurs » → « % du total de la colonne » pour l'affichage en %
Clic droit sur « Étiquettes de ligne » → « Trier » par ordre décroissant du nombre

Là où beaucoup échouent: lorsqu'une question à réponses multiples (MA) est dans une seule colonne séparée par des virgules, l'agrégation par Tableau croisé dynamique ne fonctionne pas. Il faut d'abord développer en plusieurs colonnes avec « Données » → « Convertir », ou vérifier dans l'outil (Kicue, etc.) le paramétrage pour exporter les MA en colonnes séparées.

Étape 3: Créer un tri croisé (attribut × question)

Le tri croisé est une agrégation qui examine la relation entre deux questions, et c'est le plus utilisé pour la prise de décision en recherche. Exemple: « Comment la satisfaction varie-t-elle selon l'âge ? ».

Procédure:

Créez un nouveau Tableau croisé dynamique (même plage de données)
« Lignes »: question d'attribut (ex.: tranche d'âge)
« Colonnes »: question d'évaluation (ex.: satisfaction)
« Valeurs »: nombre (faites glisser n'importe quelle colonne et choisissez « Nombre »)
Paramètres du champ de valeur → « Afficher les valeurs » → « % du total de la ligne » pour afficher le % par ligne

Vous voyez ainsi en % la « distribution de la satisfaction par tranche d'âge ».

Là où beaucoup échouent: se réjouir ou s'inquiéter en regardant les % de cellules à petit N (N < 30). Même si « la satisfaction des 40 ans est à 80 % », si N=5, la marge d'erreur est grande et cela ne peut pas servir de base à une décision. Toujours afficher N et % ensemble est indispensable.

Pour plus de détails, voir Agrégation d'enquête et test de significativité — usage du tri croisé, du test du chi-deux et de la taille d'effet qui organise les 5 patterns à examiner en tri croisé.

Étape 4: Test du chi-deux (fonction TEST.KHIDEUX)

Si vous pensez « il semble y avoir une différence » à partir du tri croisé, le test du chi-deux permet de déterminer s'il s'agit d'une différence statistiquement significative ou d'une variation due au hasard. La fonction TEST.KHIDEUX (ou CHISQ.TEST selon la version) d'Excel permet de l'exécuter.

Procédure:

Copiez les valeurs observées du tri croisé sur une autre feuille (excluez les cellules de sous-totaux ligne / colonne, gardez uniquement le corps)
Créez une matrice de valeurs attendues de même taille. Chaque cellule: =ARRONDI(total_ligne*total_colonne/total_général; 2)
Exécutez la fonction TEST.KHIDEUX: =TEST.KHIDEUX(plage_observée; plage_attendue)
Le résultat (valeur p) s'affiche
Si la valeur p ≤ 0,05, on considère qu'il existe une différence statistiquement significative

Exemple: =TEST.KHIDEUX(B2:D4; F2:H4) → si le résultat est 0,023, alors « la différence de satisfaction par tranche d'âge est statistiquement significative ».

Là où beaucoup échouent: oublier le calcul des valeurs attendues et passer deux fois la plage observée. TEST.KHIDEUX exige deux arguments: la « plage observée » et la « plage attendue ». Si vous ne passez que les valeurs observées, vous obtenez un résultat sans signification.

De plus, ne pas juger uniquement sur la valeur p. Avec un grand échantillon, même de petites différences deviennent significatives, donc le standard académique est de l'examiner conjointement avec la taille d'effet (V de Cramér). Pour plus de détails, voir également le guide d'agrégation et de test de significativité qui organise le calcul et l'interprétation de la taille d'effet.

Étape 5: Création de graphiques et partage interne

Coller les valeurs agrégées telles quelles dans PPT / Word ne communique rien. Choisissez le graphique optimal selon le type de question et mettez en forme le rapport.

Graphique optimal par type de question:

Réponse unique (SA): graphique en barres (barres horizontales recommandées)
Réponses multiples (MA): graphique en barres
Échelle de Likert: graphique en barres empilées divergentes (divergent stacked bar)
Tri croisé: graphique en barres groupées / mosaïque
Série temporelle: graphique en courbes

Conditions minimales de mise en forme:

Toujours ajouter étiquettes d'axes, légende, titre, source des données
Indiquer N= sur chaque graphique
Limiter à 3 couleurs maximum (couleur de fond comprise)

Là où beaucoup échouent: utiliser un graphique en camembert avec 5 segments ou plus. La comparaison visuelle devient difficile et la charge cognitive du lecteur augmente. Au-delà de 5 segments, le graphique en barres est la norme.

Pour plus de détails, voir le guide de visualisation des résultats d'enquête qui organise les graphiques optimaux par type de question et les 5 patterns dangereux à éviter.

Le point de vue de la rédaction — 3 points pour rendre l'agrégation Excel efficace

Du point de vue de ceux qui suivent en continu les cas d'usage du secteur et les voix des praticiens, voici 3 points pour rendre l'agrégation Excel efficace.

Créez des feuilles modèles: faites un modèle Excel pour le GT, le tri croisé et le chi-deux, et adoptez un fonctionnement où vous ne remplacez que les données pour les projets suivants. Tout refaire de zéro à chaque fois fait passer de 30 minutes à 2 heures.
Ne modifiez jamais la feuille de données brutes: effectuez les calculs et la création de graphiques sur une autre feuille, conservez les données brutes en sauvegarde. Écraser les données brutes par erreur entraîne des accidents irrécupérables, ce qui arrive fréquemment.
Toujours afficher « N= » avec les résultats agrégés: « Satisfaction 60 % (N=120) » est un meilleur élément de décision que « Satisfaction 60 % ». Les résultats à petit échantillon induisent en erreur, donc afficher N est la littéracie minimale.

Export CSV avec l'outil d'enquête Kicue

L'export CSV de Kicue est généré dans un format facile à mettre dans le flux d'agrégation Excel de ce guide:

Encodage UTF-8: structure peu sujette aux caractères corrompus lors de l'importation dans Excel
En-têtes de colonnes incluant le texte de la question: lisibles par l'humain dès la première ligne, pas besoin de rechercher les ID de questions séparément
Colonne ID de répondant: utilisable pour joindre les attributs en tri croisé ou pour extraire des candidats d'interview de suivi (extraction de répondants d'un segment spécifique)
Colonnes indépendantes par question: structure permettant directement l'agrégation par Tableau croisé dynamique

Le format de sortie des réponses multiples (MA) dépend du paramétrage lors de la conception de la question, donc avant l'agrégation par Tableau croisé dynamique, un découpage de colonnes par Convertir comme à l'Étape 2 peut être nécessaire dans certains cas. La procédure de cet article permet d'y répondre.

À noter que le test du chi-deux et le calcul de la taille d'effet sont réalisés de manière réaliste avec les fonctions standard d'Excel / R / Python / SPSS / JASP, et Kicue lui-même ne fournit pas de fonctions d'analyse statistique. Il est conçu en supposant un flux export CSV → outil externe.

Récapitulatif — 5 étapes en 30 minutes

Étape 1 Import CSV: spécifiez UTF-8, évitez le double-clic → guide de nettoyage de données
Étape 2 Agrégation GT: Tableau croisé dynamique en un coup, prédécouper les MA → guide d'agrégation et de test de significativité
Étape 3 Tri croisé: afficher en % de ligne, afficher N et % conjointement → guide d'agrégation et de test de significativité
Étape 4 Test du chi-deux: passez les 2 plages observée + attendue à TEST.KHIDEUX → guide d'agrégation et de test de significativité
Étape 5 Création de graphiques: graphique optimal par type de question, au-delà de 5 segments en barres → guide de visualisation

Ainsi, la base d'un rapport est terminée en 30 minutes. Les prochaines étapes à franchir sont la conception opérationnelle de la modélisation et de la protection des données brutes.

Si vous souhaitez exporter des CSV dans un format facile à agréger dans Excel, essayez l'outil d'enquête gratuit Kicue. CSV encodé en UTF-8 facile à importer dans Excel, données structurées avec des colonnes d'ID de répondant, et colonnes indépendantes par question — vous pouvez commencer les 5 étapes d'agrégation Excel de ce guide depuis un seul compte (les analyses statistiques avancées, le calcul de la taille d'effet et la création de Joint Display nécessitent une intégration avec R / Python / SPSS / JASP).

Références

Field, A. (2017). Discovering Statistics Using IBM SPSS Statistics (5th ed.). SAGE Publications.

Agréger des données d'enquête dans Excel — 5 étapes de CSV au test du chi-deux

Étape 1: Importer le CSV dans Excel (parade contre les caractères corrompus en UTF-8)

Étape 2: Créer une agrégation GT avec un Tableau croisé dynamique

Étape 3: Créer un tri croisé (attribut × question)

Étape 4: Test du chi-deux (fonction TEST.KHIDEUX)

Étape 5: Création de graphiques et partage interne

Le point de vue de la rédaction — 3 points pour rendre l'agrégation Excel efficace

Export CSV avec l'outil d'enquête Kicue

Récapitulatif — 5 étapes en 30 minutes

Références

Articles liés

Créer un sondage anonyme — 5 étapes pour empêcher la ré-identification

Comment calculer le CSAT — 5 étapes avec la Top 2 Box

Comment calculer le NPS — 5 étapes avec promoteurs et détracteurs