Analyse des données avec le logiciel ACPr

Fournisseur n° 1

Fournisseur n° 2

Fournisseur n° 3

Fournisseur n° 4

Fournisseur n° 5

Supposons que l´on veuille examiner les réponses à un questionnaire d´auto-évaluation de systèmes qualité rempli par des fournisseurs. On aura par exemple à traiter un ensemble de données similaire à celui reproduit dans le tableau 1.

Tableau 1
Synthèse des réponses au questionnaire.
Les colonnes Q1 à Q6 sont des questions portant sur les systèmes qualité pour lesquelles
il a été demandé au fournisseurs de s´auto-évaluer en s´attribuant une note de 0 à 10.

Avec deux questions (Q1 et Q2) on peut facilement traiter le questionnaire en représentant graphiquement les fournisseurs dans un plan comme l´exemple de la figure 1. Avec trois questions, cela devient un peu plus difficile, mais on peut encore y arriver en faisant de la géométrie dans l´espace. Au-delà c´est quasiment impossible sans avoir recours à l´analyse en composante principale. Malheureusement, les questionnaires comportent souvent plus de trois questions...

Fig. 1. - Traitement d´une enquête avec uniquement deux questions.

Dans le tableau précédent, les questions sont en fait appelées des caractères. Les caractères peuvent être qualitatifs ou quantitatifs. On ne s´intéressera ici qu´au caractères quantitatifs. Si tel n´est pas le cas, il faudra soit recourir à d´autres méthodes de l´analyse des données ou les transformer en variables quantitatives. Dans le cas général, les objets reportés dans les lignes du tableau (ici les fournisseurs) sont appelés des individus.

Si l´on voulait représenter graphiquement les données du tableau 1, on serait conduit à représenter les cinq individus dans un espace à six dimensions. Cela n´étant pas possible, on va chercher à réduire le nombre de données (on parle également de méthode factorielle) pour les rendre plus facilement représentables dans un espace de dimensions moindres. Néanmoins, en réduisant le nombre de dimensions pour passer par exemple d´un espace à six dimensions à un espace à deux dimensions, il est clair que l´on va perdre de l´information par rapport au données de base. L´objectif est donc de faire en sorte que cette perte soit minimale.

Considérons par exemple un nuage de points dans un espace à trois dimensions. Pour en avoir une vision plus simple on peut projeter ce nuage sur un plan comme indiqué sur la figure 2.

Fig. 2. - Projection du nuage de points sur un plan.

Néanmoins, on voit bien que l´on perd une partie de l´information puisque l´éloignement entre les ensembles de points {a, b, c} et {d ,e} n´apparaît pas sur leurs projections. De cette remarque on peut déduire qu´une partie de l´information se trouve dans l´éloignement des points projetés. Il faudra également toujours être vigilant en interprétant les résultats d´une analyse en composante principale. Par exemple en examinant uniquement les projections des points de la figure 2, on conclurait qu´il y a deux groupes d´individus qui présentent des similitudes {a, b, e} et {c, d} ; ce qui est faux. En résumé, l´analyse en composante principale est un outil très puissant car il permet de distinguer des tendances, d´opérer des regroupement, mais, il ne dispense pas d´un regard critique.

La perte d´information est inévitable puisque la somme des distances entre les points projetés est inférieure à la somme des distances entre les points de départ. L´objectif de l´analyse en composante principale va donc être de perdre le moins d´information possible en trouvant le plan qui maximise la somme des distances des points projetés. Pour une norme donnée, ce plan est unique et s´appelle le plan principal.

Dans un premier temps on recherche une droite sur laquelle la somme des distances entre les points projetés est maximale. Dans un second, on recherche la droite orthogonale à la première sur laquelle la somme des distances entre les points projetés est également maximale. De même, on réitère l´opération jusqu´à ce que l´on obtienne à l´aide de vecteurs directeurs des droites une base ayant la même dimension que l´espace de départ. On peut donc définir un système d´axes dont on démontre qu´il est centré sur le centre d´inertie du nuage de points (on parle d´axes principaux). A chacun de ces axes on associe des valeurs propres qui représentent la variance en projection du nuage sur l´axe considéré. Compte tenu de ce qui précède, si l´on note l_i la valeur propre du i^ème axe, on aura pour un espace à n dimensions l₁ > ... > l_i > ... > l_n. Si l´on ne conserve qu´un plan, l´idéal sera donc que l₁ et l₂ soient grandes devant les autres valeurs propres (ce qui voudra alors dire que l´essentiel de l´information est contenue dans le plan principal).

L´exemple qui suit a été réalisé à l´aide du gratuiciel ACPr téléchargeable librement au paragraphe 5.

Soit à étudier les donnés représentées dans le tableau 2. D´emblée il semble très difficile de tirer une conclusion de cette table.

Tableau 2
Structure fonctionnelle des dépenses de l´Etat (1872-1971) (en %).
Source : C. André et R. Delorme, L´évolution des dépenses
publiques en France (1872-1971), rapport Cordes, Cepremap, 1976.

Ces données figurent dans le fichier exemple1.mbt du logiciel ACPr. En sélectionnant l´option Affichage|Fiche caractères du logiciel, on obtient la liste des caractères avec les abréviations utilisées notamment pour les représentations graphiques.

Fig. 3. - Fiche d´identification des caractères.

De même en sélectionnant l´option Affichage|Fiche individus du logiciel on obtient les données du tableau 2 (cf. figure 4).

Nous pouvons dès lors lancer les calculs et l´on obtient l´écran suivant donnant la matrice des corrélations entre caractères.

Fig. 5. - Table des résultats : matrice des corrélations.
(Cliquez sur l´image pour agrandir)

La matrice des corrélations montre déjà des corrélations assez fortes entre : les dépenses de logement et d´aménagement du territoire (LOG) et les dépenses pour le commerce et l´industrie (CMI) ; les dépenses consacrées à l´éducation (EDU) et les dépenses consacrées à l´action sociale (ACS).
Il faudrait alors poursuivre l´étude en étudiant les caractères deux à deux.

L´onglet concernant les valeurs propres révèle que 64 % de l´information est contenue dans le plan principal. En sélectionnant l´onglet du plan principal, on obtient le graphique représenté sur la figure 6.

Fig. 6. - Individus représentés dans le plan principal.

Sur ce graphique on voit alors apparaître quatre groupes d´individus qui correspondent à des politiques différentes délimitées par les deux guerres mondiales (ce qui n´apparaissait pas évident au vu du premier tableau...). Néanmoins d´après le tableau des cosinus donné dans l´onglet plan principal du logiciel, il apparaît que les années 1938 et 1953 ne sont pas significatives sur le graphique.

Au vu de la figure 6, on peut se demander ce que représentent les axes. En fait la réponse est donnée en cliquant sur l´onglet donnant le cercle des corrélations du logiciel ACPr. On obtient alors la figure 7.

Ce cercle traduit les corrélations entre les caractères et les axes. Par exemple on voit que l´axe horizontal est fortement corrélé avec les dépenses pour l´action sociale (ACS) vers les valeurs positives et avec les dépenses consacrées à la dette (DET) vers les valeurs négatives. Si l´on applique cette remarque à la figure 6, on déduit que les diverses politiques ont au fil du temps été de plus en plus consacrées à l´action sociale et de moins en moins à la dette. De même, l´axe horizontal traduit une opposition entre des politiques consacrées aux anciens combattants et des politiques consacrées aux pouvoirs publics.

ACPr est un logiciel d´analyse en composantes principales permettant simplement de :

Fig. 8. - Le logiciel ACPr.
(Cliquez sur l´image pour l´agrandir)