![]() |
1. Position du problème et définitions
Supposons que l´on veuille examiner les réponses à un questionnaire d´auto-évaluation de systèmes qualité rempli par des fournisseurs. On aura par exemple à traiter un ensemble de données similaire à celui reproduit dans le tableau 1.
| Q1 | Q2 | Q3 | Q4 | Q5 | Q6 | |
| Fournisseur n° 1 | 8 | 8 | 8 | 9 | 6 | 1 |
| Fournisseur n° 2 | 5 | 7 | 8 | 9 | 9 | 8 |
| Fournisseur n° 3 | 9 | 9 | 10 | 8 | 9 | 9 |
| Fournisseur n° 4 | 8 | 9 | 10 | 7 | 10 | 8 |
| Fournisseur n° 5 | 10 | 10 | 10 | 10 | 10 | 10 |
Avec deux questions (Q1 et Q2) on peut facilement traiter le questionnaire en représentant graphiquement les fournisseurs dans un plan comme l´exemple de la figure 1. Avec trois questions, cela devient un peu plus difficile, mais on peut encore y arriver en faisant de la géométrie dans l´espace. Au-delà c´est quasiment impossible sans avoir recours à l´analyse en composante principale. Malheureusement, les questionnaires comportent souvent plus de trois questions...

Dans le tableau précédent, les questions sont en fait appelées des caractères. Les caractères peuvent être qualitatifs ou quantitatifs. On ne s´intéressera ici qu´au caractères quantitatifs. Si tel n´est pas le cas, il faudra soit recourir à d´autres méthodes de l´analyse des données ou les transformer en variables quantitatives. Dans le cas général, les objets reportés dans les lignes du tableau (ici les fournisseurs) sont appelés des individus.
Si l´on voulait représenter graphiquement les données du tableau 1, on serait conduit à représenter les cinq individus dans un espace à six dimensions. Cela n´étant pas possible, on va chercher à réduire le nombre de données (on parle également de méthode factorielle) pour les rendre plus facilement représentables dans un espace de dimensions moindres. Néanmoins, en réduisant le nombre de dimensions pour passer par exemple d´un espace à six dimensions à un espace à deux dimensions, il est clair que l´on va perdre de l´information par rapport au données de base. L´objectif est donc de faire en sorte que cette perte soit minimale.
Considérons par exemple un nuage de points dans un espace à trois dimensions. Pour en avoir une vision plus simple on peut projeter ce nuage sur un plan comme indiqué sur la figure 2.

Néanmoins, on voit bien que l´on perd une partie de l´information puisque l´éloignement entre les ensembles de points {a, b, c} et {d ,e} n´apparaît pas sur leurs projections. De cette remarque on peut déduire qu´une partie de l´information se trouve dans l´éloignement des points projetés. Il faudra également toujours être vigilant en interprétant les résultats d´une analyse en composante principale. Par exemple en examinant uniquement les projections des points de la figure 2, on conclurait qu´il y a deux groupes d´individus qui présentent des similitudes {a, b, e} et {c, d} ; ce qui est faux. En résumé, l´analyse en composante principale est un outil très puissant car il permet de distinguer des tendances, d´opérer des regroupement, mais, il ne dispense pas d´un regard critique.
La perte d´information est inévitable puisque la somme des distances entre les points projetés est inférieure à la somme des distances entre les points de départ. L´objectif de l´analyse en composante principale va donc être de perdre le moins d´information possible en trouvant le plan qui maximise la somme des distances des points projetés. Pour une norme donnée, ce plan est unique et s´appelle le plan principal.
Dans un premier temps on recherche une droite sur laquelle la somme des distances entre les points projetés est maximale. Dans un second, on recherche la droite orthogonale à la première sur laquelle la somme des distances entre les points projetés est également maximale. De même, on réitère l´opération jusqu´à ce que l´on obtienne à l´aide de vecteurs directeurs des droites une base ayant la même dimension que l´espace de départ. On peut donc définir un système d´axes dont on démontre qu´il est centré sur le centre d´inertie du nuage de points (on parle d´axes principaux). A chacun de ces axes on associe des valeurs propres qui représentent la variance en projection du nuage sur l´axe considéré. Compte tenu de ce qui précède, si l´on note li la valeur propre du ième axe, on aura pour un espace à n dimensions l1 > ... > li > ... > ln. Si l´on ne conserve qu´un plan, l´idéal sera donc que l1 et l2 soient grandes devant les autres valeurs propres (ce qui voudra alors dire que l´essentiel de l´information est contenue dans le plan principal).
3. Exemple d´analyse en composantes principales
L´exemple qui suit a été réalisé à
l´aide du gratuiciel ACPr téléchargeable librement au paragraphe 5.
Soit à étudier les donnés représentées dans
le tableau 2. D´emblée il semble très difficile de tirer une conclusion
de cette table.

Ces données figurent dans le fichier exemple1.mbt du logiciel ACPr. En sélectionnant l´option Affichage|Fiche caractères du logiciel, on obtient la liste des caractères avec les abréviations utilisées notamment pour les représentations graphiques.

De même en sélectionnant l´option Affichage|Fiche individus du logiciel on obtient les données du tableau 2 (cf. figure 4).

Nous pouvons dès lors lancer les calculs et l´on obtient l´écran suivant donnant la matrice des corrélations entre caractères.
La matrice des corrélations montre déjà des
corrélations assez fortes entre :
les dépenses de logement et d´aménagement du territoire (LOG) et les
dépenses pour le commerce et l´industrie (CMI) ;
les dépenses consacrées à l´éducation (EDU) et les
dépenses consacrées à l´action sociale (ACS).
Il faudrait alors poursuivre l´étude en étudiant les caractères
deux à deux.
L´onglet concernant les valeurs propres révèle que
64 % de l´information est contenue dans le plan principal. En sélectionnant
l´onglet du plan principal, on obtient le graphique représenté sur la
figure 6.

Sur ce graphique on voit alors apparaître quatre groupes d´individus qui correspondent à des politiques différentes délimitées par les deux guerres mondiales (ce qui n´apparaissait pas évident au vu du premier tableau...). Néanmoins d´après le tableau des cosinus donné dans l´onglet plan principal du logiciel, il apparaît que les années 1938 et 1953 ne sont pas significatives sur le graphique.
Au vu de la figure 6, on peut se demander ce que représentent les axes. En fait la réponse est donnée en cliquant sur l´onglet donnant le cercle des corrélations du logiciel ACPr. On obtient alors la figure 7.

Ce cercle traduit les corrélations entre les caractères et les axes. Par exemple on voit que l´axe horizontal est fortement corrélé avec les dépenses pour l´action sociale (ACS) vers les valeurs positives et avec les dépenses consacrées à la dette (DET) vers les valeurs négatives. Si l´on applique cette remarque à la figure 6, on déduit que les diverses politiques ont au fil du temps été de plus en plus consacrées à l´action sociale et de moins en moins à la dette. De même, l´axe horizontal traduit une opposition entre des politiques consacrées aux anciens combattants et des politiques consacrées aux pouvoirs publics.
4. Cas des variables qualitatives
Il est possible d´inclure des variables qualitatives dans certains cas :
ACPr est un logiciel d´analyse en composantes principales permettant simplement de :