Analyse en composante principale-Cours Poster un commentaire 

 

Analyse en composante principale

ACP logicielCliquer

Sommaire

  1. Analyse en composante principale
    1. Logiciels
    2. Principe
    3. Notion de composante principale
    4. Les Vecteurs propres des variables
  2. Exemples
    1. Tableau de données
    2. Nuage de points : Rélation entre les variables
    3. Valeurs propres
    4. Plan des variables
    5. Plan des individus
    6. Contribution des individus aux composantes en %
    7. Représentation 3D
    8. Les individus supplementaires
    9. Les variables supplémentaires ou illustratifs
    10. Représentation des individus dans le plan en fonction de leur groupe
    11. Références

Logiciels

logiciel
Ce logiciel d'interface graphique a été réalisé en combinant R/C++/QT.
Il vous offre la possibilité de faire :

  • une ACP
  • une Réprésentation graphique du plan des individus en 2D et 3D
  • Réprésentation graphique des variables - cercle de corrélation
  • Prédiction de la position d' individus ou de variables supplémentaires n'ayant pas participés à l'ACP
  • Génération d'un fichier txt contenant le details de l'ACP
  • Génération d'un fichier pdf contenant les graphiques.

Principe

L'ACP permet de synthétiser l'information contenue dans un tableau de données (n colonnes * p lignes). Elle permet d'identifier une éventuelle similarité entre les individus et de determiner la liaison entre les variables.

Les données sont tout d'abord centrées et réduites c'est à dire que chaque variable a une moyenne =0 et un écart type = 1.

Notion de composante principale et de valeurs propres ou de pourcentage d'inertie

Lorsque l'on a un tableau contenant n variables, ceci correspond à n axes (n dimensions) sous lesquels il faut representer les individus. Le principe de l'ACP consiste à projetter les données dans un espace de dimensions inferieures permettant une analyse facile des données. Il faut donc remplacer les n anciens axes par de nouveaux axes. Ces nouveaux axes (Ck) sont appelés composantes principales et s'expriment comme une combinaison linaire des anciens axes (anciennes variables).

Ck = ak1x1 +ak2x2 .......+ akmxm

- Les coefficients de ces combinaisons linéaires sont fournis par le logiciel; c'est eux qui définissent les
nouveaux axes :

  • ils permettent de calculer les nouvelles coordonnées d'un point-individu à partir des anciennes
  • ils permettent également de voir le poids d'une ancienne variable dans la définition d'un facteur. Le repérage des variable d'origine correspondant aux coefficients les plus élevés en valeur absolu permet de dégager une interprétation des facteurs.

Choix des composantes principales

Le prémier axe principal est l'axe suivant lequel on a la plus grande dipersion du nuage de points (le plus grand allongement du nuage de points), permettant de distinguer au mieux les points. On dit en terme statistique, que c'est l'axe qui a la plus grande variance ou pourcentage d'inertie. La variance ou l'inertie d'un axe principal est encore appelée valeur propre.

Le 2ème axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie résiduelle après la prémière composante. Ainsi de suite jusqu'à remplacer les n axes anciens par m axes nouveaux.

Pourcentage d'inertie : valeurs propres ou variances associées aux axes

Le pourcentage d'inertie ou de dipersion représente la quantité d'information recueillie par un axe principal.
L'analyse ACP es pertinent lorsqu'on arrive avec un petit nombre d'axes à synthétiser le maximum de l'information (80% de l'information par exemple). En général on poursuit l'analyse si on arrive avec 3 ou 4 axes à conserver le maximum de l'information.

Les Vecteurs propres des variables

Les vecteurs propres sont les coefficients à affecter aux variables initiales pour obtenir les composantes principales.

Pour une variable donnée, il existe un lien entre la corrélation et le vecteur propre suivant une composante donnée:
Vecteurs propres = corrélation_avec_axe/Sdev_axe.

NOM Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
VAR1 -0.425 0.124 -0.354 0.808 -0.152 -0.059
VAR2 -0.422 0.416 -0.185 -0.358 0.294 -0.633
VAR3 -0.421 -0.412 0.068 -0.28 -0.731 -0.19
VAR4 -0.387 -0.446 0.605 0.212 0.478 -0.11
VAR5 -0.431 -0.243 -0.484 -0.302 0.305 0.581
VAR6 -0.359 0.62 0.485 -0.074 -0.189 0.459


Pour chaque individu la prémière composante principale s'obtient par exemple avec la formule :

(-0.425*VAR1)+(-0.422*VAR2)+....+....(0.359*VAR6).

Exemples

Tableau de données

Modele VAR1 VAR2 VAR3 VAR4 VAR5 VAR6
IND1 1350 79 393 161 870 165
IND2 1588 85 468 177 1110 160
IND3 1294 68 424 168 1050 152
IND4 1222 59 412 161 930 151
IND5 1585 98 439 164 1105 165
IND6 1297 82 429 169 1080 160
IND7 1796 79 449 169 1160 154
IND8 1565 55 424 163 1010 140
IND9 2664 128 452 173 1320 180
IND10 1166 55 399 157 815 140
IND11 1570 109 428 162 1060 175
IND12 1798 82 445 172 1160 158
IND13 1998 115 469 169 1370 160
IND14 1993 98 438 170 1080 167
IND15 1442 80 431 166 1129 144
IND16 1769 83 440 165 1095 165
IND17 1979 100 459 173 1120 173
IND18 1294 68 404 161 955 140

Le tableau contient 18 individus avec 6 variables décrivant les individus.


Nuage de points : Rélation entre les variables

Chaque variable est représentée en fonction des autre variables permettant de voir la rélation entre les variables 2 par 2.

Rélation entre les variables


Valeurs propres - Variances - pourcentage d'inertie de chaque composante

Tableau des valeurs propres

NOM Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
Variance 4.42 0.86 0.37 0.21 0.09 0.04
% de Variance 73.68 14.27 6.22 3.57 1.55 0.72
% de Variance cumulée 73.68 87.95 94.17 97.73 99.28 100

Graphiques des valeurs propres

valeurs propres Le tableau ci-dessus et la figure ci-contre , montre qu'uniquement avec les composantes 1 et 2 on a 88% de l'information. Avec cette analyse on peut s'en tenir aux 2 premiers axes


Plan des variables

Le cercle de corrélation

Les variables sont projetées dans un cercle de rayon 1 appelé cercle des corrélations. Lorsqu'une variable est proche du bord du cercle, on dit qu'il est bien représenté par le plan factoriel. Cette variable est alors bien correlée avec les 2 facteurs principaux constituant ce plan.

Le cercle permet de voir la corrélation ou la liaison entre les variables.

La corrélation entre 2 points variables est égale au cosinus de l'angle entre les 2 variables. Plus cet angle est petit plus la corrélation est forte.

- Si l'angle = 90° => Cos = 0 => pas de corrélation
- Si l'angle = 180° => Cos = -1 => Corrélation inverse forte entre les 2 variables.

cercle de corrélation
Le cercle des corrélations permet de voir, parmi les anciennes variables, les groupes de variables très corrélées entre elles.

Remarque :
Dans le cercle ci-dessus, toutes les variables sont bien représentées par le plan. On note une très forte corrélation entre la variable 3 et 4.

Coordonnées des variables - Coefficient de corrélation des variables avec les différentes composantes

NAME Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
VAR1 -0,89 0,11 -0,22 0,37 -0,05 -0,01
VAR2 -0,89 0,38 -0,11 -0,17 0,09 -0,13
VAR3 -0,89 -0,38 0,04 -0,13 -0,22 -0,04
VAR4 -0,81 -0,41 0,37 0,10 0,15 -0,02
VAR5 -0,91 -0,22 -0,30 -0,14 0,09 0,12
VAR6 -0,75 0,57 0,30 -0,03 -0,06 0,10

Qualité de la représentation des variables par l'ACP - Corrélation au carré = COS^2

La qualité de la représentation d'une variable selon un axe principal est donné par le carré de son coefficient de corrélation avec cet axe et représente le cosinus carré. COS2 = COR*COR

NOM Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
VAR1 0.8 0.01 0.05 0.14 0 0
VAR2 0.79 0.15 0.01 0.03 0.01 0.02
VAR3 0.79 0.15 0 0.02 0.05 0
VAR4 0.66 0.17 0.14 0.01 0.02 0
VAR5 0.82 0.05 0.09 0.02 0.01 0.01
VAR6 0.57 0.33 0.09 0 0 0.01


Pour chaque variable la somme horizontale(lorsque l'on prend toutes les composantes) est égale à 1 (100%)

La variable VAR1 est représentée à 80% par la composante 1.

La qualité de la représentation d'une variable sur les axes selectionnés est la somme des COS2 des axes. Par exemple la La qualité de la représentation de la variable VAR2 par le plan formé par les composantes 1 et 2 = 0.79+0.15=0.94

Poids d'une variable dans la definition d'une composante principale

C'est la part en % du COS2 de la variable. Par exemple le poids de la variable VAR1 dans la définition de la composante 1 est : 0.8*100/(0.8+0.79+0.79+0.66+0.82+0.57) = 18%.

NOM Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
VAR1 18.057 1.542 12.504 65.252 2.298 0.347
VAR2 17.791 17.287 3.42 12.802 8.628 40.073
VAR3 17.763 16.959 0.457 7.826 53.373 3.621
VAR4 14.971 19.899 36.587 4.476 22.867 1.2
VAR5 18.534 5.889 23.464 9.103 9.276 33.734
VAR6 12.884 38.423 23.568 0.541 3.559 21.024


La somme verticale =100%

Le poids de la variable 1 dans la definition de la composante est de 18% alors qu'elle n'est que de 1.5% pour la definition de la composante 2.

Plan des individus

Représentation des individus sur les 2 prémiers axes

Carte-des-individus

Représentation simultanée des individus et des variables

biplot

Coordonnées des individus dans le plan factoriel

NAME Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
IND1 2.14 1.79 0.572 0.202 0.301 0.0539
IND2 -1.56 -1.53 1.32 -0.211 -0.149 -0.327
IND3 1.12 -0.675 0.457 -0.168 0.375 0.272
IND4 2.57 0.113 0.149 -0.0173 -0.227 0.263
IND5 -0.428 0.696 -0.193 -0.628 -0.264 -0.0372
IND6 0.304 -0.196 0.676 -0.556 0.445 0.2
IND7 -0.684 -0.933 -0.257 0.203 -0.209 0.154
IND8 1.95 -0.98 -0.62 0.63 -0.293 0.109
IND9 -4.41 1.06 -0.594 0.847 0.375 0.044
IND10 3.99 0.236 -0.303 0.265 -0.278 -0.329
IND11 -0.438 1.91 0.0249 -0.759 -0.168 -0.0542
IND12 -1.02 -0.842 0.217 0.303 0.185 0.185
IND13 -2.94 -0.559 -1.24 -0.772 -0.0544 -0.0573
IND14 -1.31 0.487 0.283 0.582 0.0667 -0.253
IND15 0.691 -0.898 -0.628 -0.358 0.377 -0.122
IND16 -0.386 0.356 -0.0756 0.103 -0.527 0.339
IND17 -2.29 0.104 0.796 0.236 -0.338 -0.157
IND18 2.71 -0.144 -0.574 0.0962 0.382 -0.283


Qualité de la représentation des individus en % selon les composantes principales - COS2

La qualité de la représentation d'un individu par un axe U est donnée par le carré de la distance de l'individu au centre de gravité.
La qualité de la représentation d'un point M par un plan factoriel constitué de 2 axes est mesurée par la
somme des cos2 avec 2 axes .

NAME Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
IND1 55.622 38.767 3.976 0.496 1.104 0.035
IND2 36.533 34.941 25.922 0.669 0.331 1.605
IND3 58.028 21.069 9.655 1.301 6.525 3.421
IND4 97.699 0.188 0.326 0.004 0.759 1.024
IND5 15.658 41.383 3.195 33.707 5.939 0.118
IND6 8.155 3.39 40.241 27.232 17.455 3.527
IND7 30.92 57.549 4.36 2.728 2.878 1.565
IND8 67.354 17.054 6.81 7.048 1.525 0.209
IND9 89.243 5.192 1.617 3.294 0.645 0.009
IND10 97.522 0.343 0.564 0.431 0.476 0.664
IND11 4.298 82.065 0.014 12.923 0.634 0.066
IND12 53.095 36.286 2.403 4.715 1.751 1.751
IND13 77.839 2.814 13.926 5.366 0.027 0.03
IND14 70.482 9.65 3.256 13.819 0.182 2.611
IND15 24.327 41.047 20.113 6.518 7.242 0.752
IND16 21.734 18.534 0.835 1.547 40.579 16.772
IND17 86.19 0.179 10.426 0.918 1.883 0.404
IND18 92.605 0.261 4.164 0.117 1.84 1.014


La somme horizontale = 100%

Calcul du cosinus carré

- Calculer la moyenne et l'écart type de chaque variable
- distance de l'individu i au centre
d = (VAR1INDi-MoyVAR1)/SDVAR1 + (VAR2INDi-MoyVAR2)/SDVAR2 + …….+ (VARNINDi-MoyVARN)/SDVARN
- Calculer le COS2 en % : COS2 = 100*CORD^2/d^2
Pour une variable donnée, le COS2 suivant un axe est égal à sa coordonné sur cet axe au carré divisé par la distance au carré.

La qualité de la représentation de l'individu IND1 dans le plan formé par les composantes 1 et 2 est de 55.622%+38.767 = 94.39%

Contribution des individus aux composantes en %

NAME Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
IND1 5.749 20.693 4.87 1.059 5.437 0.373
IND2 3.064 15.133 25.762 1.16 1.32 13.743
IND3 1.575 2.953 3.104 0.73 8.435 9.481
IND4 8.324 0.083 0.329 0.008 3.081 8.909
IND5 0.23 3.14 0.556 10.234 4.157 0.177
IND6 0.116 0.25 6.801 8.027 11.859 5.138
IND7 0.588 5.65 0.982 1.072 2.606 3.039
IND8 4.771 6.238 5.716 10.318 5.145 1.515
IND9 24.437 7.342 5.246 18.642 8.414 0.248
IND10 19.964 0.362 1.368 1.825 4.641 13.882
IND11 0.241 23.736 0.009 14.957 1.692 0.378
IND12 1.303 4.598 0.699 2.391 2.046 4.387
IND13 10.87 2.029 23.045 15.485 0.177 0.421
IND14 2.173 1.536 1.189 8.804 0.267 8.22
IND15 0.6 5.23 5.881 3.324 8.512 1.895
IND16 0.187 0.823 0.085 0.275 16.629 14.733
IND17 6.589 0.071 9.445 1.451 6.858 3.15
IND18 9.219 0.134 4.912 0.24 8.724 10.311



Cet tableau permet de determiner les individus qui pèse le plus dans la definition d'une composante.

Représentation 3D

ACP 3D


Ellipse 3d de concentration des données

plot 3D


Les individus supplementaires ou illustratifs ou inactifs : Positionner des individus n’ayant pas participé à la construction des axes

NOM VAR1 VAR2 VAR3 VAR4 VAR5 VAR6
INDX 2664 136 472 177 1410 180
INDY 1288 74 414 157 915 160


On peut mettre en supplementaire des individus dont la position est à prédire ou des individus dont on doute de la fiabilité.

Les individus qui ont participé à la construction des axes (individus non supplementaires) sont dits actifs.
Les individus supplémentaires sont introduits en fin d’analyse, après le calcul des vecteurs propres.

Le calcul des coordonnées des individus supplémentaire se fait en utilisant les vecteurs propres des variables déjà connus de l'ACP.

Méthode de calcul des coordonnées des individus supplémentaires

- Moyenne et écart type de l'ACP (Moyenne et écart type des variables déjà connus)

- centrage et réduction des variables pour chaque individu en utilisant les moyennes et écarts-type de l'ACP

- calcul des coordonnées factorielles suivant les axes (en utilisant les vecteurs propres de l'acp)

- Pour chaque individu la prémière composante principale s'obtient par exemple avec la formule:
(-0.425*VAR1)+(-0.422*VAR2)+....+....(0.359*VAR6).

- Pour obtenir les coordonnées suivant la 2ème composante, il faudra utiliser les vecteurs propres des variables suivant la 2ème composante

....Ainsi de suite.......

Les variables sont remplacées par les valeurs centrées et réduites.

Graphique des individus supplémentaires


Les individus supplémentaires sont en rouge.

individu supplementaire

Coordonnées des individus supplémentaires

NOM Comp1 Comp2 Comp3 Comp4 Comp5 Comp6
INDX -5.563 0.339 -0.464 0.402 0.39 -0.081
INDY 2.212 1.258 -0.093 -0.354 -0.649 0.125

Les variables supplémentaires ou illustratifs

On peut mettre des variables à expliquer en supplémentaire. Par opposition les variables explicatives seront utilisées pour faire l'ACP.

La variables à expliquer est introduite à la fin de l'analyse afin de la positionner sur le plan principal.

D'autres variables peuvent manquer de fiabilité. On peut hésiter à les introduire dans l'analyse. Elles peuvent être utilisées comme variables supplémentaires.

Les variables supplémentaires peuvent être soient qualitatives soit quantitatives

Variables quantitatives illustratives : Positionnement dans le cercle des corrélations

Méthodes:

Determiner la corrélation entre chaque variable quantitatives et les composantes (1 et 2 par exemple)
puis positionner sur le cercle de corrélation.

NOM VAR8 VAR9
IND1 30570 11,01
IND2 39990 13,06
IND3 29600 15,44
IND4 28250 15,76
IND5 34900 11,28
IND6 35480 13,17
IND7 32300 14,68
IND8 32000 18,36
IND9 47700 10,31
IND10 26540 14,82
IND11 42395 9,72
IND12 33990 14,15
IND13 43980 11,91
IND14 35010 11,02
IND15 39450 14,11
IND16 27900 13,19
IND17 32700 11,20
IND18 22100 14,04
variable quantitative illustrative

Variables qualitatives illustratives : Positionner les groupes des variables

Calcul de la moyenne de chaque groupe suivant les composantes

NOM VAR7
IND1 2_B
IND2 3_TB
IND3 1_M
IND4 1_M
IND5 2_B
IND6 3_TB
IND7 2_B
IND8 2_B
IND9 3_TB
IND10 1_M
IND11 3_TB
IND12 2_B
IND13 3_TB
IND14 2_B
IND15 3_TB
IND16 1_M
IND17 2_B
IND18 1_M
variable qualitative illustrative


Les individus se différencient véritablement par leur groupe suivant la première composante

Représentation des individus dans le plan en fonction de leur groupe

classification des individus

Références

  1. Cour L3 (Maryse Raffestin – octobre 2005)
  2. André Bouchier (Formation INRA 2006)
  3. Ali Kouani
 
Cette page a été consultée 5249 fois
Licence - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions
Licence Creative Commons