Analyse en composante principale avec R et RQuery

Faire une analyse en composante principale peut s’avérer parfois une tache très fastidieuse. Les logiciels sont en général très chers et pas très clairs. Les logiciels gratuits, notamment R, nécessitent une maitrise de la programmation sous l'environnement statistique R.

Le but de ce tutorat est de vous apprendre à faire par vous même une analyse en composante principale sous R, en partant de ZERO CONNAISSANCE en programmation R.

Grâce à RQuery, vous allez être des pro de l'ACP en 2 minutes!!


Introduction à l'analyse en composante principale




Cliquez sur le lien suivant : Introduction à l'analyse en composante principale

PCA en une seule ligne de commande



Si vous avez toujours rêvé de pouvoir faire une analyse en composante principale (ACP) avec R, RQuery vous simplifie complètement la vie.

RQuery vous résume l'ACP en une seule ligne de commande dans R. Il s'agit de la fonction rquery.pca()
Taper simplement le code suivant dans R puis valider par la touche entrée.

Code R :
res.pca = rquery.pca()


R vous demandera d'indiquer le fichier contenant les données. Télécharger un exemple de fichier en cliquant ici

Enregistrer le fichier au format .txt tabulation.

Pour en savoir plus sur le format de fichier accepté suivre le lien suivant : Importation et exportation des données avec RQuery-1.0


Résultats


Un dossier "Result/ACPResult" est créé contenant les fichiers résultats.

Les images suivantes sont automatiquement générées par la fonction rquery.pca()

Les valeurs propres




cliquez pour agrandir


Graphique des individus




cliquez pour agrandir


Graphique des variables




cliquez pour agrandir


Représentation simultanée des individus et des variables




cliquez pour agrandir


Fichier résultat (acp.txt)



La fonction rquery.pca() génère également un fichier .txt contenant l'ensemble des données ayant servi à faire les graphiques.

Ce fichier txt vous permettra de refaire tous les graphes sur excel à votre convenance. Le graphique ci-dessous montre un exemple du plan des individus retravaillé sur excel.


cliquez pour agrandir


Télécharger un exemple du fichier généré en cliquant sur le lien suivant: pca_result3614.txt

Le fichier contient:

eig: correspondant aux valeurs propres, le % de variance et le % de variance cumulée
var: Contient les résultats pour les variables actives (coordonnées, corrélation entre les variables et les axes, COS2, contributions);
ind : Contient les résultats pour les individus actifs (coordonnées COS2, contributions);
ind.sup : Contient les résultats pour les individus supplémentaires (coordonnées COS2);
quanti.sup : Résultats pour les variables supplémentaires quantitatives (coordonnées, corrélation entre les variables et les axes).
quali.sup : Résultats pour les variables qualitatives supplémentaires (coordonnées, des catégories de chacun des variables ).


Un autre fichier contenant la description des différents axes (acp_dimdesc.txt) est également généré et ouvert automatiquement.

Télécharger un exemple en cliquant sur le lien suivant: acp_dimdesc.txt
Ce fichier permet de voir les variables quantitatives et qualitatives les plus liées aux axes.



Générer un fichier PDF contenant les graphiques



Au lieu d'afficher les graphiques, le code ci-dessous les enregistre tous dans un fichier pdf.

Code R :
res.pca=rquery.pca(save.pdf=TRUE)


Le fichier PDF est automatiquement ouverte à la fin de l'exécution de la commande.


Cliquer ici pour voir un exemple de fichier pdf généré.


Cas des individus et variables supplémentaires




Les individus supplémentaires



Ce sont des individus qui ne participeront pas à la construction des axes de l'analyse en composante principale. Les individus participant à l'ACP sont appelés, par opposition, individus actifs.
La position des individus supplémentaires sera donc prédite grâce à l'ACP réalisée uniquement avec les individus actifs.
Cette approche pourrait être utilisée lorsque l'on souhaite faire de la prédiction avec l'ACP.

Les individus supplémentaires peuvent également être des individus dont les résultats sont peu fiables et contenant des valeurs manquantes.


Les variables supplémentaires ou illustratifs




On peut mettre des variables à expliquer en supplémentaire. Par opposition les variables explicatives seront utilisées pour faire l'ACP. La variable à expliquer est introduite à la fin de l'analyse afin de la positionner sur le plan principal. D'autres variables peuvent manquer de fiabilité. On peut hésiter à les introduire dans l'analyse. Elles peuvent être utilisées comme variables supplémentaires. Les variables supplémentaires peuvent être soient qualitatives soit quantitatives


ACP avec des individus et variables supplémentaires




1) Télécharger et enregistrer ce fichier au *.txt tabulation : pca_auto.txt

L'image du fichier est montrée ci-dessous. Cliquez dessus pour agrandir.


Cliquez pour agrandir

Ce fichier contient des modèles de voitures décrites par plusieurs variables, notamment la vitesse maximale, la largeur, la longueur, etc, ...

Il contient 9 colonnes et 20 lignes. Les lignes 19 (Peugeot 604) et 20 (Peugeot 304S) correspondent à des 'individus supplémentaires' (abréviation : ind.sup=19:20). La colonne 8 (R-Poids.PUIS) correspond à une variable quantitative illustrative ou supplémentaire (abréviation : quanti.sup=8) et la colonne 9 (FINITION) correspond à une variable qualitative supplémentaire (abréviation : quali.sup=9)

Maintenant, nous allons faire appel à la fonction rquery.pca() en lui donnant toutes ces informations.

2) Code R

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8)




Plan factoriel des variables Plan factoriel des individus

cliquez pour agrandir



Sur le plan des variables, les variables supplémentaires quantitatives sont indiquées en bleu.
Sur le plan factoriel des individus, les individus supplémentaires sont indiqués en bleu et les variables qualitatives supplémentaires sont montrées en rose.

Nous allons maintenant colorer les individus en fonction de leur groupe , c'est à dire en fonction de la variable qualitative FINITION ou la colonne 9.

Il suffit juste de l'indiquer à la fonction rquery.pca() grâce au paramètre 'habillage' (voir le code ci-dessous)

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, habillage = 9)


On pourrait même ajouter des ellipses pour chaque groupe.

Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, habillage = 9, ellipse= TRUE)


Voici le résultat :


cliquez pour agrandir


ACP 3d



Code R :
rquery.pca(ind.sup=19:20, quali.sup=9, quanti.sup=8, choix="3d")




cliquez pour agrandir


Utilisateur avancé



cliquer sur le lien suivant rquery.pca


Conclusions



Code R :
 
rquery.pca()#Fait une ACP et affiche les graphiques
rquery.pca(save.pdf=T)#Fait une ACP et enregistre les graphiques
 






Want to Learn More on R Programming and Data Science?

==> Subscribe to our Mailing List <==

* indicates required


 Get involved :
  Click to follow us on and Google+ :   
  Comment this article by clicking on "Discussion" button (top-right position of this page)
  Sign up as a member and post news and articles on STHDA web site.


Suggestions



Cette page a été vue 25075 fois
Licence - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions
Licence Creative Commons