CAH - Classification Ascendante Hiérarchique dans R avec FactoMineR: Cours
Cette page présente une série de vidéos de cours sur les méthodes de classification (clustering en anglais). Les méthodes de classification sont utilisées pour analyser des données multivariées. L’objectif principal consiste à soit i) identifier des groupes d’individus présentant des traits communs ou ii) partitionner les individus en plusieurs groupes sur la base de traits communs.
Les méthodes standard de classification sont:
- La Classification Ascendante Hiérarchique (CAH). Crée un arbre de regroupement hiérarchique.
- Les méthodes de partitionnement de type K-means (K-moyennes en français). Subdivise les individus en k-groupes, k étant le nombre optimal de groupes à définir par l’analyste.
Les vidéos de cours, ci-après, présentent tout d’abord une introduction sur les deux approches (CAH et K-means). Une méthode, pour choisir le nombre optimal de groupes, est aussi montrée. Par la suite, un exemple pratique dans R est présenter en utilisant le package FactoMineR
.
Dans FactoMineR, la fonction pour faire la classification des données s’appelle HCPC() pour Hierarchical Clustering on Principal Components (ou classification hiérarchique sur composantes principales en français). Cette fonction combine les méthodes de classification (CAH et k-Means) et les méthodes de composantes principales (ACP, AFC, AFM, etc). En d’autres termes, elle applique les méthodes de classification sur les résultats des analyses factorielles (ACP, ACM, AFM, etc).
Le HCPC peut être utile dans au moins deux situations:
- Lorsque vous disposez d’un grand nombre de variables continues dans votre jeu de données, vous pouvez d’abord utiliser l’analyse en composantes principales pour réduire les dimensions. Ensuite, vous pouvez appliquer le HCPC sur le résultat de l’ACP. Cela peut conduire à des groupes plus stables.
- Clustering sur des variables catégorielles. Pour effectuer une classification sur des variables catégorielles, vous pouvez d’abord faire l’AFC ou l’ACM sur votre jeu de données. Ensuite, vous pouvez appliquer le HCPC sur le résultat de l’AFC ou de l’ACM.
Contenu:
Livre (en anglais):

Practical Guide to Principal Component Methods in R
Code R: Guide rapide
Classification Hiérarchique sur Composantes Principales: L’Essentiel
Théorie et concepts
CAH - Classification ascendante hiérarchique
Introduction à la classification ascendante hiérarchique et le format des données
Exemple de CAH et choix du nombre de classes
Présentation d’un exemple de CAH et explication du choix du nombre optimal de groupes ou de classes.
K-means: Méthode de partitionnement
Présentation de l’algorithme des k-means (ou méthode d’agrégation autour des centres mobiles). Permet de constituer directement des classes d’individus.
Caractérisation des classes d’individus
Identification des caractéristiques des classes d’individus.
Exemple pratique dans R
Classification avec FactoMineR
Réalisation de la classification ascendante hiérarchique à partir des résultats d’une analyse factorielle (ACP, AFC, ACM, AFM).
Caractérisation d’une variable qualitative et de ses modalités
Caractérisaton d’une variable qualitative en fonction d’une variable qualitative et/ou quantitative.