Articles - Méthodes des Composantes Principales dans R: Guide Pratique

CAH - Classification Ascendante Hiérarchique dans R avec FactoMineR: Cours

Cette page présente une série de vidéos de cours sur les méthodes de classification (clustering en anglais). Les méthodes de classification sont utilisées pour analyser des données multivariées. L’objectif principal consiste à soit i) identifier des groupes d’individus présentant des traits communs ou ii) partitionner les individus en plusieurs groupes sur la base de traits communs.

Les méthodes standard de classification sont:

  • La Classification Ascendante Hiérarchique (CAH). Crée un arbre de regroupement hiérarchique.
  • Les méthodes de partitionnement de type K-means (K-moyennes en français). Subdivise les individus en k-groupes, k étant le nombre optimal de groupes à définir par l’analyste.

Les vidéos de cours, ci-après, présentent tout d’abord une introduction sur les deux approches (CAH et K-means). Une méthode, pour choisir le nombre optimal de groupes, est aussi montrée. Par la suite, un exemple pratique dans R est présenter en utilisant le package FactoMineR.

Dans FactoMineR, la fonction pour faire la classification des données s’appelle HCPC() pour Hierarchical Clustering on Principal Components (ou classification hiérarchique sur composantes principales en français). Cette fonction combine les méthodes de classification (CAH et k-Means) et les méthodes de composantes principales (ACP, AFC, AFM, etc). En d’autres termes, elle applique les méthodes de classification sur les résultats des analyses factorielles (ACP, ACM, AFM, etc).

Le HCPC peut être utile dans au moins deux situations:

  1. Lorsque vous disposez d’un grand nombre de variables continues dans votre jeu de données, vous pouvez d’abord utiliser l’analyse en composantes principales pour réduire les dimensions. Ensuite, vous pouvez appliquer le HCPC sur le résultat de l’ACP. Cela peut conduire à des groupes plus stables.
  2. Clustering sur des variables catégorielles. Pour effectuer une classification sur des variables catégorielles, vous pouvez d’abord faire l’AFC ou l’ACM sur votre jeu de données. Ensuite, vous pouvez appliquer le HCPC sur le résultat de l’AFC ou de l’ACM.

HCPC - Classification hiérarchique sur composantes principales

Contenu:


Théorie et concepts

CAH - Classification ascendante hiérarchique

Introduction à la classification ascendante hiérarchique et le format des données

Exemple de CAH et choix du nombre de classes

Présentation d’un exemple de CAH et explication du choix du nombre optimal de groupes ou de classes.

K-means: Méthode de partitionnement

Présentation de l’algorithme des k-means (ou méthode d’agrégation autour des centres mobiles). Permet de constituer directement des classes d’individus.

Caractérisation des classes d’individus

Identification des caractéristiques des classes d’individus.

Exemple pratique dans R

Classification avec FactoMineR

Réalisation de la classification ascendante hiérarchique à partir des résultats d’une analyse factorielle (ACP, AFC, ACM, AFM).

Caractérisation d’une variable qualitative et de ses modalités

Caractérisaton d’une variable qualitative en fonction d’une variable qualitative et/ou quantitative.