Le Monde des Utilisateurs de L'Analyse de Données

Numéro 40

 
 

Classification supervisée et non supervisée des données de grande dimension Charles BOUVEYRON, Stéphane GIRARD . La revue MODULAD, numéro 40, hiver 2009.

Résumé
Cet article est consacré à la classification des données de grande dimension. Supposant que de telles données vivent dans des sous-espaces de dimensions intrinsèques inférieures à la dimension de l'espace original, nous proposons une re-paramétrisation du modèle de mélange gaussien. En forçant certains paramètres à être communs dans une même classe ou entre les classes, nous exhibons une famille de modèles adaptés aux données de grande dimension, allant du modèle le plus général au plus parcimonieux. Ces modèles gaussiens sont ensuite utilisés pour la classification supervisée ou non-supervisée. La nature de notre re-paramétrisation permet aux méthodes ainsi construites de ne pas être perturbées par le mauvais conditionnement ou la singularité des matrices de covariance empiriques des classes et d'être efficaces en terme de temps de calcul.

Mots clés 
Classification supervisée et non supervisée, fléau de la dimension, modèle de mélange gaussien, modèle parcimonieux.

Article