Classification supervisée et non supervisée des données de grande dimension
Charles BOUVEYRON, Stéphane GIRARD
.
La revue MODULAD, numéro 40, hiver 2009.
Résumé
Cet article est consacré à la classification des données de grande dimension.
Supposant que de telles données vivent dans des sous-espaces de
dimensions intrinsèques inférieures à la dimension de l'espace original,
nous proposons une re-paramétrisation du modèle de mélange gaussien.
En forçant certains paramètres à être communs dans une même classe ou entre les classes,
nous exhibons une famille de modèles adaptés aux données de grande dimension,
allant du modèle le plus général au plus parcimonieux.
Ces modèles gaussiens sont ensuite utilisés pour la classification
supervisée ou non-supervisée. La nature de notre re-paramétrisation permet aux méthodes
ainsi construites de ne pas être perturbées par le mauvais conditionnement ou la singularité des matrices de
covariance empiriques des classes et d'être efficaces en terme de temps de calcul.
Mots clés
Classification supervisée et non supervisée, fléau de la dimension, modèle de mélange gaussien, modèle parcimonieux.
Article
|