Le Monde des Utilisateurs de L'Analyse de Données

Numéro 40

 
 

Les modèles de mélange, un outil utile pour la classification semi-supervisée Vincent Vandewalle . La revue MODULAD, numéro 40, hiver 2009.

Résumé
En classification supervisée, la règle de classement est apprise à partir d'un échantillon d'apprentissage généralement constitué de données classées. Dans la plupart des cas l'obtention de la classe est plus coûteuse que l'obtention de covariables associées à la classe d'où l'intérêt d'apprendre une règle de prédiction de la classe à partir de ces covariables. Ainsi dans de nombreuses situations beaucoup de données non classées, obtenues à un coût relativement faible, sont disponibles en plus des données classées. Au cours des dernières années la classification semi-supervisée, qui fait usage des données non classées pour améliorer la précision de la règle de classement apprise, a connu un essor important, ceci notamment dans la communauté du Machine Learning. Les modèles génératifs, qui modélisent la distribution jointe de la classe et des covariables, permettent de prendre naturellement en compte l'information apportée par les données non classées dans l'apprentissage de la règle de classement. Dans cet article nous dressons un panorama de la classification semi-supervisée et nous détaillons sa mise en oeuvre dans le cadre des modèles génératifs.

Mots clés 
données manquantes, modèles de mélange, algorithme EM, analyse discriminante, validation croisée.

Abstract
In supervised classification, the classification rule is learnt from a learning sample generally composed of labeled data. In most settings obtaining the label is more expensive than obtaining covariates linked with the label, hence the interest to learn a prediction rule of the label given these covariates. So, in many settings a lot of unlabeled data, obtained at a relatively low cost, are available in addition to labeled data. Over past years the semi-supervised classification, which uses unlabeled data in order to improve the classification rule accuracy, has known a great development, especially in Machine Learning community. Generative models, which model the joint distribution of the label and of the covariates, allow to naturally take into account information contained in unlabeled data when learning the parameters of the model. In this article we give a survey of semi-supervised classification and we detail how to use it with generative models.

Key words 
missing data, mixture models, EM algorithm, discriminant analysis, cross-validation.

Article