Une introduction au positionnement multidimensionnel

Le Monde des Utilisateurs de L'Analyse de Données

Numéro 4

Sélection de prédicteurs et estimation des taux d’erreur en discrimination linéaire. Jean-Christophe Turlot. La revue MODULAD, numéro 4, décembre 1989.

Résumé
On montre que les procédures de sélection d’un sous-ensemble de prédicteurs pertinents pour la discrimination penvent engendrer un biais important dans l’estimation des taux d’erreur de classement par rééchantillonnage (validation croisée, jackknife ou bootstap). Le biais de ‘sélection’ peut conduire à un choix de prédicteurs en partie illusoire, dépendant des fluctuations d’échantillonnage. Il apparaît que la sélection d’un petit nombre de variables exploratoires, complétant l’information apportée par un ensemble de prédicteurs devant intervenir a priori dans l’élaboration de la règle de décision, constitue une protection contre une sélection trop sujette aux fluctuations d’échantillonnage lorsque la taille du fichier des observations est modérée. En réduisant ainsi le biais de sélection, l'estimation de la qualité de la règle par rééchantillonnage s’en trouve plus précise.

Mots clés
Discrimination, sélection de prédicteurs, erreur de classement.

Article