Le Monde des Utilisateurs de L'Analyse de Données

Numéro 38

 
 

L'industrialisation des analyses – Besoins, outils & applications. Françoise Fogelman-Soulié, Erik Marcadé. La revue MODULAD, numéro 38, 2008.

Résumé
Le data mining est aujourd’hui de plus en plus utilisé dans les entreprises les plus compétitives. Ce développement, rendu possible par la disponibilité grandissante de masses de données importantes, pose des contraintes tant théoriques (quels algorithmes utiliser pour produire des modèles d’analyses exploitant des milliers de variables pour des millions d’exemples) qu’opérationnelles (comment mettre en production et contrôler le bon fonctionnement de centaines de modèles). Je présenterai ces contraintes issues des besoins des entreprises ; je montrerai comment exploiter des résultats théoriques (provenant des travaux de Vladimir Vapnik) pour produire des modèles robustes; je donnerai des exemples d’applications réelles en gestion de la relation client. Nous verrons ainsi comment il est possible d’industrialiser le data mining et en faire ainsi un composant facilement exploitable dès qu’on dispose de données.

Abstract
Today data mining is more and more extensively used by very competitive enterprises. This development, brought by the increasing availability of massive datasets, is only possible if challenges, both theoretic and operational, are met : which algorithms should be used to produce models when datasets have thousands of variables and millions of observations; how to run and control the correct execution of hundreds of models. I will present these constraints in industrial contexts; I will show how to exploit theoretical results (coming from Vapnik’s work) to produce robust models; I will give examples of real-life applications in customer relationship management. I will thus demonstrate that it is indeed possible to industrialize data mining so as to turn it into an easy-to-use component whenever data is available.

Mots clés 
Fouille de données. Robustesse. Passage à l’échelle. Fouille de textes.

Keywords
Data Mining. Robustness. Scalability. Text Mining.

Article