Le Monde des Utilisateurs de L'Analyse de Données

Numéro 38

 
 

Comment extraire des connaissances à partir des concepts de vos bases de données ? Les deux étapes de l'analyse des données symboliques. Edwin Diday. La revue MODULAD, numéro 38, 2008.

Résumé

Vos bases de données contiennent des concepts sous-jacents. Ils sont associés aux catégories issues de produits cartésiens de variables qualitatives ou de classifications automatiques. Ces concepts constituent alors des unités d’étude d’un niveau de généralité supérieur aux données initiales. Ce niveau est souvent désiré par les utilisateurs mais freinés par le carcan des données classiques qui ne tiennent pas compte de la variation des instances de ces concepts. L’analyse des données symboliques (ADS) a pour objectif dans une première étape de constituer ces concepts et de les décrire en prenant en compte leur variation interne par des variables dites « symboliques » (à valeur intervalle, histogramme, lois etc.) car non manipulables comme des nombres. La seconde étape d’une ADS consiste à les analyser. Pour cela on est amené à étendre les méthodes de la statistique exploratoire et de la fouille de données aux données symboliques (ces méthodes deviennent alors des cas particuliers d’ADS) et de développer des outils nouveaux spécifiques. On montre que ces données ne peuvent pas être réduites à des données classiques. On décrit les quatre espaces de la modélisation sous-jacente où les concepts sont modélisés par des objets symboliques, puis la modélisation mathématique des données (sous forme de variables à valeur variable aléatoire) et des classes ainsi que de leur structure en généralisant les treillis de Galois, hiérarchies, pyramides classiques aux données symboliques. On introduit leur classification spatiale étendant les cartes de Kohonen à des données et des structures pyramidales plus riches. On termine enfin par une application industrielle et la présentation du logiciel SODAS issu de deux projets européens d’EUROSTAT.

Abstract :

Your databases contain subjacent concepts. They are associated with the categories resulting from Cartesian products of qualitative variables or automatic clustering. These concepts then constitute study units of some level of general information. higher than the initial data. This level is often wished by the users but slowed down by the yoke of the traditional data which do not take account of the variation of the instances of these concepts. The symbolic data analysis (SDA) aims in a first stage to constitute these concepts and to describe them by taking into account their internal variation by variables known as “symbolic” (with value interval, histogram, distributions, etc.) because hard to handle like numbers. The second stage of a SDA consists in analyzing them. For that one is brought to extend the exploratory statistical methods and of the data mining to the symbolic data analysis (then these methods become particular cases of SDA) and to develop new specific tools. It is shown that these data cannot be reduced to traditional data. We describe the four spaces of subjacent modelling where the concepts are modelled by the so called “symbolic objects”. Then, a mathematical modelling of the symbolic data (in the form of variables with random variable value) is given. Classes of symbolic objects as well as their structure by generalizing the Gallois lattices, hierarchies, classical pyramids to concepts, are described. This paper introduces Spatial Classification extending Kohonen mapping to spatial pyramidal structures above a grid, and concludes finally by an industrial application and a presentation of the SODAS software issued from two EUROSTAT European projects.

Mots clés 
Data Mining, fouille de données, analyse des données, statistique descriptive, analyse des données exploratoire, données symboliques, classification automatique, analyse factorielle, treillis de Galois stochastiques, pyramides, analyse de concepts, classification spatiale.

Key words:
Data Mining, Knowledge Mining, Conceptual Statistics, Exploratory Data Analysis, Spatial Classification, Symbolic Data, Clustering, Factorial Analysis, Stochastic Gallois Lattices, Pyramids, Concept Analysis, Kohonen Mapping.

Article