Comment extraire des connaissances à partir
des concepts de vos bases de données ? Les deux étapes
de l'analyse des données symboliques. Edwin Diday.
La revue MODULAD, numéro 38, 2008.
Résumé
Vos bases de données contiennent des concepts sous-jacents.
Ils sont associés aux catégories issues de produits cartésiens
de variables qualitatives ou de classifications automatiques. Ces concepts constituent
alors des unités d’étude d’un niveau de généralité supérieur
aux données initiales. Ce niveau est souvent désiré par
les utilisateurs mais freinés par le carcan des données classiques
qui ne tiennent pas compte de la variation des instances de ces concepts. L’analyse
des données symboliques (ADS) a pour objectif dans une première étape
de constituer ces concepts et de les décrire en prenant en compte leur
variation interne par des variables dites « symboliques » (à valeur
intervalle, histogramme, lois etc.) car non manipulables comme des nombres.
La seconde étape d’une ADS consiste à les analyser. Pour
cela on est amené à étendre les méthodes de la statistique
exploratoire et de la fouille de données aux données symboliques
(ces méthodes deviennent alors des cas particuliers d’ADS) et de
développer des outils nouveaux spécifiques. On montre que ces
données ne peuvent pas être réduites à des données
classiques. On décrit les quatre espaces de la modélisation sous-jacente
où les concepts sont modélisés par des objets symboliques,
puis la modélisation mathématique des données (sous forme
de variables à valeur variable aléatoire) et des classes ainsi
que de leur structure en généralisant les treillis de Galois,
hiérarchies, pyramides classiques aux données symboliques. On
introduit leur classification spatiale étendant les cartes de Kohonen à des
données et des structures pyramidales plus riches. On termine enfin par
une application industrielle et la présentation du logiciel SODAS issu
de deux projets européens d’EUROSTAT.
Abstract :
Your databases contain subjacent concepts. They are
associated with the categories resulting from Cartesian products
of qualitative variables or automatic clustering. These concepts
then constitute study units of some level of general information.
higher than the initial data. This level is often wished by the
users but slowed down by the yoke of the traditional data which
do not take account of the variation of the instances of these
concepts. The symbolic data analysis (SDA) aims in a first stage
to constitute these concepts and to describe them by taking into
account their internal variation by variables known as “symbolic” (with
value interval, histogram, distributions, etc.) because hard to
handle like numbers. The second stage of a SDA consists in analyzing
them. For that one is brought to extend the exploratory statistical
methods and of the data mining to the symbolic data analysis (then
these methods become particular cases of SDA) and to develop new
specific tools. It is shown that these data cannot be reduced to
traditional data. We describe the four spaces of subjacent modelling
where the concepts are modelled by the so called “symbolic
objects”. Then, a mathematical modelling of the symbolic
data (in the form of variables with random variable value) is given.
Classes of symbolic objects as well as their structure by generalizing
the Gallois lattices, hierarchies, classical pyramids to concepts,
are described. This paper introduces Spatial Classification extending
Kohonen mapping to spatial pyramidal structures above a grid, and
concludes finally by an industrial application and a presentation
of the SODAS software issued from two EUROSTAT European projects.
Mots clés
Data Mining, fouille de données, analyse
des données, statistique descriptive, analyse des données
exploratoire, données symboliques, classification automatique,
analyse factorielle, treillis de Galois stochastiques, pyramides,
analyse de concepts, classification spatiale.
Key words:
Data Mining, Knowledge Mining, Conceptual Statistics, Exploratory
Data Analysis, Spatial Classification, Symbolic Data, Clustering,
Factorial Analysis, Stochastic Gallois Lattices, Pyramids,
Concept Analysis, Kohonen Mapping.
Article
|