Introduction à l’analyse des données symboliques : maîtrisez la variation de vos données en analysant vos concepts.

Conférence d’Edwin Diday

 









           
On a dit que l'Analyse des Données a rendu les "individus" à la statistique. L'objet de l'Analyse des Données Symboliques est de lui apporter aussi des individus mais d'un type nouveau réifiant des catégories, classes ou concepts.

            Habituellement la description de ces entités se fait par des données quantitives ou qualitatives entrant dans le carcan des tableaux de données classiques permettant ainsi de les analyser par les logiciels standards. On perd alors la variation interne inéluctable à ce type d'entité. Par exemple, on ne décrit pas un insecte comme son espèce, un sportif comme son équipe,une feuille de maladie comme un assuré (caractérisé par ses feuilles de maladies sur une période).

            Afin de tenir compte de cette variation, les variables habituelles doivent être transformées en variables à valeur intervalle, histogramme, suites de valeurs parfois pondérées et munies de règles et de taxonomies etc. Ces données ne peuvent être traitées comme des nombres et sont donc dites "symboliques". L'Analyse des données Symboliques et son logiciel public SODAS (développé par deux projets européens soutenus par EUROSTAT) a pour but de les analyser en étendant les méthodes habituelles de la statistique, de l'Analyse des données exploratoires et du Data Mining à ce type de données.

            Les grands principes de ce domaine seront présentés ainsi que ses perspectives de recherche et d'applications.