Le Monde des Utilisateurs de L'Analyse de Données
Les Après-midi InfoStat
Publications
Séminaire
J-P Fénelon
Journées
 

Les Après-midi InfoStat

Dans le cadre de la SFdS (Société Française de Statistique), le groupe nommé InfoStat organise régulièrement des après-midi à thème au coeur du Quartier Latin à l'Institut Henri Poincaré, 11 rue Pierre et Marie Curie (Paris, 5ème). De 13h30 à 17h30, trois à quatre intervenants bien choisis présentent les différentes facettes du thème et engagent la discussion avec les participants où se cotoîent autant de professionnels en activité que d'enseignants et chercheurs intéressés par le thème.

La Revue Modulad participe et soutient activement les Après-midi InfoStat, une formule originale et efficace pour diffuser les idées nouvelles autour du traitement statistique de l'information.

Les responsables du groupe :

Président Y. LECHEVALLIER (Yves.Lechevallier@inria.fr)
Vice-président A. BRINGÉ (bringe@ined.fr)
Trésorière L. HAEUSSLER (laurence.haeusler@planistat.fr)

Autres membres :

Y.M. CHATELIN (yves-marie.chatelin@inst-elevage.asso.fr)
A. MORIN (amorin@irisa.fr)
A. MORINEAU (alain.morineau@modulad.fr)
F. SERMIER (f.sermier@wanadoo.fr)
D. ZIGHED (zighed@univ-lyon2.fr)

Objectifs

Le groupe Infostat organise des demi-journées à thème statistique: les après-midi d'InfoStat. Il se réunit tous les 2 mois pour définir le travail du groupe et réfléchir à la mise en place de groupes de travail.

Si vous désirez participer à ces réunions, ou avoir une information sur les journées organisées par le groupe, vous pouvez contacter un des membres du bureau.

Des macros pour tous :

Le groupe InfoStat a réuni des macros dans différents langages qui pourront être utiles aux lecteurs de la revue Modulad. On pourra les consulter à l'adresse suivante :

http://www-rocq.inria.fr/axis/Sfds_gls/MACROS/index.htm

Consultez les manifestations à venir ci-dessous et ne manquez pas de vous inscrire (gratuitement) en écrivant au secrétariat de la SFdS : sfds@ihp.jussieu.fr


Les manifestations à venir

Prochaines manifestations :

- Jeudi 4 décembre 2008 Campus de Lille / Villeneuve d'Asq-2e rencontre Mixmod- Logiciel de classification supervisée et non supervisée pour les données quantitatives et qualitatives Inscription gratuite mais obligatoire :
http://www-math.univ-fcomte.fr/mixmod2008/

Consulter le programme et les modalités d'inscription ici.

- 15 janvier 2009 sur les Nouvelles approches en classification, amphi. Hermite :

Institut Henri Poincaré (IHP)
11 rue Pierre et Marie Curie
Paris 5ème (RER : Luxembourg)


Les Archives

Merci de consulter le groupe 6 de la page suivante :
http://www.sfds.asso.fr/84-Les_Apres-Midis_dInfoStat

- 29 mars 2007 sur les Fouilles de Données Textuelles, amphi. Darboux :

Institut Henri Poincaré (IHP)
11 rue Pierre et Marie Curie
Paris 5ème (RER : Luxembourg)

Extraction de connaissances à partir de textes
Yannick TOUSSAINT (Loria, Nancy)

De plus en plus de sciences, reposant originellement sur l'observation, telles que l'astronomie, la biologie, la micro- biologie ou la génomique (...), sont confrontées aujourd'hui à des questions d'une telle complexité que la réponse ne peut être trouvée par la seule expérimentation. Il est donc plus que jamais nécessaire de
confronter sa propre expérience à celle des autres, de synthétiser les travaux déjà réalisés. C'est ainsi qu'en astronomie, quelques "observatoires virtuels" collectent, organisent et mettent à disposition les données en constituant des bases bibliographiques, des bases de données et proposent un certain nombre d'outils pour
les exploiter.
Le texte reste une ressource sous-exploitée. Les outils de recherche d'information proposent à l'utilisateur un ensemble de documents répondant à la requête qu'il a formulée. Il existe aussi différentes méthodes de classification (Clustering) pour organiser les réponses. Malgré tout, lorsque la réponse est constituée de plusieurs milliers d'articles, ces outils ne permettent pas d'en synthétiser le contenu.
Nous définissons l'extraction de connaissances à partir de textes comme le processus permettant de construire à partir d'un ensemble de textes une vision synthétique de leur contenu. Il s'agit donc d'extraire des textes des éléments d'information qui sont ensuite organisés sous forme de connaissances.

Visualisation des résultats de la fouille de données textuelles

Annie Morin (IRISA, Rennes)

Il existe différentes méthodes d'analyse de données textuelles. Nous utilisons l'analyse des correspondances pour traiter des grandes bases de données textuelles. L'AFC fournit différents indicateurs de pertinence et de qualité des résultats mais malgré tout, on est très vite submergé par les résultats. Nous utilisons la plate-forme Bi-Qnomis développée par Michel Kerbaol pour afficher les résultats d'une ou de plusisuers analyses successives. Nous illustrerons l'utilisation de cette plate-forme avec l'analyse de publications de l'INRIA.

Fouille de documents XML
Anne-Marie Vercoustre (INRIA Rocquencourt)

Les documents XML sont devenus un standard de représentation d'information grâce à leur format à la fois riche et flexible qui peut être utilisé pour de nombreuses applications. La taille des collections en XML est en constante augmentation (cf. Wikipedia) et les techniques d'accès et de traitement de l'information qui existent pour le texte ou les bases de données doivent être adaptées, et de nouvelles méthodes développées, pour exploiter la structure particulière des documents XML.
L'utilisation du format XML est un nouveau challenge pour la fouille de données, à cause des deux dimensions dont il faut maintenant tenir compte et exploiter - la dimension de la structure XML, et la dimension du contenu -, ainsi que l'hétérogénéité possible des documents dans ces deux dimensions. Selon l'objectif de fouille envisagée, on pourra tenir compte de la structure seule ou de la structure et du contenu des documents. Les documents XML peuvent être représentés par des structures d'arbres qui sont reconnus être des structures complexes, et les algorithmes associés généralement inappropriés pour traiter de très larges collections.

Mardi 24 octobre 2006 : "Classification avec des modèles de mélange ; la nouvelle version 2.0 du logiciel libre MIXMOD"

il s'agit de présenter les possibilités du logiciel libre MIXMOD qui propose de nombreuses méthodes de classification non supervisée et supervisée par le modèle de mélange. À l'occasion de cette rencontre, qui vise surtout les utilisateurs, la nouvelle version de MIXMOD sera présentée. Elle se caractérise notamment par la possibilité de traiter des variables qualitatives. Les notions et fonctionnalités présentées dans les exposés seront illustrées d'exemples variés.

Le modèle des mélanges, les principales caractéristiques de MIXMOD. Gérard Govaert, UMR 6599, CNRS et Université de Compiègne et Gilles Celeux, INRIA

Le logiciel MIXMOD est un logiciel permettant de traiter des problèmes de classification
(supervisée ou non) sur un ensemble de données par un modèle de mélange de lois. Ses usages sont multiples (fouille de données, reconnaissance des formes, décision
statistique,...) et les domaines d'utilisation très divers (biologie, analyse d'images, sciences sociales, ...). Cette première partie est consacrée à la présentation des modèles de mélange d'un point de vue statistique et à leur utilisation en classification et en analyse discriminante.

Le logiciel MIXMOD : fonctionnalités et illustrations Florent Langrognet, UMR 6623, CNRS et Université de Franche-Comté et Fabrice Gaudier, CEA


MIXMOD propose une grande variété d'algorithmes (EM, CEM, SEM, ...) pour estimer
les paramètres d'un mélange. Il intègre plusieurs critères (BIC, ICL, ...) permettant de sélectionner le meilleur modèle parmi un large choix. Enfin, la possibilité d'enchaîner différents algorithmes et de choisir parmi plusieurs méthodes d'initialisation en font un outil à la fois souple et puissant pour traiter des problématiques de classification automatique et d'analyse discriminante. Le but de cette présentation est de faire le tour d'horizon des fonctionnalités de MIXMOD en s'appuyant sur des problématiques
réelles. L'exposé sera aussi l'occasion de présenter la convivialité de MIXMOD (à ce titre, rappelons que MIXMOD est écrit en C++ et interfacé avec les logiciels Scilab et Matlab (et bientôt R).


Application en physiologie cérébrale : tri des potentiels d'action et modèle de mélange avec R, MIXMOD et GGobi Christophe Pouzat, UMR 8118, CNRS et Université Paris V


Les neurophysiologistes sont de plus en plus intéressés par l'enregistrement de populations de neurones. À cette fin ils utilisent de nombreuses électrodes extra-cellulaires qu'ils insèrent dans le tissu nerveux. Cette technique d'enregistrement fournit des données brutes qui se présentent sous forme d'un mélange des activités des différents neurones vus par chaque électrode. La première partie de l'analyse des données consiste alors en la séparation des signaux générés par les différents neurones. Les modèles de mélanges proposés par des logiciels comme MIXMOD deviennent donc sans conteste des outils puissants qui permettent de rendre l'analyse plus automatique, plus rigoureuse et plus reproductible de tels modèles en vue de faire des prédictions.


Modèles de mélange pour les variables qualitatives Christophe Biernacki, UMR 8524, CNRS et Université de Lille 1 et Vincent Bretagnolle, Centre d'Études Biologiques de Chizé


Jusqu'ici dévolu au traitement de données continues (issues de mélange gaussien), la nouvelle version de MIXMOD permet le traitement des variables qualitatives par plusieurs modèles des classes latentes (mélanges de lois multinomiales multivariées). Nous présentons cette approche et les fonctionnalités de MIXMOD sur ce sujet en les
illustrant par un problème de classification supervisée en ornithologie.

Jeudi 12 janvier 2006 (exceptionnellement, une journée complète à Rennes) : La visualisation statistique, du PDA à l'écran géant

Groupe InfoStat, Logiciels & Data Mining


Journée Visualisation statistique : du PDA à l’écran géant Jeudi 12 janvier 2006 Salle Michel Métivier IRISA Campus de Beaulieu Rennes

Le groupe InfoStat, Logiciels et Data Mining de la SFdS organise une journée sur la visualisation statistique à destination des scientifiques (chercheurs et
praticiens) de différentes communautés. Le thème retenu est celui de la visualisation statistique des données et des connaissances sur différents supports. La publication en 1967 de « la Sémiologie Graphique », ouvrage du géographe Jacques Bertin marque un tournant dans le développement et la mise en place des traitements graphiques. Aujourd’hui, nous sommes confrontés à de nouveaux problèmes : la masse de données disponible ne cesse d’augmenter. Comment gérer et utiliser cette quantité d’information ? Il faut aussi pouvoir consulter des informations dynamiques en temps réel, souvent sur un écran de téléphone portable ou d’assistant personnel numérique.
L’objectif de cette journée est de faire le point sur quelques modèles de représentation certains plus anciens, d’autres plus récents existant à l’heure actuelle et d’ouvrir une discussion sur les outils et sur les développements possibles, souhaitables pour les différents utilisateurs.

PROGRAMME :


9h00- 9h30 Accueil des participants
9h30-10h20 La méthode graphique en statistique dans le Journal de la Société de Statistique de Paris avant 1900.
Antoine de Falguerolles (Université de Toulouse III) 10h20-11h10 Visualisation matricielle et réordonnancement automatique.
Jean-Daniel Fékété (INRIA Futurs)
11h10-11h30 Pause
11h30-12h20 Expériences et pistes de cartographie interactive dans un environnement statistique Didier Josselin (Université d’Avignon)
12h20-12h45 Discussion
12h45-14h00 Déjeuner
14h00-14h50 Analyse interactive et édition de données avec ILOG Discovery Thomas Baudel (Ilog France) 14h50-15h30 Visualisation de données sur petits écrans Monique Noirhomme (FUNDP Namur Belgique) 15h30-15h50 Pause 15h50-16h30 Visualisation en extraction de connaissances François Poulet (ESIEA-Pôle ECD Laval)
16h30-17h15 Discussion

Groupe InfoStat, Logiciels & Data Mining

Résumés des interventions


La méthode graphique en statistique dans le Journal de la Société de Statistique de Paris avant 1900.
Antoine de Falguerolles, Université de Toulouse III

La Société de Statistique de Paris a été fondée en 1860. Dès sa fondation, elle s’est dotée d’un journal (JSSP) qui est devenu en 1997 le Journal de la Société Française de Statistique (JSFdS). Dans mon exposé, je présenterai les articles publiés dans cette revue avant 1900 et concernant “ la méthode graphique en statistique ”. J’évoquerai les travaux de ses théoriciens et tenterai d’illustrer leurs articles par des exemples (lorsque disponibles). Un des aspects de ma présentation portera aussi sur l’accessibilité et la valorisation de tels documents en 2005.


Visualisation matricielle et réordonnancement automatique Jean-Daniel Fékété, INRIA Futurs

La représentation matricielle de table a été rendu populaire par Jacques Bertin dans les années 70. Depuis, quelques travaux ont abordé le principal problème de cette représentation : trouver un ordre adéquat pour les lignes et les colonnes afin qu'une structure émerge.
Dans nos travaux, nous montrons en quoi la représentation matricielle est toujours d'actualité en décrivant quelques expérimentations que nous avons réalisées sur la compréhension des matrices.
Nous décrivons aussi quelques algorithmes de réordonnancement qui donnent de bons résultats sur des matrices, à la fois pour représenter des tables mais aussi des graphes.
Enfin, nous présenterons des styles d'interaction qui permettent de naviguer interactivement dans des grandes matrices afin d'en comprendre la structure.


Expériences et pistes de cartographie interactive dans un environnement statistique.
Didier Josselin, CNRS, Université d’Avignon

Développé au sein de l'environnement statistique LispStat, ARPEGE’ (Analyses Robustes Pour l'Exploration Géographique) permet de modéliser et explorer l'information géographique et statistique. Nous exposons tout d'abord les raisons qui nous ont amené à proposer cet outil à l'interface entre Système d'Information Géographique (SIG) et Analyse Exploratoire des Données (EDA). Puis nous présentons les concepts internes d'ARPEGE’, notamment les différents statuts des relations reliant dynamiquement les différentes représentations cartographiques et statistiques. Nous détaillons enfin quelques applications pour des collectivités territoriales ou à but scientifique ou pédagogique, en soulignant leurs apports et leurs limites. En guise de conclusion, nous ouvrons le débat sur ce que pourrait être un SIG interactif assurant une aide à la décision au plus près de l'information.

Groupe InfoStat, Logiciels & Data Mining

Analyse interactive et édition de données avec ILOG Discovery.
Thomas Baudel, Ilog

ILOG Discovery est un outil d'analyse visuelle de données développé depuis 4 ans. Son originalité première est que les méthodes de visualisation proposées reposent sur un modèle canonique permettant de décrire une classe complète de visualisations avec un nombre restreint de paramètres. Cet outil a environ 100 utilisateurs dans le monde, et l'étude de leurs demandes nous a fait évoluer l'outil de manière à permettre l'édition des données visualisées avec une grande souplesse. Nous avons découvert de nouvelles possibilités d'analyses, basées sur le filtrage et l'étude de scénarios alternatifs, qui nous laissent entrevoir une nouvelle génération d'outils de visualisation et d'édition plus à même de toucher un large public.
ILOG Discovery est disponible gratuitement à http://www2.ilog.com/preview/Discovery


Visualisation de données sur petits écrans Monique Noirhomme, FUNDP, Namur, Belgique

Nous pouvons accéder à une information très vaste n'importe où, n'importe quand, grâce à l'usage d'Internet, des téléphones mobiles ou des PDA (Personal Digital Assistant ou assistant personnel numérique). En particulier, l'accès à des données statistiques régulièrement mises à jour est chose aisée. Cependant la visualisation de ces données sur de très petits écrans pose de gros problèmes de lisibilité. Nous proposons différentes solutions pour visualiser des séries temporelles sur PDA et sur téléphone mobile. Nous envisageons le cas particulier des valeurs boursières. Nous attirons également l'attention sur quelques principes à respecter lors de l'affichage sur petit écran.


Visualisation en extraction de connaissances François Poulet, ESIEA-Pôle ECD, Laval

L'extraction de connaissances dans les données peut être défini comme le processus non trivial de découverte de connaissances nouvelles, potentiellement utiles et compréhensibles dans les données. La fouille de données concerne plus précisément le coeur de ce processus : la découverte de connaissances nouvelles. Dans les approches usuelles, la visualisation n'intervient en général que lors de deux étapes particulières du processus de fouille de données : dans l'une des toutes premières étapes pour "voir" les données ou leur distribution et dans l'une des toutes dernières étapes du processus pour prendre connaissance des résultats.
Entre ces deux étapes il y a en général exécution d'un algorithme automatique de fouille de données. Le but de nos travaux de recherche est d'augmenter le rôle de la visualisation dans ce processus. Ceci peut être mené à bien de plusieurs façons:
- en faisant collaborer des méthodes visuelles avec les méthodes automatiques soit en prétraitement, soit en post-traitement,
- en remplaçant l'algorithme automatique de fouille de données par un algorithme graphique interactif, on parle alors de fouille visuelle de données ou "Visual Data Mining",
- en faisant coopérer les méthodes automatiques et graphiques.
Nous allons présenter les travaux que nous menons dans ces directions.

Jeudi 15 décembre 2005 : Les prévisions ont-elles un avenir ? Le point sur l'analyse des chroniques et les méthodes de prévision

Jeudi 13 octobre 2005 : Approche Data mining par quelques logiciels libres

13h30-13h45 : présentation de l’après-midi
13h45-14h45 : Data Mining with ORANGE par Blaz Zupan, university of Ljubljana, Slovenia
14h45-15h45: TANAGRA, un logiciel de DATA MINING gratuit pour l'enseignement et la recherche par Ricco Rakotomalala, ERIC, université de Lyon2
15h45-16h15 : pause
16h15-17h00 : WEKA, un logiciel libre d’apprentissage et de data mining par Yves Lechevallier, Inria
17h00-17h30: fin du séminaire, bilan, annonce du prochain après-midi.

Data Mining with Orange. Blaz Zupan. Faculty of Computer and Information Science, University of Ljubljana, Trzaska 25, SI-1000 Ljubljana, Slovenia, Department of Molecular and Human Genetics, Baylor College of Medicine, 1 Baylor Plaza, Houston, TX 77030, U.S.A. E_mail : blaz.zupan@fri.uni-lj.si

Orange (www.ailab.si/orange) is an open source component-based framework for machine learning and data mining. It is intended for both experienced users and researchers in machine learning who want to prototype new algorithms while reusing as much of the code as possible, and for those just entering the field who can either write short Python scripts for data analysis or enjoy in the powerful while easy-to-use visual programming environment. Because of its user-friendly graphical interface, support for explorative and interactive data analysis, Orange can be fruitfully used for education purposes as well. In the talk I will present the development history and motivation behind Orange, and will then, also through the demonstration, focus on its interactive graphical widgets and visual programming environment.

TANAGRA, un logiciel de DATA MINING gratuit pour l'enseignement et la recherche. Ricco RAKOTOMALALA, E.R.I.C. Universite Lumiere Lyon 2, e-mail : rakotoma@univ-lyon2.fr

TANAGRA est un logiciel gratuit destiné à l’enseignement et à la recherche, diffusé sur internet. Il implémente une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de l’apprentissage automatique et des bases de données. Son premier objectif est d’offrir aux étudiants et aux chercheurs d’autres domaines (médecine, bio-informatique, marketing, etc.) une plate-forme facile d’accès, respectant les standards des logiciels actuels. Le second objectif est de proposer aux enseignants une plate-forme entièrement fonctionnelle, le logiciel peut servir d’appui pédagogique pour les illustrations et le traitement des jeux de données en cours ou en TD. Enfin, le troisième objectif est de proposer aux chercheurs une architecture leur facilitant l’implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces algorithmes. Le site de diffusion du logiciel (http://eric.univ-lyon2.fr/~ricco/tanagra) a été mis en ligne en janvier 2004. Il compte en moyenne une vingtaine de visiteurs par jour. TANAGRA est également référencé par les principaux portails de l’ECD.

WEKA, un logiciel libre d’apprentissage et de data mining. Yves Lechevallier, Inria-Rocquencourt, 78153 Le Chesnay cedex. E_mail Yves.Lechevallier@inria.fr

Le logiciel libre WEKA a été écrit en JAVA à l’Université de Waikato en Nouvelle Zelande par une groupe de chercheurs issus des domaines de l’apprentissage, la reconnaissance des formes et du data mining. Weka est un ensemble d’algorithmes d’apprentissage, de reconnaissance des forme et de data mining recouvrant les méthodes de classification supervisées et non supervisées. Une structure de tableau de données normalisé (le format ARFF) et des outils d’interrogation de bases de données permet d’avoir une entrée unique. Actuellement WEKA contient des modules de pré analyse et de visualisation, de classification, de régression et des algorithmes construisant des règles d’association. WEKA est un “open source software” sous le licence publique GNU.