Le Monde des Utilisateurs de L'Analyse de Données

Numéro 34

 
 

Multiple time series: New approches and new tools in data mining applications to cancer epidemiology.
Mireille Gettler SUMMA, Frédérick VAUTRAIN, Laurent SCHWARTZ, Mathieu BARRAULT, Jean Marc STEYAERT, Nicolas HAFNER.
La revue MODULAD, numéro 34, Juillet 2006

Résumé
Des résultats innovants en fouille de données complexes fournissent des approches originales pour les épidémiologistes qui bénéficient de traitements interactifs pour aborder leurs données conjointement sous toutes leurs entrées et en tirer des résultats. L’étude présente des algorithmes qui travaillent sur des espaces multidimensionnels de fonctions (ici des chroniques ou bien encore des distributions discrètes ou discrétisées à support fini) avec moins de perte d’information que dans les codages habituels par agrégation, quantiles ou autres ; ils ont été implémentés dans le logiciel DELTA Suite : chaque cellule d’une table étudiée contient une donnée complexe (par exemple une série temporelle). Delta Suite est utilisé ici dans deux études épidémiologiques de l’évolution des cancers dans le temps et dans l’espace: en un premier temps pour la visualisation simultanée et l’exploration des chroniques de taux de mortalité par cancer sur cinq entrées conjointes ( géographiques, temporelles, âge, sexe et pathologies) puis dans un deuxième temps pour la comparaison géographique des courbes d’évolution des cancers du poumon pour 51 pays et 21 années par généralisation des approches de classification automatique.

Mots-clés : logiciel pour la fouille de données, séries temporelles multidimensionnelles, base de données en épidémiologie du cancer, classification pyramidale complexe.

Abstract
Innovating data mining tool for complex data provide new and comprehensive viewpoints to the epidemiologist who can derive original results and perform interactive treatments. New algorithms working in a multidimensional space on curves (such as a set of multiple time series in our study) or on discrete distributions, with les loss of information as it is the case with more classical encoding techniques (e.g. by data aggregation: means, quintiles etc.) have been studied and have been implemented in Delta Suite software. Each cell of the table under study is a function (in this case time series). Delta Suite software is applied for comparing epidemiological trends w.r.t. time, on two illustrative studies of the WHO data:
- the simultaneous visualization and exploration of the time series for cancer death rates on many entries, geographical information, temporal data, age, sex and pathologies.
- the geographic comparison of lung cancer evolutions over 21 years by building automatic classifications.

Key words: Data Mining software, multiple time series, cancer epidemiology data base, complex pyramidal clustering

Télécharger : Multiple time series: New approches and new tools in data mining applications to cancer epidemiology.