Le Monde des Utilisateurs de L'Analyse de Données

Numéro 40

 
 

Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée Caroline Bérard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, Stéphane Robin . La revue MODULAD, numéro 40, hiver 2009.

Résumé
L'immunoprécipitation de la chromatine (ChIP) permet d'étudier les interactions entre les protéines et l'ADN ainsi que différents états chromatiniens. Le ChIP-chip est une technique combinant l'immunoprécipitation de la chromatine avec le principe des puces à ADN, ce qui permet une étude à l'échelle du génome. Nous nous intéressons ici à l'analyse des différences entre deux échantillons d'ADN immunoprécipité. Biologiquement, on s'attend à distinguer quatre groupes différents : un groupe d'ADN non-immunoprécipité, un groupe d'ADN immunoprécipité identiquement dans les deux échantillons et deux groupes dans lesquels l'ADN est immunoprécipité en quantités différentes. Nous modélisons ces données par un mélange de gaussiennes bidimensionnelles à quatre composants. Les matrices de variance sont contraintes afin d'intégrer des connaissances biologiques. Les paramètres sont estimés par l'algorithme EM. Nous appliquons cette méthode pour étudier la différence de méthylation d'une histone entre l'écotype sauvage de la plante modèle \textit{Arabidopsis thaliana} et un mutant.

Mots clés 
Mélange gaussien, décomposition spectrale, algorithme EM, ChIP-chip.

Abstract
Chromatin immunoprecipitation (ChIP) enables to investigate interactions between proteins and DNA and also various chromatin states. ChIP-chip is a well-established procedure combining chromatin immunoprecipitation with DNA microarrays, which allows a study of the whole genome. We are interested in the analyze of the differences between two immunoprecipitated DNA samples. From a biological point of view, we expect to distinguish four different groups: a group of non-immunoprecipited DNA, a group of immunoprecipited DNA in both samples, and then two groups in which DNA is differently immunoprecipited. We propose to model these data with a mixture of two-dimensional Gaussians with four components. Biological knowledges are included as constraints on the variance matrices. The parameters are estimated by the EM algorithm. This method is applied to NimbleGen data in order to study the histone methylation difference between the wild ecotype of the model plant Arabidopsis thaliana and a mutant.

Key words 
Gaussian mixture, eigenvalue decomposition, EM algorithm, ChIP-chip.

Article