Mélanges gaussiens bidimensionnels pour la comparaison de deux échantillons de chromatine immunoprécipitée
Caroline Bérard, Marie-Laure Martin-Magniette, Alexandra To, François Roudier, Vincent Colot, Stéphane Robin
.
La revue MODULAD, numéro 40, hiver 2009.
Résumé
L'immunoprécipitation de la chromatine (ChIP) permet d'étudier les interactions entre les protéines et l'ADN ainsi que différents états chromatiniens.
Le ChIP-chip est une technique combinant l'immunoprécipitation de la chromatine avec
le principe des puces à ADN, ce qui permet une étude à l'échelle du génome.
Nous nous intéressons ici à l'analyse des différences entre deux échantillons d'ADN
immunoprécipité. Biologiquement, on s'attend à distinguer quatre groupes différents :
un groupe d'ADN non-immunoprécipité, un groupe d'ADN immunoprécipité identiquement
dans les deux échantillons et deux groupes dans lesquels l'ADN est immunoprécipité en quantités différentes.
Nous modélisons ces données par un mélange de gaussiennes bidimensionnelles à quatre composants.
Les matrices de variance sont contraintes afin d'intégrer des connaissances biologiques.
Les paramètres sont estimés par l'algorithme EM. Nous appliquons cette méthode pour étudier
la différence de méthylation d'une histone entre
l'écotype sauvage de la plante modèle \textit{Arabidopsis thaliana} et un mutant.
Mots clés
Mélange gaussien, décomposition spectrale, algorithme EM, ChIP-chip.
Abstract
Chromatin immunoprecipitation (ChIP) enables to investigate interactions between proteins
and DNA and also various chromatin states. ChIP-chip is a well-established procedure combining
chromatin immunoprecipitation with DNA microarrays, which allows a study of the whole genome.
We are interested in the analyze of the differences between two immunoprecipitated DNA samples.
From a biological point of view, we expect to distinguish four different groups: a group
of non-immunoprecipited DNA, a group of immunoprecipited DNA in both samples, and then
two groups in which DNA is differently immunoprecipited. We propose to model these data with a mixture
of two-dimensional Gaussians with four components. Biological knowledges are included as constraints on
the variance matrices. The parameters are estimated by the EM algorithm. This method is applied to NimbleGen
data in order to study the histone methylation difference between
the wild ecotype of the model plant Arabidopsis thaliana and a mutant.
Key words
Gaussian mixture, eigenvalue decomposition, EM algorithm, ChIP-chip.
Article
|