Données biologiques haut-débit : problèmes méthodologiques liés à la dimension et utilisation des algorithmes génétiques Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1 Christelle REYNES Données haut-débit et réduction de dimension 1/70
INTRODUCTION Christelle REYNES Données haut-débit et réduction de dimension 2/70
Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) Christelle REYNES Données haut-débit et réduction de dimension 3/70
Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) => nouvelles contraintes dans l analyse dues à la dimension => nécessité la plupart du temps de mettre au point des protocoles de réduction de dimension Christelle REYNES Données haut-débit et réduction de dimension 3/70
Les puces à ADN Le séquençage haut-débit EXEMPLES DE DONNEES ET DE QUESTIONS BIOLOGIQUES Christelle REYNES Données haut-débit et réduction de dimension 4/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN Christelle REYNES Données haut-débit et réduction de dimension 5/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Christelle REYNES Données haut-débit et réduction de dimension 6/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Etude d un (ou plusieurs) échantillon(s) d intérêt par hybridation (complémentarité des bases) Christelle REYNES Données haut-débit et réduction de dimension 6/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Christelle REYNES Données haut-débit et réduction de dimension 7/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Christelle REYNES Données haut-débit et réduction de dimension 7/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Transformations utilisation du ratio entre les deux marquages transformation log 2 Christelle REYNES Données haut-débit et réduction de dimension 7/70
Les puces à ADN Le séquençage haut-débit Les puces à ADN : les questions Cas le plus courant : étude de données d expression Objectif : rechercher des gènes qui s expriment différemment entre les conditions de l étude (différents temps, malade/non malade,...) => Identification de gènes potentiellement impliqués dans le phénomène étudié Applications : recherche de marqueurs diagnostiques, de cibles thérapeutiques,... Problème : lien pas toujours direct entre niveau d expression et de fluorescence (beaucoup d intermédiaires) Christelle REYNES Données haut-débit et réduction de dimension 8/70
Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit Christelle REYNES Données haut-débit et réduction de dimension 9/70
Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa) Christelle REYNES Données haut-débit et réduction de dimension 10/70
Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les données Données brutes liste des séquences lues par la machine Traitement pré-analyse estimation de la qualité du séquençage alignement sur le génome correspondant (mapping) filtrage (élimination des repeats, tolérance aux erreurs de séquençage,...) Données à analyser Nombre de fois où une séquence donnée a été séquencée Signification : plus ou moins proportionnel à la quantité initiale Souvent plusieurs millions de lignes Nécessité de normaliser les données (effet banque, longueur, séquence,...) Christelle REYNES Données haut-débit et réduction de dimension 11/70
Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les questions Technique utilisée pour remplacer les puces à ADN (recherche de gènes différentiellement exprimés, ChIP-seq,...) avec moins d a priori Possibilité d étudier plus largement d autres phénomènes : épissage alternatif, micro ARN, SNP... MAIS est-on pour l instant vraiment capables de répondre à des questions très fines? Christelle REYNES Données haut-débit et réduction de dimension 12/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible LE PROBLEME DE LA DIMENSION ET SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 13/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les différents types de problèmes liés à la dimension Problèmes d obtention et de manipulation des données Problèmes d interprétation Problèmes d apprentissage statistique Christelle REYNES Données haut-débit et réduction de dimension 14/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d obtention et de manipulation des données Si on cherche à choisir un traitement à partir de 1000 gènes, impossible de mesurer l expression de ces 1000 gènes pour chaque nouveau patient Problèmes de stockage des données Certaines méthodes ne peuvent être appliquées si plus de variables que d observations Temps de calcul plus réduits sur des données de moindre taille Christelle REYNES Données haut-débit et réduction de dimension 15/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d interprétation Beaucoup de variables => modèles difficiles voire impossibles à interpréter => difficile compréhension des phénomènes étudiés Ex. : puce à ADN : on cherche à savoir, sur la base de l expression de 1000 gènes, le meilleur traitement à appliquer parmi trois => problème de classification solution possible : LDA (Linear Discriminant Analysis) avec tous les gènes problème : si cela fonctionne, difficile de savoir quels sont les gènes responsables de la discrimination Christelle REYNES Données haut-débit et réduction de dimension 16/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d apprentissage Risque de sur-ajustement : Même avec méthodes robustes (SVM bien ajusté, forêts aléatoires,...), très grand nombre de variables => modèles non généralisables Possible d identifier le problème (validation croisée, jeu indépendant de validation,...) mais impossible de le résoudre... Problème du bruit Quelques variables signifiantes noyées au milieu de milliers de variables non pertinentes => impossible pour la plupart des méthodes de trouver un modèle convenable. Très difficile à diagnostiquer (trop de bruit ou absence de signal?) Christelle REYNES Données haut-débit et réduction de dimension 17/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (1) Les données : Prédiction d une propriété thérapeutique importante (le volume de distribution à l équilibre, Vss) pour n = 138 molécules décrites par p = 1532 descripteurs physico-chimiques (1D, 2D et 3D). Problème chimiquement difficile. p > n => régression linéaire impossible Utilisation de PLS pour différents sous-ensembles de variables : ensemble des 1532 descripteurs élimination des corrélations trop fortes entre variables (=> p=524) méthode de sélection de variables adaptée au problème (=> p=25) Christelle REYNES Données haut-débit et réduction de dimension 18/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (2) Résultats Données R 2 RCV 2 Rtest 2 A Phénomène p = 1532 0.536 0.282 0.175 12 Bruit p = 524 0.834 0.392 0.375 18 Sur-ajustement p = 25 0.624 0.550 0.493 7 Christelle REYNES Données haut-débit et réduction de dimension 19/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible LES METHODES DE SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 20/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Christelle REYNES Données haut-débit et réduction de dimension 21/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Christelle REYNES Données haut-débit et réduction de dimension 21/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Les méthodes embarquées Sélection = partie intégrante de l apprentissage Dépendant du problème considéré Méthode adaptée à chaque méthode d apprentissage Christelle REYNES Données haut-débit et réduction de dimension 21/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Filtres Evaluent la pertinence des variables à partir de leurs caractéristiques intrinsèques indépendamment du problème. Avantages Inconvénients Exemples rapide indépendant du classifieur choisi parfois indispensable indépendant du problème posé souvent univarié univarié : variance, information,... multivarié : corrélation,... Christelle REYNES Données haut-débit et réduction de dimension 22/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes enveloppantes Evaluent la pertinence d un sousensemble de variables en fonction des résultats du classifieur choisi. Deux types : déterministe, aléatoire Avantages Inconvénients Exemples simple à mettre en œuvre pour tout classifieur intéragit avec le classifieur tient compte des interactions entre variables risque de sur-ajustement ou d optimum local dépend du classifieur déterministe : exploration exhaustive (souvent impossible), forward/backward,... aléatoire : algo génétiques, autre méta heuristique,... Christelle REYNES Données haut-débit et réduction de dimension 23/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes embarquées La sélection de variables fait partie intégrante de l apprentissage du classifieur. Avantages Inconvénients Exemples intéragit avec le classifieur tient compte des interactions entre variables généralement plus rapide que les enveloppantes possible seulement pour certains classifieurs dépend du classifieur CART, naïve Bayes, méthodes sparses,... Christelle REYNES Données haut-débit et réduction de dimension 24/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Le principe : Utiliser seulement un sous-ensemble des variables pour la construction des composantes par seuillage des coefficients PLS. t 1 = p j=1 w 1j x j Si w 1j < ε alors on décide que w 1j = 0. Gestion des seuils par un coefficient de sparsité, η à optimiser. Problème : le sous-ensemble obtenu n est pas optimal pour PLS... Retour à l exemple : Optimisation en 10-FCV => η=0.5 et A=3 d où p= 178. Données R 2 R 2 CV R 2 test A p = 25 0.624 0.550 0.493 7 p = 178 0.716 0.474 0.463 3 Christelle REYNES Données haut-débit et réduction de dimension 25/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Retour à l exemple : De plus, difficile d optimiser le coefficient de sparsité. Etude des 3 meilleures combinaisons de paramètres obtenues : K η R 2 CV 3 0.5 0.474 5 0.4 0.471 5 0 0.467 Si on cherche un effet de η sur R 2 CV : => des valeurs très différentes de η donnent des résultats très similaires. R2CV 0.25 0.30 0.35 0.40 0.45 => Pas d effet significatif 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 eta Christelle REYNES Données haut-débit et réduction de dimension 26/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 27/70
Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 28/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables UTILISATION DES ALGORITHMES GENETIQUES Christelle REYNES Données haut-débit et réduction de dimension 29/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques Christelle REYNES Données haut-débit et réduction de dimension 30/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques (=AG) Algorithme génétique = méta-heuristique mimant les processus de l évolution naturelle Nécessité de définir une fonction quantifiant la qualité d une solution =fitness Travaille sur une population de solutions potentielles au problème d optimisation posé. Trois étapes principales et itératives : mutation : introduit l aléa permettant l exploration de l espace des solutions croisement : permet de combiner les caractéristiques précédemment obtenues sélection : permet de retenir préférentiellement les solutions les plus intéressantes Christelle REYNES Données haut-débit et réduction de dimension 31/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Les algorithmes génétiques : déroulement global 1. Formulation du problème d optimisation 2. Codage des solutions du problème 3. Construction de la population initiale 4. Evolution de la population Mutation Croisement Sélection 5. Tant que le critère de convergence n est pas atteint revenir à l étape 4 sinon passer à l étape 6 6. Analyse de la population finale : convergence contenu Christelle REYNES Données haut-débit et réduction de dimension 32/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Christelle REYNES Données haut-débit et réduction de dimension 33/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. Christelle REYNES Données haut-débit et réduction de dimension 33/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. En général, on fixe un temps de calcul ou un nombre de générations maximal. Autre solution : utiliser des critères de convergence. Christelle REYNES Données haut-débit et réduction de dimension 33/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Christelle REYNES Données haut-débit et réduction de dimension 34/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Christelle REYNES Données haut-débit et réduction de dimension 34/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Christelle REYNES Données haut-débit et réduction de dimension 34/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Christelle REYNES Données haut-débit et réduction de dimension 34/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Perspectives : Prendre en compte dans le critère, l allure estimée de la fonction de fitness. Christelle REYNES Données haut-débit et réduction de dimension 34/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Christelle REYNES Données haut-débit et réduction de dimension 35/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Christelle REYNES Données haut-débit et réduction de dimension 35/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Initialisation On génère T pop solutions aléatoirement de sorte à explorer au mieux l espace des solutions. Christelle REYNES Données haut-débit et réduction de dimension 35/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Christelle REYNES Données haut-débit et réduction de dimension 36/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Christelle REYNES Données haut-débit et réduction de dimension 36/70
Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Sélection Calcul de la fitness des solutions de la population courante Calcul du rang des solutions (rang de la meilleure : T pop ) Calcul des probabilités de sélection : P(solution#i)=α i β Christelle REYNES Données haut-débit et réduction de dimension 36/70
Sélection de SNPs Recherche et regroupement de gènes DE TROIS EXEMPLES DE METHODES DEVELOPPEES Christelle REYNES Données haut-débit et réduction de dimension 37/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs. Mise au point d arbres de classification multivariés. Application à un problème de drug design. Recherche de gènes différentiellement exprimés. Christelle REYNES Données haut-débit et réduction de dimension 38/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Christelle REYNES Données haut-débit et réduction de dimension 39/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a 2 369 935 possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Christelle REYNES Données haut-débit et réduction de dimension 39/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a 2 369 935 possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Solution proposée : Christelle REYNES Données haut-débit et réduction de dimension 39/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Les données simulées Génération aléatoire (uniforme) de 10 SNPs {X 1,X 2,...,X 10 } {0,1,2} 10 sur 400 observations réparties en 5 familles. Génération d une variable de phénotype : y = 2X 1 3X 2 2X 10 4X 1 X 2 bf ε avec b vecteur des effets famille et F indicatrice de la famille. => On souhaite sélectionner les variables 1, 2 et 10 ainsi que l interaction entre 1 et 2. Christelle REYNES Données haut-débit et réduction de dimension 40/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness On se place dans le contexte du modèle linéaire mixte : avec y = µ XβZu ε y le caractère phénotypique quantitatif à prédire, µ le vecteur des termes constants, X la matrice des valeurs des SNPs et/ou interactions sélectionnés, β le vecteur des coefficients des effets fixes, Z la matrice des indicatrices des familles, u le vecteur de variables aléatoires des effets aléatoires MVN(0,G) ε le vecteur d erreurs aléatoires MVN(0,Iσ 2 ) Christelle REYNES Données haut-débit et réduction de dimension 41/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Critère utilisé pour évaluer un modèle : RLR 2 (Cox & Snell, 1989 ; Magee, 1990), statistique homogène à un R 2 basé sur le rapport de vraisemblance et prenant en compte l aspect aléatoire du modèle proposé. ( R 2 LR = 1 exp 2 ) n (logl M logl 0 ) avec n le nombre d observations logl M le maximum de vraisemblance du modèle testé, logl 0 le maximum de vraisemblance du modèle nul. En l absence de terme aléatoire, R 2 LR se réduit au R2 classique. Christelle REYNES Données haut-débit et réduction de dimension 42/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Utilisation d une pénalisation pour prendre en compte la dimension du modèle : ( fit= RLRα 2 P var P inter 1 (Pmax var Pmax inter ) Pmax ) var Pmax inter 1 (Pmax var Pmax inter ) avec RLR 2 valeur du critère pour la solution évaluée P var nombre de SNPs introduits dans la solution évaluée P inter nombre d interactions introduites dans la solution évaluée Pmax var nombre maximum de SNPs à introduire dans le modèle Pmax inter nombre maximum d interactions à introduire dans le modèle Deuxième précaution pour éviter le sur-ajustement : chaque génération travaille sur une moitié tirée au hasard de la population (fausse validation croisée) Christelle REYNES Données haut-débit et réduction de dimension 43/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation On génère des solutions incluant au plus Pmax var = 5 SNPs et Pmax inter = 5 interactions => 1 386 618 solutions possibles! Utilisation d a priori pour initialiser la population : Pour chaque SNP i ou interaction j : construction du modèle ne contenant que ce SNP ou cette interaction calcul de la p-value (a i ou b j ) associée à ce terme Calcul de la probabilité de sélection : pour chaque SNP i : p i = 1 a i nvar k=1 1 a k pour chaque interaction j : q i = 1 b i n inter k=1 1 b k Christelle REYNES Données haut-débit et réduction de dimension 44/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation Déroulement de l initialisation pour chacune des T pop solutions : choix aléatoire uniforme d un nombre P var de SNPs entre 0 et Pmax var choix aléatoire des P var SNPs selon le vecteur de probabilités p=p 1,p 2,...,p nvar choix aléatoire uniforme d un nombre P inter d interactions entre 0 et Pmax inter choix aléatoire des P inter interactions selon le vecteur de probabilités q=q 1,q 2,...,q ninter calcul du RLR 2 pour le modèle obtenu calcul de la fitness Exemple de solution codée obtenue : (2,3,9,NA,NA,12,27,NA,NA,NA) Christelle REYNES Données haut-débit et réduction de dimension 45/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Mutation Principe : modification d une solution (sélection SNPinteractions) de la population précédente. Objectif : pouvoir passer de n importe quelle solution à n importe quelle autre en un nombre fini de générations. Trois possibilités : supprimer un SNP ou une interaction (choix aléatoire uniforme) : 25% des cas, ajout équiprobable d un SNP ou d une interaction (choix aléatoire selon p ou q) : 25% des cas, modification d un SNP ou d une interaction présente (mêmes principes) : 50% des cas. Christelle REYNES Données haut-débit et réduction de dimension 46/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Croisement Utilisation d un croisement à deux points : Christelle REYNES Données haut-débit et réduction de dimension 47/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 20 Generations o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 20 T pop = 100 π m = 0.9 π c = 0.8 α=0.05 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 48/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : run solutions trouvées 1 1 2 10 NA NA 1x2 NA NA NA NA 2 1 2 10 NA NA 1x2 NA NA NA NA 3 1 2 10 NA NA 1x2 NA NA NA NA 4 1 2 10 NA NA 1x2 NA NA NA NA 5 1 2 10 NA NA 1x2 NA NA NA NA 6 1 2 10 NA NA 1x2 NA NA NA NA 7 1 2 10 NA NA 1x2 1x10 NA NA NA 8 1 2 10 NA NA 1x2 NA NA NA NA 9 1 2 10 NA NA 1x2 NA NA NA NA 10 1 2 10 NA NA 1x2 1x4 2x4 NA NA => résultats très satisfaisants Christelle REYNES Données haut-débit et réduction de dimension 49/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles 344 arbres pour lesquels on a séquencé 49 SNP appartenant à 6 gènes différents : 3 gènes de cellulose synthase et 3 gènes candidats de la voie de synthèse des lignines. On a également mesuré leur teneur en hémi-cellulose que l on cherche à prédire. Christelle REYNES Données haut-débit et réduction de dimension 50/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles => structure forte de corrélations Christelle REYNES Données haut-débit et réduction de dimension 51/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Pré-traitement - utilisation de filtres Problème du modèle en cas d inclusion de variables très corrélées => élimination des variables corrélées à 1 (2 variables éliminées) Utilisation de 50% des données à chaque génération => risque de faire apparaître des corrélations très fortes vue la structure => on travaille avec 75% des données à chaque génération => on élimine les variables corrélées en valeur absolue à plus de 0.95 (3 variables supplémentaires éliminées) 44 SNPs => 1176 interactions possibles => 1.87e13 solutions possibles pour 5 SNPs et 5 interactions => on réduit à 2 interactions => 1 928 071 solutions possibles => on n introduit que les interactions ayant une p-value < 0.2 => restent 243 interactions Christelle REYNES Données haut-débit et réduction de dimension 52/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence 0 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0 c(0, Ngene) c(0, 1) o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 50 T pop = 200 π m = 0.9 π c = 0.8 α=0.01 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 53/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : solutions trouvées Cesa1.4479 Cesa3.3107 EuC4H1.2631 EuC4H2.0880 EuCAD2.5094 Cesa1.4479xEuC4H1.2531 EuC4 Cesa1.4479 EuC4H2.2200 EuC4H2.0880 EuCAD2.4997 NA Cesa2.3477xCesa3.2101 EuC4 Cesa3.2101 EuCAD2.0227 EuC4H2.2200 NA NA EuC4H2.2200xEuCAD2.5094 Ces EuC4H2.0385 EuC4H1.1122 EuCAD2.0227 NA NA Cesa3.2101xEuC4H2.2200 EuC4 Cesa3.3107 EuC4H2.2200 EuC4H2.0880 EuCAD2.0227 EuCAD2.5094 Cesa3.0683xEuCAD2.5094 EuC4 Cesa3.0543 EuC4H2.2200 EuC4H2.0880 EuCAD2.0227 EuCAD2.0258 EuCAD2.0227xEuCAD2.0258 EuC4 EuC4H2.0880 EuCAD2.0227 EuC4H1.2631 NA N Cesa3.0683xEuCAD2.5094 Ces Cesa3.2101 EuCAD2.0227 NA NA NA EuC4H1.2631xEuC4H2.0880 EuC4 EuC4H1.3086 EuC4H2.2200 EuCAD2.0227 EuCAD2.5094 NA Cesa1.0394xCesa3.2101 EuC4 Cesa3.2101 EuCAD2.0227 EuCAD2.5094 NA NA EuC4H1.2631xEuC4H2.0880 Ces => une certaine stabilité des résultats => RLR 2 moyen de 0.0878 (/- 0.0125) Christelle REYNES Données haut-débit et réduction de dimension 54/70
Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Corrélation entre les SNP sélectionnés en effets principaux EuCAD2.5094 EuCAD2.4997 EuCAD2.0258 EuCAD2.0227 EuC4H2.2200 EuC4H2.0880 EuC4H2.0385 EuC4H1.3086 EuC4H1.2631 EuC4H1.1122 Cesa3.3107 Cesa3.2101 Cesa3.0543 Cesa1.4479 Cesa1.4479 Cesa3.0543 Cesa3.2101 Cesa3.3107 EuC4H1.1122 EuC4H1.2631 EuC4H1.3086 EuC4H2.0385 EuC4H2.0880 EuC4H2.2200 EuCAD2.0227 EuCAD2.0258 EuCAD2.4997 EuCAD2.5094 Christelle REYNES Données haut-débit et réduction de dimension 55/70
Sélection de SNPs Recherche et regroupement de gènes DE Introduction Le contexte : Dans le domaine de la conception de molécules thérapeutiques (drug design), actuellement beaucoup d attention sur les molécules inhibitrices d interactions protéine-protéine (ippi). Problème : les chimiothèques actuelles contiennent très peu d ippi. La double problématique : Chercher à prédire le caractère ippi ou non d une molécule à partir de ses caractéristiques 1D, 2D et 3D Mieux comprendre l espace chimique recouvert par les ippi Les données : 10925 molécules dont 385 ippi 4885 descripteurs Christelle REYNES Données haut-débit et réduction de dimension 56/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Objectif d interprétabilité des modèles interaction avec chimistes => orientation vers arbres de classification Reynès et al., PLoS Comput. Biol., 2010 & Sperandio et al., Drug Discovery Today, 2010 => meilleure compréhension de l espace des ippi => modèle utilisable pour construire des chimiothèques MAIS Utilisation a minima de l info Impossible de prolonger l arbre Christelle REYNES Données haut-débit et réduction de dimension 57/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Orientation vers les arbres multivariés (Strobl et al., 2009, Franco-Arcega et al., 2010) A chaque nœud de l arbre, plusieurs variables sont combinées pour prendre une décision. Exemple : desc 1 > seuil 1 & desc 2 seuil 2 & desc 3 > seuil 3 Problème : Comment choisir les variables, les seuils et le sens des inégalités? Combinatoire très importante => utilisation des AG Christelle REYNES Données haut-débit et réduction de dimension 58/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Christelle REYNES Données haut-débit et réduction de dimension 59/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle E = TP TPFP TPFN TPFPFNTN Christelle REYNES Données haut-débit et réduction de dimension 59/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle Initialisation : E = TP TPFP TPFN TPFPFNTN Utilisation de 3 descripteurs maximum par nœud Probabilité a priori en fonction du gain d information associé à chaque variable Christelle REYNES Données haut-débit et réduction de dimension 59/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Christelle REYNES Données haut-débit et réduction de dimension 60/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Croisement On croise par bloc (variable seuil sens) Christelle REYNES Données haut-débit et réduction de dimension 60/70
Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Résultats pour le nœud 1 : Combinaison des résultats de plusieurs runs : représentation par un positionnement multi-dimensionnel des variables sélectionnées et de la fréquence de leurs associations desc5 desc6 desc7 desc2. desc4. desc3 desc1 Christelle REYNES Données haut-débit et réduction de dimension 61/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : Arbres multivariés = généralisation très intéressante de CART avec interprétabilité du modèle obtenu sans troncature importante de l information MAIS explosion de la combinatoire => nécessité d utiliser des méthodes aléatoires utilisation de plusieurs runs => étude de la robustesse et mise en évidence de solutions concurrentes (meilleure compréhension du phénomène) Remarque : autre méthode de sélection large de variables en CART : les Random Forests (perte de l interprétabilité du modèle) Christelle REYNES Données haut-débit et réduction de dimension 62/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Christelle REYNES Données haut-débit et réduction de dimension 63/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Christelle REYNES Données haut-débit et réduction de dimension 64/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Christelle REYNES Données haut-débit et réduction de dimension 64/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Problème d optimisation : trouver les centres de gravité des groupes positionner l ensemble du groupe en un seul point sur chaque axe de la méthode Christelle REYNES Données haut-débit et réduction de dimension 64/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Fitness : Christelle REYNES Données haut-débit et réduction de dimension 65/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 66/70
Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 67/70
Sélection de SNPs Recherche et regroupement de gènes DE CONCLUSION Christelle REYNES Données haut-débit et réduction de dimension 68/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Christelle REYNES Données haut-débit et réduction de dimension 69/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Cependant, attention à utiliser ces technologies à bon escient! l a priori n est pas forcément un handicap (=expérience) certains biologistes agissent plus par curiosité ou phénomène de mode que par réel intérêt scientifique possibilité de combiner ces techniques avec d autres techniques plus traditionnelles nécessité d une maîtrise de ces données (mieux vaut une expérience à l ancienne bien menée, planifiée et maîtrisée qu une expérience innovante mais mal réalisée) Christelle REYNES Données haut-débit et réduction de dimension 69/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données Christelle REYNES Données haut-débit et réduction de dimension 70/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles Christelle REYNES Données haut-débit et réduction de dimension 70/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage Christelle REYNES Données haut-débit et réduction de dimension 70/70
Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage les solutions à apporter toujours essayer les techniques simples avant de mettre en place des protocoles plus complexes et donc plus risqués choisir des méthodes adaptées aux contraintes des données souvent efficace de combiner des méthodes de diverses natures Christelle REYNES Données haut-débit et réduction de dimension 70/70