Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012"

Transcription

1 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1 8 Juin 2012

2 INTRODUCTION

3 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN)

4 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) => nouvelles contraintes dans l analyse dues à la dimension => nécessité la plupart du temps de mettre au point des protocoles de réduction de dimension

5 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit EXEMPLES DE DONNEES ET DE QUESTIONS BIOLOGIQUES

6 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN

7 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce)

8 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Etude d un (ou plusieurs) échantillon(s) d intérêt par hybridation (complémentarité des bases)

9 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...)

10 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...)

11 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Transformations utilisation du ratio entre les deux marquages transformation log 2

12 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : les questions Cas le plus courant : étude de données d expression Objectif : rechercher des gènes qui s expriment différemment entre les conditions de l étude (différents temps, malade/non malade,...) => Identification de gènes potentiellement impliqués dans le phénomène étudié Applications : recherche de marqueurs diagnostiques, de cibles thérapeutiques,... Problème : lien pas toujours direct entre niveau d expression et de fluorescence (beaucoup d intermédiaires)

13 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : les questions Etude des interactions ADN-protéine : ChIP-chip Objectif : localiser et caractériser les sites de fixation d une protéine à l ADN (le plus souvent, facteur de transcription)

14 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Les puces à ADN : les questions Etude des interactions ADN-protéine : ChIP-chip Objectif : localiser et caractériser les sites de fixation d une protéine à l ADN (le plus souvent, facteur de transcription) Applications : compréhension des mécanismes en jeu dans la régulation des gènes, la prolifération cellulaire, l évolution de certaines maladies,... Particularité : possible utilisation de puces tuilées recouvrant tout le génome => dépendance entre sondes successives Wahlberg et al., Blood, 2009

15 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit La protéomique par spectrométrie de masse

16 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit La protéomique par spectrométrie de masse : la technique Protéomique = étude des protéines présentes dans un tissu, un organe,... pour un moment et une condition donnés Trois étapes principales dans les études de protéomique : Extraction (étape cruciale mais très délicate) Séparation (électrophorèse 2D ou spectrométrie de masse) Caractérisation et quantification (spectrométrie de masse) Obtention de spectres ayant plusieurs milliers de points Plusieurs techniques (SELDI, MALDI,...)

17 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit La protéomique par spectrométrie de masse : les données Données brutes Coordonnées des points des spectres (m/z en abscisse et intensité en ordonnée) Signification : plus ou moins proportionnel à la quantité de protides Traitement pré-analyse soustraction de la ligne de base, recalage des spectres, extraction des pics

18 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit La protéomique par spectrométrie de masse : les questions Objectif : rechercher des protéines dont les quantités sont différentes entre les conditions de l étude (différents temps, malade/non malade,...) => Identification de protéines potentiellement impliquées dans le phénomène étudié Applications : recherche de marqueurs diagnostiques, de cibles thérapeutiques,... Avantage : lien plus direct entre ce qu on mesure et la fonction Inconvénient : Matériel plus difficile à extraire.

19 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit

20 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa) Mardis, Annu Rev Genomics Hum Genet, 2008

21 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa)

22 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa)

23 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa)

24 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : les données Données brutes liste des séquences lues par la machine Traitement pré-analyse estimation de la qualité du séquençage alignement sur le génome correspondant (mapping) filtrage (élimination des repeats, tolérance aux erreurs de séquençage,...) Données à analyser Nombre de fois où une séquence donnée a été séquencée Signification : plus ou moins proportionnel à la quantité initiale Souvent plusieurs millions de lignes Nécessité de normaliser les données (effet banque, longueur, séquence,...)

25 Les puces à ADN La protéomique par spectrométrie de masse Le séquençage haut-débit Le séquençage haut-débit : les questions Technique utilisée pour remplacer les puces à ADN (recherche de gènes différentiellement exprimés, ChIP-seq,...) avec moins d a priori Possibilité d étudier plus largement d autres phénomènes : épissage alternatif, micro ARN, SNP... MAIS est-on pour l instant vraiment capables de répondre à des questions très fines?

26 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage LE PROBLEME DE LA DIMENSION

27 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Un problème d obtention et de manipulation des données Si on cherche à choisir un traitement à partir de 1000 gènes, impossible de mesurer l expression de ces 1000 gènes pour chaque nouveau patient Problèmes de stockage des données Certaines méthodes ne peuvent être appliquées si plus de variables que d observations Temps de calcul plus réduits sur des données de moindre taille

28 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Un problème d interprétation Beaucoup de variables => modèles difficiles voire impossibles à interpréter Ex. : puce à ADN : on cherche à savoir, sur la base de l expression de 1000 gènes, le meilleur traitement à appliquer parmi trois => problème de classification solution possible : LDA (Linear Discriminant Analysis) avec tous les gènes problème : si cela fonctionne, difficile de savoir quels sont les gènes responsables de la discrimination

29 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Un problème d apprentissage Sur-ajustement Beaucoup de variables => modèles susceptibles de sur-ajustement : le jeu d apprentissage est parfaitement modélisé mais le modèle obtenu est impossible à généraliser à d autres jeux de données. Même avec méthodes robustes (SVM bien ajusté, forêts aléatoires,...), très grand nombre de variables => modèles non généralisables Possible d identifier le problème (validation croisée, jeu indépendant de validation,...) mais impossible de le résoudre...

30 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Un problème d apprentissage Sur-ajustement Beaucoup de variables => modèles susceptibles de sur-ajustement : le jeu d apprentissage est parfaitement modélisé mais le modèle obtenu est impossible à généraliser à d autres jeux de données. Même avec méthodes robustes (SVM bien ajusté, forêts aléatoires,...), très grand nombre de variables => modèles non généralisables Possible d identifier le problème (validation croisée, jeu indépendant de validation,...) mais impossible de le résoudre... Problème de bruit Quelques variables signifiantes noyées au milieu de milliers de variables non pertinentes => impossible pour la plupart des méthodes de trouver un modèle convenable.

31 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Illustration sur un exemple (1) Les données : Prédiction d une propriété thérapeutique importante (le volume de distribution à l équilibre, Vss) pour n = 138 molécules décrites par p = 1532 descripteurs physico-chimiques (1D, 2D et 3D). Problème chimiquement difficile. p > n => régression linéaire impossible Utilisation de PLS pour différents sous-ensembles de variables : ensemble des 1532 descripteurs élimination des corrélations trop fortes entre variables (=> p = 524) méthode de sélection de variables adaptée au problème (=> p = 25)

32 Un problème d obtention et de manipulation des données Un problème d interprétation Un problème d apprentissage Illustration sur un exemple (2) Résultats Données R 2 RCV 2 Rtest 2 A Phénomène p = Bruit p = Sur-ajustement p =

33 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible LES METHODES DE SELECTION DE VARIABLES

34 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié

35 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode

36 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Les méthodes embarquées Sélection = partie intégrante de l apprentissage Dépendant du problème considéré Méthode adaptée à chaque méthode d apprentissage

37 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Les Filtres Evaluent la pertinence des variables à partir de leurs caractéristiques intrinsèques indépendamment du problème. Avantages Inconvénients Exemples rapide indépendant du classifieur choisi parfois indispensable indépendant du problème posé souvent univarié univarié : variance, information,... multivarié : corrélation,...

38 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Les Méthodes enveloppantes Evaluent la pertinence d un sousensemble de variables en fonction des résultats du classifieur choisi. Deux types : déterministe, aléatoire Avantages Inconvénients Exemples simple à mettre en œuvre pour tout classifieur intéragit avec le classifieur tient compte des interactions entre variables risque de sur-ajustement ou d optimum local dépend du classifieur déterministe : exploration exhaustive (souvent impossible), forward/backward,... aléatoire : algo génétiques, autre méta heuristique,...

39 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Les Méthodes embarquées La sélection de variables fait partie intégrante de l apprentissage du classifieur. Avantages Inconvénients Exemples intéragit avec le classifieur tient compte des interactions entre variables généralement plus rapide que les enveloppantes possible seulement pour certains classifieurs dépend du classifieur CART, naïve Bayes, méthodes sparses,...

40 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Le principe : Utiliser seulement un sous-ensemble des variables pour la construction des composantes par seuillage des coefficients PLS. t 1 = p j=1 w 1j x j Si w 1j < ε alors on décide que w 1j = 0. Gestion des seuils par un coefficient de sparsité, η à optimiser. Problème : le sous-ensemble obtenu n est pas optimal pour PLS... Retour à l exemple : Optimisation en 10-FCV => η = 0.5 et A = 3 d où p = 178. Données R 2 R 2 CV R 2 test A p = p =

41 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Retour à l exemple : De plus, difficile d optimiser le coefficient de sparsité. Etude des 3 meilleures combinaisons de paramètres obtenues : K η R 2 CV Si on cherche un effet de η sur R 2 CV : => des valeurs très différentes de η donnent des résultats très similaires. R2CV => Pas d effet significatif eta

42 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Une démarche possible

43 Les Filtres Les Méthodes enveloppantes Les Méthodes embarquées Une démarche possible Une démarche possible

44 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés UTILISATION DES ALGORITHMES GENETIQUES

45 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Rappels sur les algorithmes génétiques

46 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Rappels sur les algorithmes génétiques (=AG) Algorithme génétique = méta-heuristique mimant les processus de l évolution naturelle Nécessité de définir une fonction quantifiant la qualité d une solution =fitness Travaille sur une population de solutions potentielles au problème d optimisation posé. Trois étapes principales et itératives : mutation : introduit l aléa permettant l exploration de l espace des solutions croisement : permet de combiner les caractéristiques précédemment obtenues sélection : permet de retenir préférentiellement les solutions les plus intéressantes

47 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc = (i,j,k,...,na,na) avec solloc[l] {1,...,p}

48 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc = (i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement

49 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc = (i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Initialisation On génère T pop solutions aléatoirement de sorte à explorer au mieux l espace des solutions.

50 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré

51 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles.

52 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Sélection Calcul de la fitness des solutions de la population courante Calcul du rang des solutions (rang de la meilleure : T pop ) Calcul des probabilités de sélection : P(solution#i) = α i + β

53 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés La sélection de variables en protéomique

54 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés La problématique REYNES C., SABATIER R. & MOLINARI N. (2007) A new genetic algorithm in proteomics : feature selection for SELDI-TOF data. Computational Statistics and Data Analysis, 52(9), Les données : 253 spectres SELDI dont 162 cancers et 91 contrôles 427 pics extraits La question : trouver le plus petit sous-ensemble de pics permettant de discriminer les deux groupes. Les problèmes statistiques : trouver une bonne méthode de discrimination choisir le nombre de pics et les pics à utiliser => combinatoire très importante

55 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés La méthode de discrimination : la forêt de branches Les contraintes : mesure d intensité très variable (jusqu à 50%) échantillons souvent de petite taille

56 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés La méthode de discrimination : la forêt de branches Les contraintes : mesure d intensité très variable (jusqu à 50%) échantillons souvent de petite taille Les choix : discrétisation des données par l utilisation d un seuil mise en parallèle de plusieurs classifieurs individuels ( utilisation séquentielle dans un arbre)

57 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés La méthode de discrimination : la forêt de branches Les contraintes : mesure d intensité très variable (jusqu à 50%) échantillons souvent de petite taille Les choix : discrétisation des données par l utilisation d un seuil mise en parallèle de plusieurs classifieurs individuels ( utilisation séquentielle dans un arbre) Constitution d un comité suivie d un vote :

58 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Le problème d optimisation : trouver le meilleur comité c est-à-dire de taille limitée et permettant une bonne discrimination (opposition classique entre précision et parcimonie).

59 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Le problème d optimisation : trouver le meilleur comité c est-à-dire de taille limitée et permettant une bonne discrimination (opposition classique entre précision et parcimonie). Le codage : une solution = un sous-ensemble de pics avec leurs seuils associés

60 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Le problème d optimisation : trouver le meilleur comité c est-à-dire de taille limitée et permettant une bonne discrimination (opposition classique entre précision et parcimonie). Le codage : une solution = un sous-ensemble de pics avec leurs seuils associés L initialisation : génération aléatoire de comités choix d un nombre de pics entre 1 et N max choix des pics choix des seuils

61 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Opérateur de mutation : ajout d un pic + seuil suppression d un pic + seuil modification d un seuil

62 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Opérateur de mutation : ajout d un pic + seuil suppression d un pic + seuil modification d un seuil Opérateur de croisement :

63 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Optimisation du comité par AG Critère à optimiser : = fitness doit permettre le compromis entre parcimonie (peu de pics pour éviter le sur-ajustement) et précision (bonne discrimination) => fitness = a % bien classés+b nb pics

64 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Résultats Observation de la convergence Comité obtenu : 3 pics => 100% bien classés en description => 98% bien classés en validation croisée.

65 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion mise au point d une méthode globale d analyse (pré-traitement non abordé ici) adaptation de méthodes classiques de discrimination aux contraintes de cette application (variabilité, taille des échantillons) obtention d une information riche par étude de la population finale possibilité d adapter la partie sélection de variables à n importe quel autre contexte

66 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés

67 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression.

68 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes

69 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Problème d optimisation : trouver les centres de gravité des groupes positionner l ensemble du groupe en un seul point sur chaque axe de la méthode

70 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés Fitness :

71 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés Résultats :

72 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Recherche et regroupement de gènes différentiellement exprimés

73 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés CONCLUSION

74 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions

75 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Cependant, attention à utiliser ces technologies à bon escient! l a priori n est pas forcément un handicap (=expérience) certains biologistes agissent plus par curiosité ou phénomène de mode que par réel intérêt scientifique possibilité de combiner ces techniques avec d autres techniques plus traditionnelles nécessité d une maîtrise de ces données (mieux vaut une expérience à l ancienne bien menée, planifiée et maîtrisée qu une expérience innovante mais mal réalisée)

76 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données

77 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles

78 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage

79 Rappels sur les algorithmes génétiques Recherche et regroupement de gènes différentiellement exprimés Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage les solutions à apporter toujours essayer les techniques simples avant de mettre en place des protocoles plus complexes et donc plus risqués choisir des méthodes adaptées aux contraintes des données souvent efficace de combiner des méthodes de diverses natures

Données biologiques haut-débit :

Données biologiques haut-débit : Données biologiques haut-débit : problèmes méthodologiques liés à la dimension et utilisation des algorithmes génétiques Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université

Plus en détail

Etude du transcriptome et du protéome en Neurooncologie

Etude du transcriptome et du protéome en Neurooncologie Etude du transcriptome et du protéome en Neurooncologie Principes, aspects pratiques, applications cliniques François Ducray Neurologie Mazarin, Unité Inserm U711 Groupe hospitalier Pitié-Salpêtrière Etude

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Statisticiens: Sophie Lamarre Steve Van Ginkel Sébastien Déjean - Magali San Cristobal Matthieu Vignes Biologistes: Stéphane

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

ATELIER EPIGENETIQUE

ATELIER EPIGENETIQUE Juin 2012 ATELIER EPIGENETIQUE Utilisation de la Q-PCR pour analyser des données de ChIP ou de MeDIP Emmanuèle Mouchel-Vielh I. La PCR quantitative: principe et généralités II. Interprétation des résultats

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Reconstruction et Animation de Visage. Charlotte Ghys 15/06/07

Reconstruction et Animation de Visage. Charlotte Ghys 15/06/07 Reconstruction et Animation de Visage Charlotte Ghys 15/06/07 1 3ème année de thèse Contexte Thèse CIFRE financée par Orange/France Telecom R&D et supervisée par Nikos Paragios (Ecole Centrale Paris) et

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Amérique du Nord

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Amérique du Nord Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Amérique du Nord EXERCICE 1 : 5 points On se place dans l espace muni d un repère orthonormé. On considère les points,, et. 1. Démontrer que les points,

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS. Lorène Allano 16 Avril 2013

L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS. Lorène Allano 16 Avril 2013 L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS Lorène Allano 16 Avril 2013 Question? Expert Aide à la décision Expériences Digitalisation Analyse automatique Visualisation Outils adapté Données numériques

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome

Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome Mercredi 23 Octobre LECLERCQ Barbara L2 GM Pr Krahn 10 pages Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome Plan A. Introduction B. Techniques courantes

Plus en détail

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique»

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» M1_presentation_generale_4juil05.doc 1/11 MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» La mention s articule autour de 6 spécialités : Recherche en éthique : Pr Christian HERVE (herve@necker.fr)

Plus en détail

UNION INTERNATIONALE POUR LA PROTECTION DES OBTENTIONS VÉGÉTALES

UNION INTERNATIONALE POUR LA PROTECTION DES OBTENTIONS VÉGÉTALES ORIGINAL : anglais DATE : 21 octobre 2010 UNION INTERNATIONALE POUR LA PROTECTION DES OBTENTIONS VÉGÉTALES GENÈVE F DIRECTIVES CONCERNANT LES PROFILS D ADN : CHOIX DES MARQUEURS MOLECULAIRES ET CONSTRUCTION

Plus en détail

metarnaseq: un package pour la méta-analyse de données RNA-seq

metarnaseq: un package pour la méta-analyse de données RNA-seq metarnaseq: un package pour la méta-analyse de données RNA-seq Guillemette Marot, Florence Jaffrézic, Andrea Rau 28/06/13 Overview 1 Introduction 2 Analyse statistique d une seule étude 3 Méta-analyse

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

téléphone sur l'exposition de la tête»

téléphone sur l'exposition de la tête» «Analyse statistique de l'influence de la position du téléphone sur l'exposition de la tête» A.Ghanmi 1,2,3 J.Wiart 1,2, O.Picon 3 1 Orange Labs R&D 2 WHIST LAB (http://whist.institut-telecom.fr), 3 Paris

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Modélisation coalescente pour la détection précoce d un cancer

Modélisation coalescente pour la détection précoce d un cancer Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1 Introduction

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007 ED Biologie moléculaire E. Turpin J. Lehmann-Che 5-6 novembre 2007 PCR 1983: Kary Mullis Amplification in vitro par une méthode enzymatique d'un fragmentd'adn en présence de deux oligonucléotides spécifiques

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Analyse statistique du protéome: cas de données issues de spectrométrie de masse. D. Pecqueur - C. Truntzer Master MIGS 05/11/08

Analyse statistique du protéome: cas de données issues de spectrométrie de masse. D. Pecqueur - C. Truntzer Master MIGS 05/11/08 Analyse statistique du protéome: cas de données issues de spectrométrie de masse D. Pecqueur - C. Truntzer Master MIGS 05/11/08 La plateforme protéomique de Dijon Protéomique classique Protéomique clinique

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension APPRENTISSAGE AUTOMATIQUE Réduction de dimension Malédiction de la dimensionalité Beaucoup de méthodes d apprentissage ne passent pas bien à l échelle pour des données de grandes dimensions: c est la malédiction

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

Fiabiliser les résultats [PROGRAMME] et dans les fours Méthodes de séparation. Préparation de l échantillon. [COORDINATEUR] Pr. R.

Fiabiliser les résultats [PROGRAMME] et dans les fours Méthodes de séparation. Préparation de l échantillon. [COORDINATEUR] Pr. R. 60 ÉCOLE EUROPÉENNE DES SCIENCES ANALYTIQUES Connaissances de base en chimie sur l atome et la lumière 4 jours Être capable de choisir la technique appropriée Fiabiliser les résultats Définitions en absorption

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes Optimisation de requêtes I3009 Licence d informatique 2015/2016 Cours 5 - Optimisation de requêtes Stéphane.Gançarski Stephane.Gancarski@lip6.fr Traitement et exécution de requêtes Implémentation des opérateurs

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Session B2: Assurance

Session B2: Assurance 33 èmes Journées des Économistes de la Santé Français 1 er et 2 décembre 2011 Session B2: Assurance Auteurs: Sophie Guthmuller et Jérôme Wittwer, Université Paris-Dauphine Référé: Aurore Pélissier, CERDI,

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Analyse d images numériques en microscopie

Analyse d images numériques en microscopie Analyse d images numériques en microscopie Yves Usson Reconnaissance et Microscopie Quantitative, Laboratoire TIMC UMR5525 CNRS Institut d Ingénierie et d Information de Santé (IN3S), La Tronche Traitement

Plus en détail

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA Amplification spécifique Détection spécifique Clonage dans des vecteurs Amplification in vitro PCR Hybridation moléculaire - hôte cellulaire

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

How To Analyse Data from micro-array experiments: A Simple Tutorial

How To Analyse Data from micro-array experiments: A Simple Tutorial How To Analyse Data from micro-array experiments: A Simple Tutorial Serge Smidtas Supelec Source de données L analyse commence lorsque les MicroArray ont été scannées. Des images, des logiciels (Genepix,

Plus en détail

Méthodes et techniques de la biologie du développement

Méthodes et techniques de la biologie du développement Méthodes et techniques de la biologie du développement 1. Etude de l expression des gènes : Détecter les transcrits et les protéines au cours de l ontogenèse l outil anticorps 1.1. La RT-PCR La réaction

Plus en détail

L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder

L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder Christine CARAPITO, Alexandre BUREL, Patrick GUTERL, Alexandre WALTER, Jérôme PANSANEL, Fabrice VARRIER,

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Les microarrays: technologie pour interroger le génome

Les microarrays: technologie pour interroger le génome Les microarrays: technologie pour interroger le génome Patrick DESCOMBES patrick.descombes@frontiers-in-genetics.org Plate forme génomique NCCR Frontiers in Genetics Université de Genève http://genomics.frontiers-in-genetics.org

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques Atelier 5/11/2013 Structure de la chromatine et marques épigénétiques La chromatine ADN ADN + Histones = Nucleosome ADN + Protéines + ARNs = Chromatine Niveau extrême de condensation = Chromosome métaphasique

Plus en détail

Le monde des bio-puces

Le monde des bio-puces Le monde des bio-puces D1 Le «dogme central» de la biologie moléculaire Transcription Epissage Traduction ADN ARNpm ARNm Protéines Génome Transcriptome Protéome D2 Puces à ADN Techniques de génomique fonctionnelle

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

Plan du cours. Métaheuristiques pour l optimisation combinatoire. Quelques problèmes classiques (2/3) Quelques problèmes classiques (1/3)

Plan du cours. Métaheuristiques pour l optimisation combinatoire. Quelques problèmes classiques (2/3) Quelques problèmes classiques (1/3) Plan du cours Quelques problèmes classiques Quelques algorithmes classiques Métaheuristiques pour l optimisation combinatoire un peu de vocabulaire codage des solutions taxinomie méthodes complètes méthodes

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

1. L initiation aux problématiques bioinformatiques liées à l'émergence des nouvelles biotechnologies

1. L initiation aux problématiques bioinformatiques liées à l'émergence des nouvelles biotechnologies LICENCE PROFESSIONNELLE BIOTECHNOLOGIE OPTION BIOINFORMATIQUE Organisé par l équipe pédagogique : Statistique bioinformatique du département IMATH Responsable de la formation : Pr. Jean- François Zagury

Plus en détail

Utilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Série : STL Spécialité biotechnologies SESSION 2014 BACCALAURÉAT TECHNOLOGIQUE

Série : STL Spécialité biotechnologies SESSION 2014 BACCALAURÉAT TECHNOLOGIQUE BACCALAURÉAT TECHNLGIQUE Série : STL Spécialité biotechnologies SESSIN 2014 CBSV : sous épreuve coefficient 4 Biotechnologies : sous épreuve coefficient 4 Durée totale de l épreuve: 4 heures Les sujets

Plus en détail

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Stéphanie Combes et Pauline Givord (DMCSI) INSEE-DMSCI 02/04/2015 Plan Qu'est-ce que le Big Data? Les

Plus en détail