Données biologiques haut-débit :

Dimension: px
Commencer à balayer dès la page:

Download "Données biologiques haut-débit :"

Transcription

1 Données biologiques haut-débit : problèmes méthodologiques liés à la dimension et utilisation des algorithmes génétiques Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1 Christelle REYNES Données haut-débit et réduction de dimension 1/70

2 INTRODUCTION Christelle REYNES Données haut-débit et réduction de dimension 2/70

3 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) Christelle REYNES Données haut-débit et réduction de dimension 3/70

4 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) => nouvelles contraintes dans l analyse dues à la dimension => nécessité la plupart du temps de mettre au point des protocoles de réduction de dimension Christelle REYNES Données haut-débit et réduction de dimension 3/70

5 Les puces à ADN Le séquençage haut-débit EXEMPLES DE DONNEES ET DE QUESTIONS BIOLOGIQUES Christelle REYNES Données haut-débit et réduction de dimension 4/70

6 Les puces à ADN Le séquençage haut-débit Les puces à ADN Christelle REYNES Données haut-débit et réduction de dimension 5/70

7 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Christelle REYNES Données haut-débit et réduction de dimension 6/70

8 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Etude d un (ou plusieurs) échantillon(s) d intérêt par hybridation (complémentarité des bases) Christelle REYNES Données haut-débit et réduction de dimension 6/70

9 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70

10 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70

11 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Christelle REYNES Données haut-débit et réduction de dimension 7/70

12 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Christelle REYNES Données haut-débit et réduction de dimension 7/70

13 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Transformations utilisation du ratio entre les deux marquages transformation log 2 Christelle REYNES Données haut-débit et réduction de dimension 7/70

14 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les questions Cas le plus courant : étude de données d expression Objectif : rechercher des gènes qui s expriment différemment entre les conditions de l étude (différents temps, malade/non malade,...) => Identification de gènes potentiellement impliqués dans le phénomène étudié Applications : recherche de marqueurs diagnostiques, de cibles thérapeutiques,... Problème : lien pas toujours direct entre niveau d expression et de fluorescence (beaucoup d intermédiaires) Christelle REYNES Données haut-débit et réduction de dimension 8/70

15 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit Christelle REYNES Données haut-débit et réduction de dimension 9/70

16 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa) Christelle REYNES Données haut-débit et réduction de dimension 10/70

17 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les données Données brutes liste des séquences lues par la machine Traitement pré-analyse estimation de la qualité du séquençage alignement sur le génome correspondant (mapping) filtrage (élimination des repeats, tolérance aux erreurs de séquençage,...) Données à analyser Nombre de fois où une séquence donnée a été séquencée Signification : plus ou moins proportionnel à la quantité initiale Souvent plusieurs millions de lignes Nécessité de normaliser les données (effet banque, longueur, séquence,...) Christelle REYNES Données haut-débit et réduction de dimension 11/70

18 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les questions Technique utilisée pour remplacer les puces à ADN (recherche de gènes différentiellement exprimés, ChIP-seq,...) avec moins d a priori Possibilité d étudier plus largement d autres phénomènes : épissage alternatif, micro ARN, SNP... MAIS est-on pour l instant vraiment capables de répondre à des questions très fines? Christelle REYNES Données haut-débit et réduction de dimension 12/70

19 Les différents problèmes Les méthodes de sélection de variables Une démarche possible LE PROBLEME DE LA DIMENSION ET SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 13/70

20 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les différents types de problèmes liés à la dimension Problèmes d obtention et de manipulation des données Problèmes d interprétation Problèmes d apprentissage statistique Christelle REYNES Données haut-débit et réduction de dimension 14/70

21 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d obtention et de manipulation des données Si on cherche à choisir un traitement à partir de 1000 gènes, impossible de mesurer l expression de ces 1000 gènes pour chaque nouveau patient Problèmes de stockage des données Certaines méthodes ne peuvent être appliquées si plus de variables que d observations Temps de calcul plus réduits sur des données de moindre taille Christelle REYNES Données haut-débit et réduction de dimension 15/70

22 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d interprétation Beaucoup de variables => modèles difficiles voire impossibles à interpréter => difficile compréhension des phénomènes étudiés Ex. : puce à ADN : on cherche à savoir, sur la base de l expression de 1000 gènes, le meilleur traitement à appliquer parmi trois => problème de classification solution possible : LDA (Linear Discriminant Analysis) avec tous les gènes problème : si cela fonctionne, difficile de savoir quels sont les gènes responsables de la discrimination Christelle REYNES Données haut-débit et réduction de dimension 16/70

23 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d apprentissage Risque de sur-ajustement : Même avec méthodes robustes (SVM bien ajusté, forêts aléatoires,...), très grand nombre de variables => modèles non généralisables Possible d identifier le problème (validation croisée, jeu indépendant de validation,...) mais impossible de le résoudre... Problème du bruit Quelques variables signifiantes noyées au milieu de milliers de variables non pertinentes => impossible pour la plupart des méthodes de trouver un modèle convenable. Très difficile à diagnostiquer (trop de bruit ou absence de signal?) Christelle REYNES Données haut-débit et réduction de dimension 17/70

24 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (1) Les données : Prédiction d une propriété thérapeutique importante (le volume de distribution à l équilibre, Vss) pour n = 138 molécules décrites par p = 1532 descripteurs physico-chimiques (1D, 2D et 3D). Problème chimiquement difficile. p > n => régression linéaire impossible Utilisation de PLS pour différents sous-ensembles de variables : ensemble des 1532 descripteurs élimination des corrélations trop fortes entre variables (=> p=524) méthode de sélection de variables adaptée au problème (=> p=25) Christelle REYNES Données haut-débit et réduction de dimension 18/70

25 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (2) Résultats Données R 2 RCV 2 Rtest 2 A Phénomène p = Bruit p = Sur-ajustement p = Christelle REYNES Données haut-débit et réduction de dimension 19/70

26 Les différents problèmes Les méthodes de sélection de variables Une démarche possible LES METHODES DE SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 20/70

27 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Christelle REYNES Données haut-débit et réduction de dimension 21/70

28 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Christelle REYNES Données haut-débit et réduction de dimension 21/70

29 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Les méthodes embarquées Sélection = partie intégrante de l apprentissage Dépendant du problème considéré Méthode adaptée à chaque méthode d apprentissage Christelle REYNES Données haut-débit et réduction de dimension 21/70

30 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Filtres Evaluent la pertinence des variables à partir de leurs caractéristiques intrinsèques indépendamment du problème. Avantages Inconvénients Exemples rapide indépendant du classifieur choisi parfois indispensable indépendant du problème posé souvent univarié univarié : variance, information,... multivarié : corrélation,... Christelle REYNES Données haut-débit et réduction de dimension 22/70

31 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes enveloppantes Evaluent la pertinence d un sousensemble de variables en fonction des résultats du classifieur choisi. Deux types : déterministe, aléatoire Avantages Inconvénients Exemples simple à mettre en œuvre pour tout classifieur intéragit avec le classifieur tient compte des interactions entre variables risque de sur-ajustement ou d optimum local dépend du classifieur déterministe : exploration exhaustive (souvent impossible), forward/backward,... aléatoire : algo génétiques, autre méta heuristique,... Christelle REYNES Données haut-débit et réduction de dimension 23/70

32 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes embarquées La sélection de variables fait partie intégrante de l apprentissage du classifieur. Avantages Inconvénients Exemples intéragit avec le classifieur tient compte des interactions entre variables généralement plus rapide que les enveloppantes possible seulement pour certains classifieurs dépend du classifieur CART, naïve Bayes, méthodes sparses,... Christelle REYNES Données haut-débit et réduction de dimension 24/70

33 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Le principe : Utiliser seulement un sous-ensemble des variables pour la construction des composantes par seuillage des coefficients PLS. t 1 = p j=1 w 1j x j Si w 1j < ε alors on décide que w 1j = 0. Gestion des seuils par un coefficient de sparsité, η à optimiser. Problème : le sous-ensemble obtenu n est pas optimal pour PLS... Retour à l exemple : Optimisation en 10-FCV => η=0.5 et A=3 d où p= 178. Données R 2 R 2 CV R 2 test A p = p = Christelle REYNES Données haut-débit et réduction de dimension 25/70

34 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Retour à l exemple : De plus, difficile d optimiser le coefficient de sparsité. Etude des 3 meilleures combinaisons de paramètres obtenues : K η R 2 CV Si on cherche un effet de η sur R 2 CV : => des valeurs très différentes de η donnent des résultats très similaires. R2CV => Pas d effet significatif eta Christelle REYNES Données haut-débit et réduction de dimension 26/70

35 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 27/70

36 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 28/70

37 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables UTILISATION DES ALGORITHMES GENETIQUES Christelle REYNES Données haut-débit et réduction de dimension 29/70

38 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques Christelle REYNES Données haut-débit et réduction de dimension 30/70

39 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques (=AG) Algorithme génétique = méta-heuristique mimant les processus de l évolution naturelle Nécessité de définir une fonction quantifiant la qualité d une solution =fitness Travaille sur une population de solutions potentielles au problème d optimisation posé. Trois étapes principales et itératives : mutation : introduit l aléa permettant l exploration de l espace des solutions croisement : permet de combiner les caractéristiques précédemment obtenues sélection : permet de retenir préférentiellement les solutions les plus intéressantes Christelle REYNES Données haut-débit et réduction de dimension 31/70

40 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Les algorithmes génétiques : déroulement global 1. Formulation du problème d optimisation 2. Codage des solutions du problème 3. Construction de la population initiale 4. Evolution de la population Mutation Croisement Sélection 5. Tant que le critère de convergence n est pas atteint revenir à l étape 4 sinon passer à l étape 6 6. Analyse de la population finale : convergence contenu Christelle REYNES Données haut-débit et réduction de dimension 32/70

41 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Christelle REYNES Données haut-débit et réduction de dimension 33/70

42 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. Christelle REYNES Données haut-débit et réduction de dimension 33/70

43 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. En général, on fixe un temps de calcul ou un nombre de générations maximal. Autre solution : utiliser des critères de convergence. Christelle REYNES Données haut-débit et réduction de dimension 33/70

44 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Christelle REYNES Données haut-débit et réduction de dimension 34/70

45 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Christelle REYNES Données haut-débit et réduction de dimension 34/70

46 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Christelle REYNES Données haut-débit et réduction de dimension 34/70

47 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Christelle REYNES Données haut-débit et réduction de dimension 34/70

48 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Perspectives : Prendre en compte dans le critère, l allure estimée de la fonction de fitness. Christelle REYNES Données haut-débit et réduction de dimension 34/70

49 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Christelle REYNES Données haut-débit et réduction de dimension 35/70

50 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Christelle REYNES Données haut-débit et réduction de dimension 35/70

51 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Initialisation On génère T pop solutions aléatoirement de sorte à explorer au mieux l espace des solutions. Christelle REYNES Données haut-débit et réduction de dimension 35/70

52 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Christelle REYNES Données haut-débit et réduction de dimension 36/70

53 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Christelle REYNES Données haut-débit et réduction de dimension 36/70

54 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Sélection Calcul de la fitness des solutions de la population courante Calcul du rang des solutions (rang de la meilleure : T pop ) Calcul des probabilités de sélection : P(solution#i)=α i β Christelle REYNES Données haut-débit et réduction de dimension 36/70

55 Sélection de SNPs Recherche et regroupement de gènes DE TROIS EXEMPLES DE METHODES DEVELOPPEES Christelle REYNES Données haut-débit et réduction de dimension 37/70

56 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs. Mise au point d arbres de classification multivariés. Application à un problème de drug design. Recherche de gènes différentiellement exprimés. Christelle REYNES Données haut-débit et réduction de dimension 38/70

57 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Christelle REYNES Données haut-débit et réduction de dimension 39/70

58 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Christelle REYNES Données haut-débit et réduction de dimension 39/70

59 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Solution proposée : Christelle REYNES Données haut-débit et réduction de dimension 39/70

60 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Les données simulées Génération aléatoire (uniforme) de 10 SNPs {X 1,X 2,...,X 10 } {0,1,2} 10 sur 400 observations réparties en 5 familles. Génération d une variable de phénotype : y = 2X 1 3X 2 2X 10 4X 1 X 2 bf ε avec b vecteur des effets famille et F indicatrice de la famille. => On souhaite sélectionner les variables 1, 2 et 10 ainsi que l interaction entre 1 et 2. Christelle REYNES Données haut-débit et réduction de dimension 40/70

61 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness On se place dans le contexte du modèle linéaire mixte : avec y = µ XβZu ε y le caractère phénotypique quantitatif à prédire, µ le vecteur des termes constants, X la matrice des valeurs des SNPs et/ou interactions sélectionnés, β le vecteur des coefficients des effets fixes, Z la matrice des indicatrices des familles, u le vecteur de variables aléatoires des effets aléatoires MVN(0,G) ε le vecteur d erreurs aléatoires MVN(0,Iσ 2 ) Christelle REYNES Données haut-débit et réduction de dimension 41/70

62 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Critère utilisé pour évaluer un modèle : RLR 2 (Cox & Snell, 1989 ; Magee, 1990), statistique homogène à un R 2 basé sur le rapport de vraisemblance et prenant en compte l aspect aléatoire du modèle proposé. ( R 2 LR = 1 exp 2 ) n (logl M logl 0 ) avec n le nombre d observations logl M le maximum de vraisemblance du modèle testé, logl 0 le maximum de vraisemblance du modèle nul. En l absence de terme aléatoire, R 2 LR se réduit au R2 classique. Christelle REYNES Données haut-débit et réduction de dimension 42/70

63 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Utilisation d une pénalisation pour prendre en compte la dimension du modèle : ( fit= RLRα 2 P var P inter 1 (Pmax var Pmax inter ) Pmax ) var Pmax inter 1 (Pmax var Pmax inter ) avec RLR 2 valeur du critère pour la solution évaluée P var nombre de SNPs introduits dans la solution évaluée P inter nombre d interactions introduites dans la solution évaluée Pmax var nombre maximum de SNPs à introduire dans le modèle Pmax inter nombre maximum d interactions à introduire dans le modèle Deuxième précaution pour éviter le sur-ajustement : chaque génération travaille sur une moitié tirée au hasard de la population (fausse validation croisée) Christelle REYNES Données haut-débit et réduction de dimension 43/70

64 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation On génère des solutions incluant au plus Pmax var = 5 SNPs et Pmax inter = 5 interactions => solutions possibles! Utilisation d a priori pour initialiser la population : Pour chaque SNP i ou interaction j : construction du modèle ne contenant que ce SNP ou cette interaction calcul de la p-value (a i ou b j ) associée à ce terme Calcul de la probabilité de sélection : pour chaque SNP i : p i = 1 a i nvar k=1 1 a k pour chaque interaction j : q i = 1 b i n inter k=1 1 b k Christelle REYNES Données haut-débit et réduction de dimension 44/70

65 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation Déroulement de l initialisation pour chacune des T pop solutions : choix aléatoire uniforme d un nombre P var de SNPs entre 0 et Pmax var choix aléatoire des P var SNPs selon le vecteur de probabilités p=p 1,p 2,...,p nvar choix aléatoire uniforme d un nombre P inter d interactions entre 0 et Pmax inter choix aléatoire des P inter interactions selon le vecteur de probabilités q=q 1,q 2,...,q ninter calcul du RLR 2 pour le modèle obtenu calcul de la fitness Exemple de solution codée obtenue : (2,3,9,NA,NA,12,27,NA,NA,NA) Christelle REYNES Données haut-débit et réduction de dimension 45/70

66 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Mutation Principe : modification d une solution (sélection SNPinteractions) de la population précédente. Objectif : pouvoir passer de n importe quelle solution à n importe quelle autre en un nombre fini de générations. Trois possibilités : supprimer un SNP ou une interaction (choix aléatoire uniforme) : 25% des cas, ajout équiprobable d un SNP ou d une interaction (choix aléatoire selon p ou q) : 25% des cas, modification d un SNP ou d une interaction présente (mêmes principes) : 50% des cas. Christelle REYNES Données haut-débit et réduction de dimension 46/70

67 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Croisement Utilisation d un croisement à deux points : Christelle REYNES Données haut-débit et réduction de dimension 47/70

68 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence Generations o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 20 T pop = 100 π m = 0.9 π c = 0.8 α=0.05 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 48/70

69 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : run solutions trouvées NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 1x10 NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 1x4 2x4 NA NA => résultats très satisfaisants Christelle REYNES Données haut-débit et réduction de dimension 49/70

70 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles 344 arbres pour lesquels on a séquencé 49 SNP appartenant à 6 gènes différents : 3 gènes de cellulose synthase et 3 gènes candidats de la voie de synthèse des lignines. On a également mesuré leur teneur en hémi-cellulose que l on cherche à prédire. Christelle REYNES Données haut-débit et réduction de dimension 50/70

71 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles => structure forte de corrélations Christelle REYNES Données haut-débit et réduction de dimension 51/70

72 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Pré-traitement - utilisation de filtres Problème du modèle en cas d inclusion de variables très corrélées => élimination des variables corrélées à 1 (2 variables éliminées) Utilisation de 50% des données à chaque génération => risque de faire apparaître des corrélations très fortes vue la structure => on travaille avec 75% des données à chaque génération => on élimine les variables corrélées en valeur absolue à plus de 0.95 (3 variables supplémentaires éliminées) 44 SNPs => 1176 interactions possibles => 1.87e13 solutions possibles pour 5 SNPs et 5 interactions => on réduit à 2 interactions => solutions possibles => on n introduit que les interactions ayant une p-value < 0.2 => restent 243 interactions Christelle REYNES Données haut-débit et réduction de dimension 52/70

73 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence c(0, Ngene) c(0, 1) o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 50 T pop = 200 π m = 0.9 π c = 0.8 α=0.01 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 53/70

74 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : solutions trouvées Cesa Cesa EuC4H EuC4H EuCAD Cesa1.4479xEuC4H EuC4 Cesa EuC4H EuC4H EuCAD NA Cesa2.3477xCesa EuC4 Cesa EuCAD EuC4H NA NA EuC4H2.2200xEuCAD Ces EuC4H EuC4H EuCAD NA NA Cesa3.2101xEuC4H EuC4 Cesa EuC4H EuC4H EuCAD EuCAD Cesa3.0683xEuCAD EuC4 Cesa EuC4H EuC4H EuCAD EuCAD EuCAD2.0227xEuCAD EuC4 EuC4H EuCAD EuC4H NA N Cesa3.0683xEuCAD Ces Cesa EuCAD NA NA NA EuC4H1.2631xEuC4H EuC4 EuC4H EuC4H EuCAD EuCAD NA Cesa1.0394xCesa EuC4 Cesa EuCAD EuCAD NA NA EuC4H1.2631xEuC4H Ces => une certaine stabilité des résultats => RLR 2 moyen de (/ ) Christelle REYNES Données haut-débit et réduction de dimension 54/70

75 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Corrélation entre les SNP sélectionnés en effets principaux EuCAD EuCAD EuCAD EuCAD EuC4H EuC4H EuC4H EuC4H EuC4H EuC4H Cesa Cesa Cesa Cesa Cesa Cesa Cesa Cesa EuC4H EuC4H EuC4H EuC4H EuC4H EuC4H EuCAD EuCAD EuCAD EuCAD Christelle REYNES Données haut-débit et réduction de dimension 55/70

76 Sélection de SNPs Recherche et regroupement de gènes DE Introduction Le contexte : Dans le domaine de la conception de molécules thérapeutiques (drug design), actuellement beaucoup d attention sur les molécules inhibitrices d interactions protéine-protéine (ippi). Problème : les chimiothèques actuelles contiennent très peu d ippi. La double problématique : Chercher à prédire le caractère ippi ou non d une molécule à partir de ses caractéristiques 1D, 2D et 3D Mieux comprendre l espace chimique recouvert par les ippi Les données : molécules dont 385 ippi 4885 descripteurs Christelle REYNES Données haut-débit et réduction de dimension 56/70

77 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Objectif d interprétabilité des modèles interaction avec chimistes => orientation vers arbres de classification Reynès et al., PLoS Comput. Biol., 2010 & Sperandio et al., Drug Discovery Today, 2010 => meilleure compréhension de l espace des ippi => modèle utilisable pour construire des chimiothèques MAIS Utilisation a minima de l info Impossible de prolonger l arbre Christelle REYNES Données haut-débit et réduction de dimension 57/70

78 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Orientation vers les arbres multivariés (Strobl et al., 2009, Franco-Arcega et al., 2010) A chaque nœud de l arbre, plusieurs variables sont combinées pour prendre une décision. Exemple : desc 1 > seuil 1 & desc 2 seuil 2 & desc 3 > seuil 3 Problème : Comment choisir les variables, les seuils et le sens des inégalités? Combinatoire très importante => utilisation des AG Christelle REYNES Données haut-débit et réduction de dimension 58/70

79 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Christelle REYNES Données haut-débit et réduction de dimension 59/70

80 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle E = TP TPFP TPFN TPFPFNTN Christelle REYNES Données haut-débit et réduction de dimension 59/70

81 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle Initialisation : E = TP TPFP TPFN TPFPFNTN Utilisation de 3 descripteurs maximum par nœud Probabilité a priori en fonction du gain d information associé à chaque variable Christelle REYNES Données haut-débit et réduction de dimension 59/70

82 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Christelle REYNES Données haut-débit et réduction de dimension 60/70

83 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Croisement On croise par bloc (variable seuil sens) Christelle REYNES Données haut-débit et réduction de dimension 60/70

84 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Résultats pour le nœud 1 : Combinaison des résultats de plusieurs runs : représentation par un positionnement multi-dimensionnel des variables sélectionnées et de la fréquence de leurs associations desc5 desc6 desc7 desc2. desc4. desc3 desc1 Christelle REYNES Données haut-débit et réduction de dimension 61/70

85 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : Arbres multivariés = généralisation très intéressante de CART avec interprétabilité du modèle obtenu sans troncature importante de l information MAIS explosion de la combinatoire => nécessité d utiliser des méthodes aléatoires utilisation de plusieurs runs => étude de la robustesse et mise en évidence de solutions concurrentes (meilleure compréhension du phénomène) Remarque : autre méthode de sélection large de variables en CART : les Random Forests (perte de l interprétabilité du modèle) Christelle REYNES Données haut-débit et réduction de dimension 62/70

86 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Christelle REYNES Données haut-débit et réduction de dimension 63/70

87 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Christelle REYNES Données haut-débit et réduction de dimension 64/70

88 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Christelle REYNES Données haut-débit et réduction de dimension 64/70

89 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Problème d optimisation : trouver les centres de gravité des groupes positionner l ensemble du groupe en un seul point sur chaque axe de la méthode Christelle REYNES Données haut-débit et réduction de dimension 64/70

90 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Fitness : Christelle REYNES Données haut-débit et réduction de dimension 65/70

91 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 66/70

92 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 67/70

93 Sélection de SNPs Recherche et regroupement de gènes DE CONCLUSION Christelle REYNES Données haut-débit et réduction de dimension 68/70

94 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Christelle REYNES Données haut-débit et réduction de dimension 69/70

95 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Cependant, attention à utiliser ces technologies à bon escient! l a priori n est pas forcément un handicap (=expérience) certains biologistes agissent plus par curiosité ou phénomène de mode que par réel intérêt scientifique possibilité de combiner ces techniques avec d autres techniques plus traditionnelles nécessité d une maîtrise de ces données (mieux vaut une expérience à l ancienne bien menée, planifiée et maîtrisée qu une expérience innovante mais mal réalisée) Christelle REYNES Données haut-débit et réduction de dimension 69/70

96 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données Christelle REYNES Données haut-débit et réduction de dimension 70/70

97 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles Christelle REYNES Données haut-débit et réduction de dimension 70/70

98 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage Christelle REYNES Données haut-débit et réduction de dimension 70/70

99 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage les solutions à apporter toujours essayer les techniques simples avant de mettre en place des protocoles plus complexes et donc plus risqués choisir des méthodes adaptées aux contraintes des données souvent efficace de combiner des méthodes de diverses natures Christelle REYNES Données haut-débit et réduction de dimension 70/70

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Maîtriser les mutations

Maîtriser les mutations Maîtriser les mutations Avec UNE Supply chain AGILE La réflexion porte ses fruits www.cereza.fr TALAN Group Notre savoir-faire : maîtriser les mutations et en faire une force pour l entreprise Cereza,

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Interception des signaux issus de communications MIMO

Interception des signaux issus de communications MIMO Interception des signaux issus de communications MIMO par Vincent Choqueuse Laboratoire E 3 I 2, EA 3876, ENSIETA Laboratoire LabSTICC, UMR CNRS 3192, UBO 26 novembre 2008 Interception des signaux issus

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Compatibilité Électromagnétique

Compatibilité Électromagnétique Compatibilité Électromagnétique notions générales et applications à l électronique de puissance Ir. Stéphane COETS 18 mai 2005 Journée d étude en Électronique de Puissance 1 Plan de l exposé La Compatibilité

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers

Plus en détail

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Benoît Pagès 1, Valérie Leveau 1 1 ARVALIS Institut du

Plus en détail

Object Removal by Exemplar-Based Inpainting

Object Removal by Exemplar-Based Inpainting Object Removal by Exemplar-Based Inpainting Kévin Polisano A partir d un article de A. Criminisi, P. Pérez & H. K. Toyama 14/02/2013 Kévin Polisano Object Removal by Exemplar-Based Inpainting 14/02/2013

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Ordonnancement robuste et décision dans l'incertain

Ordonnancement robuste et décision dans l'incertain Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4

Plus en détail

Une application des algorithmes génétiques à l ordonnancement d atelier

Une application des algorithmes génétiques à l ordonnancement d atelier Une application des algorithmes génétiques à l ordonnancement d atelier VACHER Jean-Philippe - GALINHO Thierry - MAMMERI Zoubir Laboratoire d Informatique du Havre Université du Havre 25, Rue Philippe

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL. LHCb est l'une des expériences installées sur le LHC. Elle recherche la physique au-delà du Modèle standard en étudiant les mésons Beaux et Charmés. L accent est mis entre autres sur l étude de la violation

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Laboratoire d Automatique et Productique Université de Batna, Algérie

Laboratoire d Automatique et Productique Université de Batna, Algérie Anale. Seria Informatică. Vol. IX fasc. 2 Annals. Computer Science Series. 9 th Tome st Fasc. 2 La sélection de paramètres d un système industriel par les colonies de fourmis Ouahab Kadri, L. Hayet Mouss,

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE - MANIP 2 - - COÏNCIDENCES ET MESURES DE TEMPS - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE L objectif de cette manipulation est d effectuer une mesure de la vitesse de la lumière sur une «base

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail