Données biologiques haut-débit :
|
|
- Eléonore Champagne
- il y a 8 ans
- Total affichages :
Transcription
1 Données biologiques haut-débit : problèmes méthodologiques liés à la dimension et utilisation des algorithmes génétiques Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1 Christelle REYNES Données haut-débit et réduction de dimension 1/70
2 INTRODUCTION Christelle REYNES Données haut-débit et réduction de dimension 2/70
3 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) Christelle REYNES Données haut-débit et réduction de dimension 3/70
4 Les données haut-débit en biologie Techniques haut-débit => données de grande, voire très grande dimension Beaucoup d observations et/ou beaucoup de variables Très courant dans les -omics Dimension des données en constante augmentation (jusqu à 90 millions de sondes pour les puces à ADN) => nouvelles contraintes dans l analyse dues à la dimension => nécessité la plupart du temps de mettre au point des protocoles de réduction de dimension Christelle REYNES Données haut-débit et réduction de dimension 3/70
5 Les puces à ADN Le séquençage haut-débit EXEMPLES DE DONNEES ET DE QUESTIONS BIOLOGIQUES Christelle REYNES Données haut-débit et réduction de dimension 4/70
6 Les puces à ADN Le séquençage haut-débit Les puces à ADN Christelle REYNES Données haut-débit et réduction de dimension 5/70
7 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Christelle REYNES Données haut-débit et réduction de dimension 6/70
8 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Etude d un (ou plusieurs) échantillon(s) d intérêt par hybridation (complémentarité des bases) Christelle REYNES Données haut-débit et réduction de dimension 6/70
9 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70
10 Les puces à ADN Le séquençage haut-débit Les puces à ADN : la technique =ensemble de molécules d ADN monobrin (une séquence ou sonde par puits) fixées sur une surface (jusqu à plusieurs millions par puce) Possibilité d hybrider plusieurs échantillons sur la même puce avec marquage différentiel (fluorochrome,...) Christelle REYNES Données haut-débit et réduction de dimension 6/70
11 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Christelle REYNES Données haut-débit et réduction de dimension 7/70
12 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Christelle REYNES Données haut-débit et réduction de dimension 7/70
13 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les données Données brutes Données brutes : niveau de fluorescence par puits et par marqueur Signification : plus ou moins proportionnel à la quantité d ADN fixé Traitement pré-analyse élimination du bruit de fond, des données aberrantes,... normalisation des données pour rendre les données comparables => élimination de l effet puce, marquage,... Hypothèse importante : une grande majorité (>90%) des sondes fixent la même quantité d ADN quelle que soit la condition Transformations utilisation du ratio entre les deux marquages transformation log 2 Christelle REYNES Données haut-débit et réduction de dimension 7/70
14 Les puces à ADN Le séquençage haut-débit Les puces à ADN : les questions Cas le plus courant : étude de données d expression Objectif : rechercher des gènes qui s expriment différemment entre les conditions de l étude (différents temps, malade/non malade,...) => Identification de gènes potentiellement impliqués dans le phénomène étudié Applications : recherche de marqueurs diagnostiques, de cibles thérapeutiques,... Problème : lien pas toujours direct entre niveau d expression et de fluorescence (beaucoup d intermédiaires) Christelle REYNES Données haut-débit et réduction de dimension 8/70
15 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit Christelle REYNES Données haut-débit et réduction de dimension 9/70
16 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : la technique Premières expériences de séquençage au début des années 1970, techniques TRES laborieuses Ex. : en 1973, publication d un séquençage de 24 pb... Aujourd hui, méthodes parallélisées permettant d obtenir des millions de séquences en une série Nombreuses technologies différentes Ex. : Méthode Illumina (Sodexa) Christelle REYNES Données haut-débit et réduction de dimension 10/70
17 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les données Données brutes liste des séquences lues par la machine Traitement pré-analyse estimation de la qualité du séquençage alignement sur le génome correspondant (mapping) filtrage (élimination des repeats, tolérance aux erreurs de séquençage,...) Données à analyser Nombre de fois où une séquence donnée a été séquencée Signification : plus ou moins proportionnel à la quantité initiale Souvent plusieurs millions de lignes Nécessité de normaliser les données (effet banque, longueur, séquence,...) Christelle REYNES Données haut-débit et réduction de dimension 11/70
18 Les puces à ADN Le séquençage haut-débit Le séquençage haut-débit : les questions Technique utilisée pour remplacer les puces à ADN (recherche de gènes différentiellement exprimés, ChIP-seq,...) avec moins d a priori Possibilité d étudier plus largement d autres phénomènes : épissage alternatif, micro ARN, SNP... MAIS est-on pour l instant vraiment capables de répondre à des questions très fines? Christelle REYNES Données haut-débit et réduction de dimension 12/70
19 Les différents problèmes Les méthodes de sélection de variables Une démarche possible LE PROBLEME DE LA DIMENSION ET SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 13/70
20 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les différents types de problèmes liés à la dimension Problèmes d obtention et de manipulation des données Problèmes d interprétation Problèmes d apprentissage statistique Christelle REYNES Données haut-débit et réduction de dimension 14/70
21 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d obtention et de manipulation des données Si on cherche à choisir un traitement à partir de 1000 gènes, impossible de mesurer l expression de ces 1000 gènes pour chaque nouveau patient Problèmes de stockage des données Certaines méthodes ne peuvent être appliquées si plus de variables que d observations Temps de calcul plus réduits sur des données de moindre taille Christelle REYNES Données haut-débit et réduction de dimension 15/70
22 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d interprétation Beaucoup de variables => modèles difficiles voire impossibles à interpréter => difficile compréhension des phénomènes étudiés Ex. : puce à ADN : on cherche à savoir, sur la base de l expression de 1000 gènes, le meilleur traitement à appliquer parmi trois => problème de classification solution possible : LDA (Linear Discriminant Analysis) avec tous les gènes problème : si cela fonctionne, difficile de savoir quels sont les gènes responsables de la discrimination Christelle REYNES Données haut-débit et réduction de dimension 16/70
23 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Un problème d apprentissage Risque de sur-ajustement : Même avec méthodes robustes (SVM bien ajusté, forêts aléatoires,...), très grand nombre de variables => modèles non généralisables Possible d identifier le problème (validation croisée, jeu indépendant de validation,...) mais impossible de le résoudre... Problème du bruit Quelques variables signifiantes noyées au milieu de milliers de variables non pertinentes => impossible pour la plupart des méthodes de trouver un modèle convenable. Très difficile à diagnostiquer (trop de bruit ou absence de signal?) Christelle REYNES Données haut-débit et réduction de dimension 17/70
24 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (1) Les données : Prédiction d une propriété thérapeutique importante (le volume de distribution à l équilibre, Vss) pour n = 138 molécules décrites par p = 1532 descripteurs physico-chimiques (1D, 2D et 3D). Problème chimiquement difficile. p > n => régression linéaire impossible Utilisation de PLS pour différents sous-ensembles de variables : ensemble des 1532 descripteurs élimination des corrélations trop fortes entre variables (=> p=524) méthode de sélection de variables adaptée au problème (=> p=25) Christelle REYNES Données haut-débit et réduction de dimension 18/70
25 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Illustration sur un exemple (2) Résultats Données R 2 RCV 2 Rtest 2 A Phénomène p = Bruit p = Sur-ajustement p = Christelle REYNES Données haut-débit et réduction de dimension 19/70
26 Les différents problèmes Les méthodes de sélection de variables Une démarche possible LES METHODES DE SELECTION DE VARIABLES Christelle REYNES Données haut-débit et réduction de dimension 20/70
27 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Christelle REYNES Données haut-débit et réduction de dimension 21/70
28 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Christelle REYNES Données haut-débit et réduction de dimension 21/70
29 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Trois classes de méthodes Les filtres Choix de variables en amont de l apprentissage Indépendant du problème considéré Souvent univarié Les méthodes enveloppantes Sélection réalisée conjointement à l apprentissage Dépendant du problème considéré Sélection en dehors de la méthode Les méthodes embarquées Sélection = partie intégrante de l apprentissage Dépendant du problème considéré Méthode adaptée à chaque méthode d apprentissage Christelle REYNES Données haut-débit et réduction de dimension 21/70
30 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Filtres Evaluent la pertinence des variables à partir de leurs caractéristiques intrinsèques indépendamment du problème. Avantages Inconvénients Exemples rapide indépendant du classifieur choisi parfois indispensable indépendant du problème posé souvent univarié univarié : variance, information,... multivarié : corrélation,... Christelle REYNES Données haut-débit et réduction de dimension 22/70
31 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes enveloppantes Evaluent la pertinence d un sousensemble de variables en fonction des résultats du classifieur choisi. Deux types : déterministe, aléatoire Avantages Inconvénients Exemples simple à mettre en œuvre pour tout classifieur intéragit avec le classifieur tient compte des interactions entre variables risque de sur-ajustement ou d optimum local dépend du classifieur déterministe : exploration exhaustive (souvent impossible), forward/backward,... aléatoire : algo génétiques, autre méta heuristique,... Christelle REYNES Données haut-débit et réduction de dimension 23/70
32 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Les Méthodes embarquées La sélection de variables fait partie intégrante de l apprentissage du classifieur. Avantages Inconvénients Exemples intéragit avec le classifieur tient compte des interactions entre variables généralement plus rapide que les enveloppantes possible seulement pour certains classifieurs dépend du classifieur CART, naïve Bayes, méthodes sparses,... Christelle REYNES Données haut-débit et réduction de dimension 24/70
33 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Le principe : Utiliser seulement un sous-ensemble des variables pour la construction des composantes par seuillage des coefficients PLS. t 1 = p j=1 w 1j x j Si w 1j < ε alors on décide que w 1j = 0. Gestion des seuils par un coefficient de sparsité, η à optimiser. Problème : le sous-ensemble obtenu n est pas optimal pour PLS... Retour à l exemple : Optimisation en 10-FCV => η=0.5 et A=3 d où p= 178. Données R 2 R 2 CV R 2 test A p = p = Christelle REYNES Données haut-débit et réduction de dimension 25/70
34 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Remarque sur les méthodes embarquées : sparse-pls Retour à l exemple : De plus, difficile d optimiser le coefficient de sparsité. Etude des 3 meilleures combinaisons de paramètres obtenues : K η R 2 CV Si on cherche un effet de η sur R 2 CV : => des valeurs très différentes de η donnent des résultats très similaires. R2CV => Pas d effet significatif eta Christelle REYNES Données haut-débit et réduction de dimension 26/70
35 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 27/70
36 Les différents problèmes Les méthodes de sélection de variables Une démarche possible Une démarche possible Christelle REYNES Données haut-débit et réduction de dimension 28/70
37 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables UTILISATION DES ALGORITHMES GENETIQUES Christelle REYNES Données haut-débit et réduction de dimension 29/70
38 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques Christelle REYNES Données haut-débit et réduction de dimension 30/70
39 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Rappels sur les algorithmes génétiques (=AG) Algorithme génétique = méta-heuristique mimant les processus de l évolution naturelle Nécessité de définir une fonction quantifiant la qualité d une solution =fitness Travaille sur une population de solutions potentielles au problème d optimisation posé. Trois étapes principales et itératives : mutation : introduit l aléa permettant l exploration de l espace des solutions croisement : permet de combiner les caractéristiques précédemment obtenues sélection : permet de retenir préférentiellement les solutions les plus intéressantes Christelle REYNES Données haut-débit et réduction de dimension 31/70
40 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Les algorithmes génétiques : déroulement global 1. Formulation du problème d optimisation 2. Codage des solutions du problème 3. Construction de la population initiale 4. Evolution de la population Mutation Croisement Sélection 5. Tant que le critère de convergence n est pas atteint revenir à l étape 4 sinon passer à l étape 6 6. Analyse de la population finale : convergence contenu Christelle REYNES Données haut-débit et réduction de dimension 32/70
41 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Christelle REYNES Données haut-débit et réduction de dimension 33/70
42 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. Christelle REYNES Données haut-débit et réduction de dimension 33/70
43 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables La convergence des algorithmes génétiques La théorie Il a été démontré (Bhandari et al., 1996, Reynès, 2007) que deux conditions sont nécessaires et suffisantes pour avoir une convergence théorique en temps infini : introduction d une étape d élitisme : le meilleur individu de la population courante est systématiquement sélectionné pour la génération suivante. on peut passer de toute solution à toute autre en un autre fini de générations (dépend de la conception de l opérateur de mutation). Problème : la convergence en temps infini est rassurante mais a peu de conséquences pratiques. En général, on fixe un temps de calcul ou un nombre de générations maximal. Autre solution : utiliser des critères de convergence. Christelle REYNES Données haut-débit et réduction de dimension 33/70
44 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Christelle REYNES Données haut-débit et réduction de dimension 34/70
45 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Christelle REYNES Données haut-débit et réduction de dimension 34/70
46 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Christelle REYNES Données haut-débit et réduction de dimension 34/70
47 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Christelle REYNES Données haut-débit et réduction de dimension 34/70
48 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Critère pratique de convergence (Reynès & Sabatier, 2012) Observation : Plus on s approche de la convergence, plus le nombre de copies de la solution localement optimale augmente. Principe du critère de pseudo-convergence : On modélise par chaîne de Markov la valeur du nombre de copies de la solution localement optimale dans les dernières générations sous l hypothèse de non-convergence. Quand on s écarte trop de cette distribution (le nombre de copies est plus important qu attendu) on considère que l on a convergé. Avantages : Critère d utilité pratique, simple à mettre en œuvre adaptable et efficace. Inconvénients : A ne pas utiliser dans le cas d une initialisation non aléatoire ou quand l espace des solutions est trop restreint. A tendance à sur-estimer le temps nécessaire à la convergence. Perspectives : Prendre en compte dans le critère, l allure estimée de la fonction de fitness. Christelle REYNES Données haut-débit et réduction de dimension 34/70
49 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Christelle REYNES Données haut-débit et réduction de dimension 35/70
50 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Christelle REYNES Données haut-débit et réduction de dimension 35/70
51 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables On cherche le meilleur sous-ensemble de variables de X pour répondre à un problème donné avec une méthode choisie. Encodage Une solution = un sous-ensemble X de variables de X Codage sous forme d un vecteur : solloc =(i,j,k,...,na,na) avec solloc[l] {1,...,p} Définition de la fitness Choix d un critère d évaluation de la méthode choisie Exemple : R 2 CV, %bc CV,... Important : inclure de la validation croisée et éventuellement une pénalisation du nombre de variables pour éviter le sur-ajustement Initialisation On génère T pop solutions aléatoirement de sorte à explorer au mieux l espace des solutions. Christelle REYNES Données haut-débit et réduction de dimension 35/70
52 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Christelle REYNES Données haut-débit et réduction de dimension 36/70
53 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Christelle REYNES Données haut-débit et réduction de dimension 36/70
54 Rappels sur les algorithmes génétiques La convergence des algorithmes génétiques Construction d un AG pour la sélection de variables Construction d un AG pour la sélection de variables Mutation Appliquée à une proportion π m de la population courante Trois possibilités : ajout, suppression ou modification d une variable du sous-ensemble considéré Croisement Appliqué à une proportion π c de la population courante Consiste à échanger une partie des variables présentes dans deux sous-ensembles. Sélection Calcul de la fitness des solutions de la population courante Calcul du rang des solutions (rang de la meilleure : T pop ) Calcul des probabilités de sélection : P(solution#i)=α i β Christelle REYNES Données haut-débit et réduction de dimension 36/70
55 Sélection de SNPs Recherche et regroupement de gènes DE TROIS EXEMPLES DE METHODES DEVELOPPEES Christelle REYNES Données haut-débit et réduction de dimension 37/70
56 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs. Mise au point d arbres de classification multivariés. Application à un problème de drug design. Recherche de gènes différentiellement exprimés. Christelle REYNES Données haut-débit et réduction de dimension 38/70
57 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Christelle REYNES Données haut-débit et réduction de dimension 39/70
58 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Christelle REYNES Données haut-débit et réduction de dimension 39/70
59 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Introduction Le problème : Sélectionner, parmi un ensemble de SNP, ceux qui pourront permettre, à l aide d un modèle linéaire, de prédire une variable quantitative. Les contraintes : Volonté de prendre en compte des interactions par forcément liées aux effets principaux Nombre très important de possibilités (par exemple, pour sélectionner au plus 5 SNP parmi 50, on a possibilités) Volonté de sélectionner les SNP conjointement et non hiérarchiquement Solution proposée : Christelle REYNES Données haut-débit et réduction de dimension 39/70
60 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Les données simulées Génération aléatoire (uniforme) de 10 SNPs {X 1,X 2,...,X 10 } {0,1,2} 10 sur 400 observations réparties en 5 familles. Génération d une variable de phénotype : y = 2X 1 3X 2 2X 10 4X 1 X 2 bf ε avec b vecteur des effets famille et F indicatrice de la famille. => On souhaite sélectionner les variables 1, 2 et 10 ainsi que l interaction entre 1 et 2. Christelle REYNES Données haut-débit et réduction de dimension 40/70
61 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness On se place dans le contexte du modèle linéaire mixte : avec y = µ XβZu ε y le caractère phénotypique quantitatif à prédire, µ le vecteur des termes constants, X la matrice des valeurs des SNPs et/ou interactions sélectionnés, β le vecteur des coefficients des effets fixes, Z la matrice des indicatrices des familles, u le vecteur de variables aléatoires des effets aléatoires MVN(0,G) ε le vecteur d erreurs aléatoires MVN(0,Iσ 2 ) Christelle REYNES Données haut-débit et réduction de dimension 41/70
62 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Critère utilisé pour évaluer un modèle : RLR 2 (Cox & Snell, 1989 ; Magee, 1990), statistique homogène à un R 2 basé sur le rapport de vraisemblance et prenant en compte l aspect aléatoire du modèle proposé. ( R 2 LR = 1 exp 2 ) n (logl M logl 0 ) avec n le nombre d observations logl M le maximum de vraisemblance du modèle testé, logl 0 le maximum de vraisemblance du modèle nul. En l absence de terme aléatoire, R 2 LR se réduit au R2 classique. Christelle REYNES Données haut-débit et réduction de dimension 42/70
63 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Définition de la fitness Utilisation d une pénalisation pour prendre en compte la dimension du modèle : ( fit= RLRα 2 P var P inter 1 (Pmax var Pmax inter ) Pmax ) var Pmax inter 1 (Pmax var Pmax inter ) avec RLR 2 valeur du critère pour la solution évaluée P var nombre de SNPs introduits dans la solution évaluée P inter nombre d interactions introduites dans la solution évaluée Pmax var nombre maximum de SNPs à introduire dans le modèle Pmax inter nombre maximum d interactions à introduire dans le modèle Deuxième précaution pour éviter le sur-ajustement : chaque génération travaille sur une moitié tirée au hasard de la population (fausse validation croisée) Christelle REYNES Données haut-débit et réduction de dimension 43/70
64 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation On génère des solutions incluant au plus Pmax var = 5 SNPs et Pmax inter = 5 interactions => solutions possibles! Utilisation d a priori pour initialiser la population : Pour chaque SNP i ou interaction j : construction du modèle ne contenant que ce SNP ou cette interaction calcul de la p-value (a i ou b j ) associée à ce terme Calcul de la probabilité de sélection : pour chaque SNP i : p i = 1 a i nvar k=1 1 a k pour chaque interaction j : q i = 1 b i n inter k=1 1 b k Christelle REYNES Données haut-débit et réduction de dimension 44/70
65 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Initialisation Déroulement de l initialisation pour chacune des T pop solutions : choix aléatoire uniforme d un nombre P var de SNPs entre 0 et Pmax var choix aléatoire des P var SNPs selon le vecteur de probabilités p=p 1,p 2,...,p nvar choix aléatoire uniforme d un nombre P inter d interactions entre 0 et Pmax inter choix aléatoire des P inter interactions selon le vecteur de probabilités q=q 1,q 2,...,q ninter calcul du RLR 2 pour le modèle obtenu calcul de la fitness Exemple de solution codée obtenue : (2,3,9,NA,NA,12,27,NA,NA,NA) Christelle REYNES Données haut-débit et réduction de dimension 45/70
66 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Mutation Principe : modification d une solution (sélection SNPinteractions) de la population précédente. Objectif : pouvoir passer de n importe quelle solution à n importe quelle autre en un nombre fini de générations. Trois possibilités : supprimer un SNP ou une interaction (choix aléatoire uniforme) : 25% des cas, ajout équiprobable d un SNP ou d une interaction (choix aléatoire selon p ou q) : 25% des cas, modification d un SNP ou d une interaction présente (mêmes principes) : 50% des cas. Christelle REYNES Données haut-débit et réduction de dimension 46/70
67 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Croisement Utilisation d un croisement à deux points : Christelle REYNES Données haut-débit et réduction de dimension 47/70
68 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence Generations o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 20 T pop = 100 π m = 0.9 π c = 0.8 α=0.05 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 48/70
69 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : run solutions trouvées NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 1x10 NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 NA NA NA NA NA NA 1x2 1x4 2x4 NA NA => résultats très satisfaisants Christelle REYNES Données haut-débit et réduction de dimension 49/70
70 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles 344 arbres pour lesquels on a séquencé 49 SNP appartenant à 6 gènes différents : 3 gènes de cellulose synthase et 3 gènes candidats de la voie de synthèse des lignines. On a également mesuré leur teneur en hémi-cellulose que l on cherche à prédire. Christelle REYNES Données haut-débit et réduction de dimension 50/70
71 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Description des données réelles => structure forte de corrélations Christelle REYNES Données haut-débit et réduction de dimension 51/70
72 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Pré-traitement - utilisation de filtres Problème du modèle en cas d inclusion de variables très corrélées => élimination des variables corrélées à 1 (2 variables éliminées) Utilisation de 50% des données à chaque génération => risque de faire apparaître des corrélations très fortes vue la structure => on travaille avec 75% des données à chaque génération => on élimine les variables corrélées en valeur absolue à plus de 0.95 (3 variables supplémentaires éliminées) 44 SNPs => 1176 interactions possibles => 1.87e13 solutions possibles pour 5 SNPs et 5 interactions => on réduit à 2 interactions => solutions possibles => on n introduit que les interactions ayant une p-value < 0.2 => restent 243 interactions Christelle REYNES Données haut-débit et réduction de dimension 52/70
73 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Observation de la convergence c(0, Ngene) c(0, 1) o : fitness, : R 2 LR, : dimension du modèle Résultats obtenus pour : N gene = 50 T pop = 200 π m = 0.9 π c = 0.8 α=0.01 => convergence visuelle Christelle REYNES Données haut-débit et réduction de dimension 53/70
74 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Résultats sur 10 essais : solutions trouvées Cesa Cesa EuC4H EuC4H EuCAD Cesa1.4479xEuC4H EuC4 Cesa EuC4H EuC4H EuCAD NA Cesa2.3477xCesa EuC4 Cesa EuCAD EuC4H NA NA EuC4H2.2200xEuCAD Ces EuC4H EuC4H EuCAD NA NA Cesa3.2101xEuC4H EuC4 Cesa EuC4H EuC4H EuCAD EuCAD Cesa3.0683xEuCAD EuC4 Cesa EuC4H EuC4H EuCAD EuCAD EuCAD2.0227xEuCAD EuC4 EuC4H EuCAD EuC4H NA N Cesa3.0683xEuCAD Ces Cesa EuCAD NA NA NA EuC4H1.2631xEuC4H EuC4 EuC4H EuC4H EuCAD EuCAD NA Cesa1.0394xCesa EuC4 Cesa EuCAD EuCAD NA NA EuC4H1.2631xEuC4H Ces => une certaine stabilité des résultats => RLR 2 moyen de (/ ) Christelle REYNES Données haut-débit et réduction de dimension 54/70
75 Sélection de SNPs Recherche et regroupement de gènes DE Sélection de SNPs : Etude des solutions obtenues Corrélation entre les SNP sélectionnés en effets principaux EuCAD EuCAD EuCAD EuCAD EuC4H EuC4H EuC4H EuC4H EuC4H EuC4H Cesa Cesa Cesa Cesa Cesa Cesa Cesa Cesa EuC4H EuC4H EuC4H EuC4H EuC4H EuC4H EuCAD EuCAD EuCAD EuCAD Christelle REYNES Données haut-débit et réduction de dimension 55/70
76 Sélection de SNPs Recherche et regroupement de gènes DE Introduction Le contexte : Dans le domaine de la conception de molécules thérapeutiques (drug design), actuellement beaucoup d attention sur les molécules inhibitrices d interactions protéine-protéine (ippi). Problème : les chimiothèques actuelles contiennent très peu d ippi. La double problématique : Chercher à prédire le caractère ippi ou non d une molécule à partir de ses caractéristiques 1D, 2D et 3D Mieux comprendre l espace chimique recouvert par les ippi Les données : molécules dont 385 ippi 4885 descripteurs Christelle REYNES Données haut-débit et réduction de dimension 56/70
77 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Objectif d interprétabilité des modèles interaction avec chimistes => orientation vers arbres de classification Reynès et al., PLoS Comput. Biol., 2010 & Sperandio et al., Drug Discovery Today, 2010 => meilleure compréhension de l espace des ippi => modèle utilisable pour construire des chimiothèques MAIS Utilisation a minima de l info Impossible de prolonger l arbre Christelle REYNES Données haut-débit et réduction de dimension 57/70
78 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Méthode choisie : Orientation vers les arbres multivariés (Strobl et al., 2009, Franco-Arcega et al., 2010) A chaque nœud de l arbre, plusieurs variables sont combinées pour prendre une décision. Exemple : desc 1 > seuil 1 & desc 2 seuil 2 & desc 3 > seuil 3 Problème : Comment choisir les variables, les seuils et le sens des inégalités? Combinatoire très importante => utilisation des AG Christelle REYNES Données haut-débit et réduction de dimension 58/70
79 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Christelle REYNES Données haut-débit et réduction de dimension 59/70
80 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle E = TP TPFP TPFN TPFPFNTN Christelle REYNES Données haut-débit et réduction de dimension 59/70
81 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Codage : Codage des variables identique aux précédents valeurs des seuils sens des inégalités. Fitness : Utilisation de l enrichissement E permis par le modèle Initialisation : E = TP TPFP TPFN TPFPFNTN Utilisation de 3 descripteurs maximum par nœud Probabilité a priori en fonction du gain d information associé à chaque variable Christelle REYNES Données haut-débit et réduction de dimension 59/70
82 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Christelle REYNES Données haut-débit et réduction de dimension 60/70
83 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Spécificités de la méthode : Mutation : ajout/suppression/modification d une variable modificiation d un seuil modification du sens d une inégalité Croisement On croise par bloc (variable seuil sens) Christelle REYNES Données haut-débit et réduction de dimension 60/70
84 Sélection de SNPs Recherche et regroupement de gènes DE Mise au point de la méthode Résultats pour le nœud 1 : Combinaison des résultats de plusieurs runs : représentation par un positionnement multi-dimensionnel des variables sélectionnées et de la fréquence de leurs associations desc5 desc6 desc7 desc2. desc4. desc3 desc1 Christelle REYNES Données haut-débit et réduction de dimension 61/70
85 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : Arbres multivariés = généralisation très intéressante de CART avec interprétabilité du modèle obtenu sans troncature importante de l information MAIS explosion de la combinatoire => nécessité d utiliser des méthodes aléatoires utilisation de plusieurs runs => étude de la robustesse et mise en évidence de solutions concurrentes (meilleure compréhension du phénomène) Remarque : autre méthode de sélection large de variables en CART : les Random Forests (perte de l interprétabilité du modèle) Christelle REYNES Données haut-débit et réduction de dimension 62/70
86 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Christelle REYNES Données haut-débit et réduction de dimension 63/70
87 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Christelle REYNES Données haut-débit et réduction de dimension 64/70
88 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Christelle REYNES Données haut-débit et réduction de dimension 64/70
89 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Introduction Les données : On dispose, pour des données de microarray, de plusieurs mesures (temps, conditions) pour un grand nombre de gènes. La problématique : Identifier les gènes différentiellement exprimés et les regrouper en fonction de leur profil d expression. Choix : utilisation de l ACP pour réduire la dimension et positionner les groupes utilisation de k-means pour regrouper les gènes Problème d optimisation : trouver les centres de gravité des groupes positionner l ensemble du groupe en un seul point sur chaque axe de la méthode Christelle REYNES Données haut-débit et réduction de dimension 64/70
90 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Fitness : Christelle REYNES Données haut-débit et réduction de dimension 65/70
91 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 66/70
92 Sélection de SNPs Recherche et regroupement de gènes DE Recherche et regroupement de gènes différentiellement exprimés Mise au point de la méthode Résultats : Christelle REYNES Données haut-débit et réduction de dimension 67/70
93 Sélection de SNPs Recherche et regroupement de gènes DE CONCLUSION Christelle REYNES Données haut-débit et réduction de dimension 68/70
94 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Christelle REYNES Données haut-débit et réduction de dimension 69/70
95 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : La grande dimension, seulement un problème? Pourquoi s encombrer de données aussi contraignantes? données idéales pour une étude d exploration sans a priori possibilité de vérifier à l aveugle des résultats antérieurs possibilité d essayer de répondre à de nouvelles questions Cependant, attention à utiliser ces technologies à bon escient! l a priori n est pas forcément un handicap (=expérience) certains biologistes agissent plus par curiosité ou phénomène de mode que par réel intérêt scientifique possibilité de combiner ces techniques avec d autres techniques plus traditionnelles nécessité d une maîtrise de ces données (mieux vaut une expérience à l ancienne bien menée, planifiée et maîtrisée qu une expérience innovante mais mal réalisée) Christelle REYNES Données haut-débit et réduction de dimension 69/70
96 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données Christelle REYNES Données haut-débit et réduction de dimension 70/70
97 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles Christelle REYNES Données haut-débit et réduction de dimension 70/70
98 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage Christelle REYNES Données haut-débit et réduction de dimension 70/70
99 Sélection de SNPs Recherche et regroupement de gènes DE Conclusion : grande dimension et analyse de données en analyse de données, les contraintes sont imposées par les données la grande dimension = une des contraintes possibles conséquences d une grande dimension : obtention et manipulation des données interprétation apprentissage les solutions à apporter toujours essayer les techniques simples avant de mettre en place des protocoles plus complexes et donc plus risqués choisir des méthodes adaptées aux contraintes des données souvent efficace de combiner des méthodes de diverses natures Christelle REYNES Données haut-débit et réduction de dimension 70/70
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailSOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailWhy Software Projects Escalate: The Importance of Project Management Constructs
Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion
Plus en détailQu est-ce qu une probabilité?
Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailDan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier
Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailMaster de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Plus en détailApproche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailMaîtriser les mutations
Maîtriser les mutations Avec UNE Supply chain AGILE La réflexion porte ses fruits www.cereza.fr TALAN Group Notre savoir-faire : maîtriser les mutations et en faire une force pour l entreprise Cereza,
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailFormations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailSemestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»
Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailNombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailProbabilités conditionnelles Loi binomiale
Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailChaînes de Markov au lycée
Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailProgrammation Linéaire - Cours 1
Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailInterception des signaux issus de communications MIMO
Interception des signaux issus de communications MIMO par Vincent Choqueuse Laboratoire E 3 I 2, EA 3876, ENSIETA Laboratoire LabSTICC, UMR CNRS 3192, UBO 26 novembre 2008 Interception des signaux issus
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailCompatibilité Électromagnétique
Compatibilité Électromagnétique notions générales et applications à l électronique de puissance Ir. Stéphane COETS 18 mai 2005 Journée d étude en Électronique de Puissance 1 Plan de l exposé La Compatibilité
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailLes exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?
Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Benoît Pagès 1, Valérie Leveau 1 1 ARVALIS Institut du
Plus en détailObject Removal by Exemplar-Based Inpainting
Object Removal by Exemplar-Based Inpainting Kévin Polisano A partir d un article de A. Criminisi, P. Pérez & H. K. Toyama 14/02/2013 Kévin Polisano Object Removal by Exemplar-Based Inpainting 14/02/2013
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailOptimisation des ressources des produits automobile première
EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailOrdonnancement robuste et décision dans l'incertain
Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4
Plus en détailUne application des algorithmes génétiques à l ordonnancement d atelier
Une application des algorithmes génétiques à l ordonnancement d atelier VACHER Jean-Philippe - GALINHO Thierry - MAMMERI Zoubir Laboratoire d Informatique du Havre Université du Havre 25, Rue Philippe
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailMémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.
Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY
Plus en détailDocument d orientation sur les allégations issues d essais de non-infériorité
Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette
Plus en détailFig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.
LHCb est l'une des expériences installées sur le LHC. Elle recherche la physique au-delà du Modèle standard en étudiant les mésons Beaux et Charmés. L accent est mis entre autres sur l étude de la violation
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailLa définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE
L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailMesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Plus en détailLaboratoire d Automatique et Productique Université de Batna, Algérie
Anale. Seria Informatică. Vol. IX fasc. 2 Annals. Computer Science Series. 9 th Tome st Fasc. 2 La sélection de paramètres d un système industriel par les colonies de fourmis Ouahab Kadri, L. Hayet Mouss,
Plus en détail1 Définition de la non stationnarité
Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détail- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE
- MANIP 2 - - COÏNCIDENCES ET MESURES DE TEMPS - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE L objectif de cette manipulation est d effectuer une mesure de la vitesse de la lumière sur une «base
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détail