Méthodes non paramétriques par permutations
|
|
- Adam Brosseau
- il y a 8 ans
- Total affichages :
Transcription
1 Méthodes non paramétriques par permutations Denis Puthier 11 juin 2008 Laboratoire INSERM TAGC/ERM206, Parc Scientifique de Luminy case 928,13288 MARSEILLE cedex 09, FRANCE. Table des matières 1 Introduction 1 2 Présentation du jeu de données. 2 3 Chargement des données. 2 4 Quel(s) critère(s) pour la comparaison? 3 5 Calcul des distributions réelles et empiriques des SNR Implantation d une fonction pour le calcul du SNR Calcul des SNR observés pour chacun des gène Calcul d une distribution empirique Clustering hiérarchique à partir des données retenues. 9 7 SAM Introduction Ces travaux dirigées proposent une introduction à la recherche de gènes discriminant avec le logiciel R (nous nous limiterons essentiellement au cas où deux classes d échantillons sont rencontrées). Après une introduction à la problématique nous présenterons une solution statistique permettant d y faire face. La solution proposée, basée sur des permutations est proche de celle proposée par Golub et al (1) et s apparente à la solution SAM (Significance Analysis of Microarrays) implémentée dans la librairie samr ou siggenes. 1
2 2 Présentation du jeu de données. Nous utilisons ici un jeu de données obtenues à partir de microarrays nylon hybridés avec des échantillons de tissus sains prélevés chez la souris. Bien que ce jeu de données comporte 14 tissus différents, nous nous concentrerons sur deux d entre eux (la rate et le rein) et tenterons de mettre à jour les gènes spécifiques de chacun de ces organes. Notez que les données ont été préalablement normalisées et transformées en logarithme base 2. 3 Chargement des données.. Les commandes suivantes permettent d obtenir un vecteur contenant le nom des échantillons et une matrice dont les lignes correspondent aux gènes et les colonnes aux échantillons. > mt.matrix <- read.table(" + sep = "\t", head = T, row.names = 1) > dim(mt.matrix) [1] > is(mt.matrix) [1] "data.frame" "oldclass" > mt.matrix <- as.matrix(mt.matrix) > mt.cl <- read.table(" + sep = "\t", head = T, row.names = 1) > mt.cl <- mt.cl[, 1] > mt.cl <- as.character(mt.cl). Les instructions suivantes permettent de sélectionner les échantillons d intérêt. Le vecteur ind est un vecteur logique. L indexation de mt.cl par ind permet de renvoyer les valeurs de mt.cl pour lesquelles les valeurs des indices correspondants de ind sont vraies. > ind <- mt.cl == "spleen" mt.cl == "kydney" > ind [1] FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE [13] FALSE FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE FALSE FALSE FALSE [25] FALSE FALSE TRUE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE FALSE [37] FALSE FALSE FALSE FALSE 2
3 > rr.cl <- mt.cl[ind] > rr.cl [1] "spleen" "kydney" "spleen" "spleen" "spleen" "kydney" "kydney" "kydney". Question : Comment aurions nous selectionné tous les échantillons sauf la Rate?. Dans le cas de la matrice qui contient deux dimensions, seules les colonnes sont indexées. L absence d indexation sur les lignes sous-entend que toutes les lignes devront être renvoyées. > rr.mat <- mt.matrix[, ind] > colnames(rr.mat) [1] "spleen" "kydney" "spleen.1" "spleen.2" "spleen.3" "kydney.1" "kydney.2" [8] "kydney.3" > length(row.names(rr.mat)) [1] Voilà nos données prêtes à être analysées. 4 Quel(s) critère(s) pour la comparaison?. Etant donné que l on souhaite rechercher des gènes dont l expression est particulièrement différente ( différentielle ) entre les échantillons de la classe 1 (disons la rate) et les échantillons de la classe 2 (disons le rein) une solution naturelle qui s offre à nous est de comparer les moyennes des niveaux d expression. Exemple, pour le premier gène de la matrice : > rr.cl[rr.cl == "spleen"] = 1 > rr.cl[rr.cl == "kydney"] = 2 > is(rr.cl) [1] "character" "vector" > rr.cl <- as.numeric(rr.cl) > rr.cl [1] > m1 <- mean(rr.mat[1, rr.cl == 1]) > m2 <- mean(rr.mat[1, rr.cl == 2]) > m1 - m2 3
4 [1] Le problème est que nos mesures sont plus ou moins fiables (dispersées) et que la moyenne est particulièrement sensible aux valeurs extrèmes. Pour un gène, une seule valeur très forte dans l une ou l autre des classes, pourrait nous laisser penser, à tort, que celui-ci est différentiel. Une solution assez séduisante serait que le score que nous calculons intègre cette notion de varabilité dans la mesure (ie ; que les gènes dont la mesure est très fiable soient favorisés). Une des solutions que l on peut proposer est le calcul d un critère de type SNR (Signal to Noise Ratio). Dans ce score, utilisé notamment par Golub et al, la différence des moyennes est divisée par la somme des écart-types. Notez que ce score est extrêment proche du critère mesuré dans le cadre du test t. Pour le premier gène cela donne : > sd1 <- sd(rr.mat[1, rr.cl == 1]) > sd2 <- sd(rr.mat[1, rr.cl == 2]) > snr1 <- (m1 - m2)/(sd1 + sd2) > snr1 [1] C est très intéressant, mais que dire de la valeur snr1? Peut-on considérer que c est une valeur forte, que c est une valeur faible? Puisque nous parlions du t pourquoi ne pas plutôt utiliser le test t et calculer une p.value? Problème, nos données ne sont pas distribuées selon un loi gaussienne... Pour le vérifier on peut représenter les quantiles (les valeurs) d une série gaussienne et les comparer au valeurs dont nous disposons. Cela peut être réalisé à l aide de la fonction qqnorm (figure 1). > qqnorm(mt.matrix[,1],pch="."). Si nos données ne sont sont pas gaussiennes, on ne connait pas la distribution du t et on ne connait donc pas les probabilités d occurrence (la p.value) des valeurs de t observées. Cependant, si la distribution théorique de t dans nos conditions (non gaussiennes) n est pas connue, on pourrait par contre calculer très facilement une distribution empirique. Pour simplifier un peu le calcul nous n utiliserons pas le t mais le critère SNR qui est très similaire. 5 Calcul des distributions réelles et empiriques des SNR. 5.1 Implantation d une fonction pour le calcul du SNR.. Implantons une fonction qui permet de calculer les SNR pour l ensemble des gènes d une matrice. 4
5 Normal Q Q Plot Sample Quantiles Theoretical Quantiles Fig. 1 Un graphique quantiles-quantiles utilisable pour vérifier le caractère gaussien d une distribution. Dans le cas d une série gaussienne, une droite est observée (vous pouvez le tester). 5
6 > snr4mat <- function(x, y) { + m1 <- rowmeans(x[, y == 1]) + m2 <- rowmeans(x[, y == 2], 1) + sd1 <- apply(x[, y == 1], 1, sd) + sd2 <- apply(x[, y == 2], 1, sd) + return((m1 - m2)/(sd1 + sd2)) + } 5.2 Calcul des SNR observés pour chacun des gène.. Question : Calculez les SNR pour l ensemble des gènes et stockez les dans une variable nommée snr.real. Triez les à l aide de la fonction sort et analysez les noms des gènes les plus différentiels. Tracez l histogramme de fréquences de snr.real et la densité de probabilité calculée à l aide de la fonction density. Vous deviez obtenir les resultats des figures 2 et Calcul d une distribution empirique.. Le principe est simple. Je souhaite générer des valeurs de SNR aléatoires en utilisant la structure intrinsèque de mes données. Pour ce faire, nous allons calculer le score SNR sur des classes d échantillons fictives. L algorithme sera le suivant : permutation des échantillons calcul des snr sur l ensemble des gènes stockage dans une matrice. Nous effectuerons 50 permutations (ce qui est relativement faible mais sera suffisant pour comprendre le principe et pas trop couteux en terme de temps car notre implémentation est lente...). On peut créer une matrice (snr.alea) qui permettra le stockage des valeurs aléatoires avec l instruction suivante : > nr <- nrow(rr.mat) > nperm <- 50 > NA4snr.alea <- rep(na, nr * nperm) > snr.alea <- matrix(na4snr.alea, ncol = nperm) > dim(snr.alea) [1] Pour permuter les échantillons on peut utiliser la fonction sample. > sample(rr.cl) [1]
7 histogramme de fréquences obtenu à partir de snr.real Frequency snr.real Fig. 2 Histogramme de fréquence de snr.real. Correspond à la distribution des scores SNR obtenus en comparant les échantillons de rate et de rein. 7
8 densité de probabilité obtenue à partir de snr.real Density N = 8527 Bandwidth = Fig. 3 Densité de probabilité obtenus pour les valeurs réelles de SNR (comparaison rate versus rein). 8
9 . Question : A l aide d une boucle for générez 50 classes fictives et stockez les resultats de SNR correspondants dans la matrice (attention, c est un peu long).. Nous allons maintenant definir les valeurs de SNR observées au hasard dans 1 cas pour On peut les visualiser sur un graphiques et extraire les valeurs d intérêt à l aide de la fonction quantile. > (1/5000)/2 > seuil.bas <- quantile(snr.alea,0.0001) > seuil.haut <- quantile(snr.alea, ) > plot(density(snr.alea)) > points(density(snr.real),pch=".") > abline(v=seuil.bas,col="red") > abline(v=seuil.haut,col="red") 6 Clustering hiérarchique à partir des données retenues.. Question : Stockez dans une matrice nommée rr.conserve les valeurs d expressions correspondant aux gènes dont la valeur de SNR est inférieure à seuil.bas ou supérieure à seuil.haut.. A ce stade les gènes retenus sont hautement différentiels et doivent permettre de classer sans soucis nos échantillons. On peut le vérifier à l aide de la fonction heatplot que nous utilisons pour effectuer une classification hiérarchique sur les gènes et sur les échantillons (figure 5). > heatplot(rr.conserve). Pour isoler le nom des gènes on peut utiliser, par exemple, les instructions suivantes. > genes.down <- names(snr.real[snr.real < seuil.bas]) > genes.down <- strsplit(genes.down, "_") > genes.down <- unlist(genes.down) > out <- grep("mdf", genes.down) > genes.down <- genes.down[-out] > write.table(genes.down, file = "genes.down.txt", quote = F, row.names = F) > unique(sort(genes.down))[1:10] [1] " L14Rik" "Aldh7a1" "Aldrl6" "Ass1" [5] "B3gat1" "Calb3" "Egf" "Fxyd2" [9] "Gsta2" "Hsd3b4" 9
10 density.default(x = snr.alea) Density N = Bandwidth = Fig. 4 Densité de probabilité obtenus pour les valeurs réelles et aleatoire de SNR. 10
11 Color Key Row Z Score MDF _Cd19 MDF _Snrpe MDF _Ccr7 MDF _Lyst MDF _Cd19 MDF _Abhd1 MDF _Cd83 MDF _Cd79a MDF _Ii MDF _Fcna MDF _Tmsb4x MDF _Kcnn4 MDF _A230020G22Rik MDF _ MDF _Mrrf MDF _ MDF _Cd72 MDF _Plek MDF _Ifi1 MDF _B3gat1 MDF _Egf MDF _Wbscr14 MDF _Aldh7a1 MDF _Pcbd MDF _Selenbp1 MDF _ L14Rik MDF _S100a1 MDF _Hsd3b4 MDF _Tpi MDF _Pgam1 MDF _Fxyd2 MDF _Wasl MDF _Ndufa8 MDF _Ldh2 MDF _Uqcr MDF _Calb3 MDF _Ptplb MDF _Neu1 MDF _Pthr1 MDF _Temt MDF _Gsta2 MDF _Aldrl6 MDF _Ass1 kydney.1 kydney.3 kydney kydney.2 spleen spleen.3 spleen.1 spleen.2 Fig. 5 Clustering hierarchique obtenu à partir des gènes retenus. SNR. 11
12 > genes.up <- names(snr.real[snr.real > seuil.haut]) > genes.up <- strsplit(genes.up, "_") > genes.up <- unlist(genes.up) > out <- grep("mdf", genes.up) > genes.up <- genes.up[-out] > unique(sort(genes.up))[1:10] [1] "A230020G22Rik" "Abhd1" "Ccr7" "Cd19" [5] "Cd72" "Cd79a" "Cd83" "Fcna" [9] "Ifi1" "Ii" > write.table(genes.up, file = "genes.up.txt", quote = F, row.names = F) 7 SAM. La méthode SAM est implémentée dans la librairie siggenes. Utilisez la pour trouver les gènes qui discriminent les deux conditions. Références [1] Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES. Molecular classification of cancer : class discovery and class prediction by gene expression monitoring. Science Oct 15;286(5439) :
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailSEMIN. Données sous R : stockage et échange. Julio PEDRAZA ACOSTA
SEMIN Données sous R : stockage et échange Julio PEDRAZA ACOSTA UMR 5202 Origine Structure et Evolution de la Biodiversité Département Systématique et Evolution, MNHN pedraza@mnhn.fr SEMIN R du MNHN 10
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailLimitations of the Playstation 3 for High Performance Cluster Computing
Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailIntroduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
Plus en détailPackage TestsFaciles
Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26
Plus en détailFeuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.
Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLES DECIMALES DE π BERNARD EGGER
LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailIntroduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011
Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs
Plus en détailApproche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailInitiation à l analyse en composantes principales
Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.
Plus en détailNOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailChapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailTRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailLes concepts de base, l organisation des données
Chapitre 1 Les concepts de base, l organisation des données Objectif Ce chapitre présente les concepts de base du logiciel R (mode calculatrice, opérateur d affectation, variables, utilisation de fonctions,
Plus en détailInitiation au logiciel R
Université Paris Dauphine Année 2005 2006 U.F.R. Mathématiques de la Décision MAT-6-3 : Statistique exploratoire et numérique (NOISE) Initiation au logiciel R Jean-Michel MARIN Ce document a pour objectif
Plus en détailCours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs
Cours 1 I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs IV-Les facteurs I-1 Généralités sur R R (1995, AT&T Bell Laboratories) est un logiciel d analyse statistique et graphique,
Plus en détailSujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.
Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante. Objectifs et formulation du sujet Le syndrome de l apnée du sommeil (SAS) est un problème de santé publique
Plus en détailEstimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison
Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailJournée SITG, Genève 15 octobre 2013. Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique
Monitorint spatio-temporel intégré de la mobilité urbaine Monitoring spatio-temporel de l ADN urbain Une réponse aux défis, problèmes, enjeux et risques des milieux urbains Nicolas Lachance-Bernard M.ATDR
Plus en détailET 24 : Modèle de comportement d un système Boucles de programmation avec Labview.
ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview. Sciences et Technologies de l Industrie et du Développement Durable Formation des enseignants parcours : ET24 Modèle de
Plus en détailTechniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Plus en détailDETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES
Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application
Plus en détailStatistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014
Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline
Plus en détailPrésentation du logiciel
Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les
Plus en détailSimulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE
Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE LAURENT Rémy laurent@clermont.in2p3.fr http://clrpcsv.in2p3.fr Journées des LARD Septembre 2007 M2R
Plus en détailIFT3245. Simulation et modèles
IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques
Plus en détailINTRODUCTION AU LOGICIEL R
INTRODUCTION AU LOGICIEL R Variables et mise en jambe Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 (UMR738) 1 / 68 Sur le site www.cran.r-project.org : Ou trouver
Plus en détailUtiliser un tableau de données
Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailDéfinitions. Numéro à préciser. (Durée : )
Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.
Plus en détailAlgorithmique I. Augustin.Lux@imag.fr Roger.Mohr@imag.fr Maud.Marchal@imag.fr. Algorithmique I 20-09-06 p.1/??
Algorithmique I Augustin.Lux@imag.fr Roger.Mohr@imag.fr Maud.Marchal@imag.fr Télécom 2006/07 Algorithmique I 20-09-06 p.1/?? Organisation en Algorithmique 2 séances par semaine pendant 8 semaines. Enseignement
Plus en détailMesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Plus en détail2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détailProbabilités Loi binomiale Exercices corrigés
Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre
Plus en détailPrésentation BAI -CITC
Présentation BAI -CITC Expertise reconnue dans des niches technologiques Technologies embarquées Technologies sans contact Technologies d identification et d authentification Sécurité des objets connectés
Plus en détaila) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :
a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN
Plus en détailRecherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus
1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailWeb Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.
Web Science Master 1 IFI Andrea G. B. Tettamanzi Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.fr 1 Annonce : recherche apprenti Projet Géo-Incertitude Objectifs
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailPHP et mysql. Code: php_mysql. Olivier Clavel - Daniel K. Schneider - Patrick Jermann - Vivian Synteta Version: 0.9 (modifié le 13/3/01 par VS)
PHP et mysql php_mysql PHP et mysql Code: php_mysql Originaux url: http://tecfa.unige.ch/guides/tie/html/php-mysql/php-mysql.html url: http://tecfa.unige.ch/guides/tie/pdf/files/php-mysql.pdf Auteurs et
Plus en détailIntroduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailLES TYPES DE DONNÉES DU LANGAGE PASCAL
LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.
Plus en détailÉtude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France
Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Le 13 octobre 2014 Autorité des marchés financiers 17, place de la Bourse 75082 Paris cedex 02 Tél. : 01 53
Plus en détailUne nouvelle approche de détection de communautés dans les réseaux sociaux
UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise
Plus en détailMémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»
Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire
Plus en détailModule 16 : Les fonctions de recherche et de référence
Module 16 : Les fonctions de recherche et de référence 16.0 Introduction L une des fonctions les plus importantes d Excel, c est la possibilité de chercher une valeur spécifique dans un grand nombre de
Plus en détailMaster Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA
Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailAnalyse des durées de vie avec le logiciel R
Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger
Plus en détail3.2. Matlab/Simulink. 3.2.1. Généralités
3.2. Matlab/Simulink 3.2.1. Généralités Il s agit d un logiciel parfaitement dédié à la résolution de problèmes d'analyse numérique ou de traitement du signal. Il permet d'effectuer des calculs matriciels,
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailL effet régulateur des moteurs de recherche. MICHEL Laurent
L effet régulateur des moteurs de recherche MICHEL Laurent 3 février 26 Table des matières Mesure de la qualité d une page Web : l algorithme PageRank 4. L algorithme......................................
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailStatistique inférentielle TD 1 : Estimation
POLYTECH LILLE Statistique inférentielle TD : Estimation Exercice : Maîtrise Statistique des Procédés Une entreprise de construction mécanique fabrique de pièces demoteurdevoiturepourungrandconstructeur
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détail