Les données manquantes en statistique
|
|
- Julien Amaury Chénier
- il y a 8 ans
- Total affichages :
Transcription
1 Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006
2 Les données manquantes Importance du problème Fréquentes voire inévitables Concernent toutes les bases de données (BDD)... et toutes les variables de ces BDD.
3 Donnée manquante Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Définition : Soit une variable aléatoire X quelconque. Une donnée manquante (DM) x m est une donnée pour laquelle la valeur X = x est inconnue. On ne dispose pas de la valeur de X pour le sujet i.
4 Classification méthodologique des DM Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Origine matérielle des DM : La valeur de x i n a pas été mesurée (oubli...) la valeur mesurée mais perdue ou pas été notée la valeur mesurée, noté considérée comme non utilisable : données jugées aberrantes et erreurs manifeste la donnée mesurée mais pas disponible : Ne Sait Pas censure (1) la valeur < ou > limites de détection de l outil censure (2) des études de survie : à part
5 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Classification par rapport à l unité statistique Typologie des DM par rapports aux unités statistiques La donnée est manquante en raison de : non réponse de l unité statistique : aucune mesure n est obtenue pour l unité statistique non réponse pour l item : seule manque la mesure sur la variable X considérée.
6 Un exemple sur une variable Classification méthodologique des DM Effet des manquants Classification de Little et Rubin variable X, n-échantillon dont m valeurs manquantes taille de l échantillon de n à n m = n p, de m/n % on peut estimer m et s 2 sur les n m présents valide que si n p valeurs sous-échantillon aléatoire des n le fait d être manquant ne dépend pas de la valeur (manquante) Pr(x i : ) = p, i. sinon il y a un biais
7 Effet des manquants : Un exemple (1) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Biais Perte de Puissance on tire 1000 valeurs d une v.a. gaussienne centrée réduite on vérifie sa moyenne et sa variance et on trace l histogramme des valeurs on supprime aléatoirement 250 valeurs sur l ensemble des valeurs du vecteur on vérifie que la moyenne et la variance du sous-échantillon sont proches des valeurs de l échantillon de départ
8 Effet des manquants : Un exemple (2) Classification méthodologique des DM Effet des manquants Classification de Little et Rubin On retire ensuite des valeurs surtout dans les valeurs basses de l échantillon : on retire 225 valeurs parmi les valeurs basses et 25 parmi les valeurs hautes. on calcule la moyenne et la variance de l échantillon et on trace son histogramme. On vérifie que les estimations des paramètres sont biaisés.
9 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin la forme de la distribution obervée sur les données complètes n est pas forcément la forme de la distribution complète. en présence de données manquantes : biais? importance? la distribution observée sur le sous-échantillon complet est-elle représentative de la forme de la distribution dans la population?
10 Autres exemple Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Voir simulations sur R. modifications des paramètres selon les manquants.
11 Situation bivariée : Les éléments Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. X et Y, n réalisations. X est complètement observée Y comporte des valeurs manquantes. les deux V.A. X et Y soit qualitative soit quantitative sans perte de généralité.
12 Situation bivariée Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin sujet X Y 1 x 1 y i i x i y i i + 1 x i+1 * n x n * Tab.: Tableau pour la classification de LR
13 Les trois cas possibles Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin (1) La probabilité d avoir une valeur manquante est indépendante de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt) (2) La probabilité d avoir une valeur manquante dépend de X mais pas de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs) (3) La probabilité d avoir une valeur manquante dépend de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs, mqt)
14 Premier cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante est indépendante de X et de Y les valeurs manquantes sont Manquantes Aléatoirement Missing at random : MAR les données observées sont Observées Aléatoirement Observed at random : OAR les données sont manquantes complétement aléatoirement Missing Completely at Random : MCAR les valeurs Y observées : sous-échantillon aléatoire de Y
15 Deuxième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X mais pas de Y on dit que le données sont manquantes aléatoirement Missing at Random : MAR les valeurs observées de Y ne sont pas forcément un sous-échantillon aléatoire des valeurs échantillonnées de Y mais elles sont un sous-échantillon aléatoire de Y dans des sous-classes définies par les valeurs de X.
16 Troisième cas Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin La probabilité d avoir une valeur manquante dépend de X et de Y les valeurs ne sont ni manquantes aléatoirement (non MAR) ni obervées aléatoirement (non OAR) les données sont manquants non aléatoire : M Not AR (MNAR)
17 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin voir exemples de manquants selon X et Y dans R.
18 Conséquences Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin cas MCAR et MAR le mécanisme des manquants peut être ignoré pour les méthodes d inférence basées sur la vraisemblance. Dans le cas MCAR, il peut-être ignoré à la fois pour les approches basées sur la vraisemblance et pour les approches basées sur l échantillonage. Dans le cas MCAR le mécanisme ne peut pas être ignoré.
19 Quelques exemples classiques Classification méthodologique des DM Effet des manquants Classification de Little et Rubin le revenu ou le fait de payer des impôt est une information dont la fréquence de réponse varie avec le niveau du revenu ou le fait ou non de payer des impôts. les aidants des personnes âgées dépendantes, pour savoir si la personne aidée représente une charge, la présence d une réponse dépend de la valeur de la réponse consommation d alcool est souvent d autant plus minimisée que cette consommation est forte. dans les dossiers médicaux, la probabilité qu un symptome négatif soit noté est plus faible que la probabilité qu un symptôme positif soit noté.
20 Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Soit deux V.A. continues, une est sujette à non-réponse. La variable X complétement observée est l âge et la variable Y incomplétement observée est le revenu. Si la probabilité que le revenu soit manquant est indépendante de l âge et du revenu du sujet, alors les données sont de type MCAR (OAR + MAR).
21 Encore des exemples Introduction Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si la probabilité que le revenu soit manquant dépend de l âge de la personne interrogée mais pas de son revenu, alors les DM sont manquantes aléatoirement (ne dépendent pas du revenu) mais elles ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MAR. Si la probabilité que le revenu soit manquant dépend de l âge de la personne et de son revenu, les DM ne sont pas manquantes aléatoirement (dépendent du revenu) et ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MNAR.
22 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin L intérêt de cette classification Prendre en compte le mécanisme des manquants dans l analyse. Si on s intéresse uniquement à la distribution marginale de X (l âge), les données de Y et le mécanisme des manquants n a aucune importance. Si on souhaite avoir une estimation conditionnelle de la valeur de Y sachant X (par exemple la répartition des revenus en fonction de l âge), alors l analyse sur les n m valeurs complétes est satisfaisante si les données sont MAR ou si elles sont MCAR. Si on s intéresse à la distribution marginale de Y (moyenne des revenus), alors une analyse basée sur les unités complètes est biaisée sauf si les données sont de type MCAR.
23 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin Si données MNAR, les estimations portant sur la distribution marginale de Y et sur la distribution conditionnelle de Y sachant X sont biaisées et nécessitent une modélisation des valeurs manquantes. Dans les autres cas, la modélisation n est pas nécessaire même si des méthodes adaptées à l analyse statistique en présence de DM doivent être utilisées.
24 Classification méthodologique des DM Effet des manquants Classification de Little et Rubin reprendre les exemples sur l impact des manquants dans R.
25 Méthode d analyse Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthode du cas complet X deux V.A. X 1 et X 2, n-échantillon. m 1 et m 2 valeurs mqt. sur X 1 et X 2. Le nombre m de sujets ayant au moins une donnée manquante max(m 1, m 2 ) m m 1 + m 2 Le nombre n c de sujets complets est égale à n m. Donc en général n c < nombre de sujets complets pour X 1 ou pour X 2 et : la plupart du temps on perd plus de valeurs que le nombre réel de valeurs manquantes
26 méthode du cas complet : avantages Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple facilite les comparaisons entre analyses uni- et multivariées si on retire les mêmes sujets d une analyse à l autre pas-à-pas ascendants : différents si logiciel ou fait soi-même
27 Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthode du cas complet : inconvénients biais perte de puissance perte de cas rapidement considérable si 10 variables avec 10% de manquants 0, 9 10 cas complets = 34,8%
28 Méthode du cas disponible Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on utilise pour chaque sous-analyse l ensemble des cas complets avantage : nb max de sujets à chaque analyse inconvénients : nb variables d une analyse à l autre Y = α 1 + βx 1 et Y = α 1 + βx 2 portent sur des sujets différents ACP : matrice de covariance mal conformée
29 Les méthodes d imputation Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple méthodes très nombreuses consiste à substituer une valeur à la valeur manquante. méthodes séduisantes et dangereuses (Rubin)
30 Les méthodes simples Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple (... et mauvaises) LOCF : Last Observation Caried Forward ajouter une catégorie pour les DM moyenne non conditionnelle moyenne conditionnelle (Buck) (par bloc ou pas) imputation + aléa simples mais inconvénients +++ / overfitting /ad hoc estimations d IC très difficiles
31 Les méthodes dans les enquêtes Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple cold deck : source exterieur, limites hot deck substitution : tirage au sort d une nouvelle unité difficile si stratification a posteriori
32 Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Méthodes basées sur une énumération des possibilités Pour des données qualitatives + + : table 1ou2 2 énumerer toute les solutions possibles (liste de p) étude de sensibilité : énumerer toute les possibilités dans un graphique, méthode de Shadish énumerer et combiner : faire une hypothèse sur la répartition des DM on fixe θ = θ m pour chaque combinaison de manquants, queues de distribution (Fisher) on combine les résultats pour avoir une inférence globale
33 Etude de sensibilité : Shadish Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Angioplasty: % of missing allocated to good outcome (n=30) Extreme favouring A All allocated to good All allocated to poor Extreme favouring S Stent: % of missing allocated to good outcome (n=24) Significant difference (p<0.05) No significant difference (p>0.05)
34 Méthode de Delucchi Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2 si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières ce qui donne m + 1 tests à partir desquels on conclut
35 Méthode de NM : Delucchi pondéré Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Pour des données qualitatives : table 2 2, test de Fisher si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs de m + 1 manières avec proba de chaque configuration sous paramètre θ ce qui donne m + 1 tests de Fisher pondéré on conclut par un test pondéré par la Pr(configuration m )
36 Maximisation de la vraisemblance Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Marche bien pour MAR, moins pour MCAR et pas pour MNAR Voir exemple dans feuille Excel pour une proportion et une table 2 2
37 Solutions à part Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple littérature ad hoc algorithme NIPALS voir modèles PLS qui suppose quand même des hypothèses fortes sur les DM! ne pas avoir de DM!!
38 L Imputation Multiple : la star! Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple l imputation simple est unique la donnée imputée est considéré comme une donnée observée ne tient pas compte de l incertitude sup. liée aux manquants d où l idée de faire plusieurs imputations différentes on substitue plusieurs valeurs à chaque DM on analyse en tenant compte de cette multiplicité
39 Les étapes d une imputation multiple Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple on analyse la matrice des données pour en déduire un modèle pour les DM on réalise entre M = 3 et 10 imputations pour obtenir 3 à 10 jeux de données complétés on calcule le paramètre d intérêt pour chaque jeu on combine les M imputations pour avoir une inférence qui tienne compte de l incertitude supplémentaire liée aux DM
40 Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Formules pour l IM M estimations ponctuelles pour le vecteur de paramètre θ. Si gaussien, moyenne et écart-type : et On calcule ensuite : ˆQ (t) = ˆQ(Y obs, Y (t) miss ), t = 1,..., m Û (t) = Û (t) (Y obs, Y (t) miss ), t = 1,..., m Q = 1 m m t=1 ˆQ (t)
41 Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple La Var. globale a deux composantes : (1) variance intra-imputation Ū = 1 m m t=1 U (t) (2) La variance inter-imputation vaut : La variance totale vaut : B = 1 m 1 m ( ˆQ (t) Q) 2 t=1 T = Ū + (1 + m 1 )B
42 Formules pour l IM (suite) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple À partir de ces équations, on peut réaliser des tests : Q Q T 2 t ν avec : [ ] 2 Ū ν = (m 1) 1 + (1 + m 1 )B intervalles de confiances. Ces statistiques tiennent compte de l incertitude suppl. liées aux DM.
43 Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Exemple : voir feuille Excel
44 L IM : avantages Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple souple + + donne des résultats valides robuste aux écarts de spécification du modèle M peut être faible : 3, 5, pas plus de 10.
45 L IM : inconvénients (limités) Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple le recours à des logiciels repose sur le modèle (mais les autres méthodes aussi) si les effectifs sont faibles variantes particulières Par ailleurs aspects bayesiens utiliser WinBUGS
46 La solution bayesienne Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple Les données manquantes sont issues d une distribution a priori souplesse faire des hypothèses sur les DM mais toute les méthodes en font similitudes avec les données aberrantes voir exemple de prog. Bugs de NM.
47 Les logiciels Introduction Les méthodes sans modélisation Imputation simple Énumération ML par EM Imputation Multiple MINITAB : rien pour les DM SPSS : module mais pas dans la base SAS : différentes fonctions + PROC MI S+ / R : CAT,MIX, NORM A part : SIMCA : cartographie des manquants / R WinBUGS
48 Introduction DM : un problème sans vraie solution il faut toujours faire des hypothèses ou faire une étude de sensibilité qui ne conclut pas le mieux : IM encore mieux : bayesien encore encore mieux : ne pas avoir de DM
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailChapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailFeuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.
Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailApproche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détailDETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES
Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application
Plus en détailIncertitude et variabilité : la nécessité de les intégrer dans les modèles
Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailSanté environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement
Santé environnement Description du budget espace-temps et estimation de l exposition de la population française dans son logement Sommaire Abréviations 2 1. Introduction 3 2. Données recueillies 4 2.1
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailCours de Tests paramétriques
Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.
Plus en détailUNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE
UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIE PAR MATHIEU SISTO NOVEMBRE
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailVanina Bousquet 24 mars 2015
Traitement des données manquantes par une méthode d imputation multiple : Application à des données d enquête et de surveillance des maladies infectieuses Vanina Bousquet 24 mars 2015 Plan 1. Contexte
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailNOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Plus en détailPackage TestsFaciles
Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailAnalyse des risques financiers
Analyse des risques financiers Version du 1 er octobre 2014 Cette fiche s'adresse aux services de l État mandatés pour mener une analyse financière et est susceptible de contribuer à la définition du niveau
Plus en détailAPPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailLicence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7
Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,
Plus en détailBaccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé
Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailLes exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?
Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Benoît Pagès 1, Valérie Leveau 1 1 ARVALIS Institut du
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailNon-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011
Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailDétection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux
Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux hétérogènes Laurent Déjean Thales Airborne Systems/ENST-Bretagne Le 20 novembre 2006 Laurent Déjean Détection en
Plus en détailLE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU
LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU RÉSUMÉ Une étude de Tristat Resources commandée par l Institut Broadbent démontre que la majorité des
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailChapitre 2/ La fonction de consommation et la fonction d épargne
hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailChapitre 1: Introduction à la théorie de l équilibre à prix fixes
Chapitre 1: Introduction à la théorie de l équilibre à prix fixes L3 Eco-Gestion/ Faculté de Droit, Sciences Economiques et de Gestion Plan 1 Rappels sur l utilité espérée La représentation des événements
Plus en détailFIMA, 7 juillet 2005
F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation
Plus en détailProbabilités conditionnelles Loi binomiale
Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard
Plus en détailDe la mesure à l analyse des risques
De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer
Plus en détailDe la mesure à l analyse des risques
De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailLes risques liés à l activité de l entreprise : quels outils pour les identifier?
Les risques liés à l activité de l entreprise : quels outils pour les identifier? Alger, le 23-24 Novembre 2009 Présentée par: Mlle Amina NADJI Doctorante en 3ème année sciences économiques (CRIISEA, Centre
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailSTA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes
STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités
Plus en détailChapitre 11 METHODOLOGIE D ENQUÊTES
Chapitre 11 METHODOLOGIE D ENQUÊTES PLAN DU CHAPITRE 11 11.1 LE QUESTIONNAIRE 11.1.1 Qu est-ce qu un questionnaire? 11.1.2 Etapes de la construction d un questionnaire 11.1.3 Règles de base pour l élaboration
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12
ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12 ARTHUR CHARPENTIER 1 Une compagnie d assurance modélise le montant de la perte lors d un accident par la variable aléatoire continue X uniforme sur l intervalle
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détailValue at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061
Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailOrdonnancement robuste et décision dans l'incertain
Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailReprésentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailÉtude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France
Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Le 13 octobre 2014 Autorité des marchés financiers 17, place de la Bourse 75082 Paris cedex 02 Tél. : 01 53
Plus en détailFiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête
Fiche qualité relative à Santé et Itinéraire Professionnel 2010 (SIP) Nom Années de Périodicité Panel (suivi d échantillon) Services concepteurs Service réalisant Sujets principaux traités dans Carte d
Plus en détailProcessus aléatoires avec application en finance
Genève, le 16 juin 2007. Processus aléatoires avec application en finance La durée de l examen est de deux heures. N oubliez pas d indiquer votre nom et prénom sur chaque feuille. Toute documentation et
Plus en détailchargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d
Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste
Plus en détailDirecteur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP
repères Premier ministre 20 institut national des hautes études de la sécurité et de la justice Janvier 2013 n Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef
Plus en détailProgrammation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailTHÈSE DOCTEUR DE L UNIVERSITÉ PARIS XI
UNIVERSITE PARIS XI FACULTE DE MEDECINE PARIS SUD Ecole Doctorale de Santé Publique - ED420 Année 2011/2012 N attribué par la bibliothèque THÈSE Pour obtenir le grade de DOCTEUR DE L UNIVERSITÉ PARIS XI
Plus en détailQuelle est la meilleure solution :
Quelle est la meilleure solution : un FERR ou une rente? Question : Je viens tout juste d avoir 71 ans et j ai reçu un avis selon lequel je dois transformer mon régime enregistré d épargne retraite (REER)
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailTP N 57. Déploiement et renouvellement d une constellation de satellites
TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailRéseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.
Ce document a été numérisé par le CRDP de Bordeaux pour la Base Nationale des Sujets d Examens de l enseignement professionnel. Campagne 2013 Ce fichier numérique ne peut être reproduit, représenté, adapté
Plus en détailLe financement adossé de l immobilier en gestion de patrimoine : une modélisation simple
Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple Laurent Batsch ahier de recherche n 2005-01 Le financement adossé est une des modalités de financement de l investissement
Plus en détailStatistique inférentielle TD 1 : Estimation
POLYTECH LILLE Statistique inférentielle TD : Estimation Exercice : Maîtrise Statistique des Procédés Une entreprise de construction mécanique fabrique de pièces demoteurdevoiturepourungrandconstructeur
Plus en détailProbabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12
Probabilités. I - Rappel : trois exemples. Exemple 1 : Dans une classe de 25 élèves, il y a 16 filles. Tous les élèves sont blonds ou bruns. Parmi les filles, 6 sont blondes. Parmi les garçons, 3 sont
Plus en détail