Les données manquantes en bio-statistique

Dimension: px
Commencer à balayer dès la page:

Download "Les données manquantes en bio-statistique"

Transcription

1 Les données manquantes en bio-statistique Pr N. MEYER Laboratoire de Biostatistique - Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Master Statistiques et Applications 10 mars 2011

2 Importance du problème Les données Toute étude recueillir des données Les variables sont qualitatives ou quantitatives La plannification de l étude on espère recueillir toutes les données nécessaires = Toutes les données pour toutes les variables pour tous les sujets

3 Importance du problème Les données manquantes Données manquantes (DM) : données que l on voulait recueillir mais qui ne l ont pas été. Données qui devaient être recueillies mais dont la vraie valeur est inconnue Exemples : sujet qui ne répond qu à certaines questions d un sondage absence de réponse à l une des vagues d une enquête longitudinale DM sont très fréquentes : 95% des jeux de données sont incomplets (au moins une DM) Prévalence plus ou moins importante : de quelques unes à plus de 50% de DM Semblent pratiquement inévitables

4 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Donnée manquante Définition : Soit une variable aléatoire X quelconque. Une DM x m est une donnée pour laquelle la valeur X = x est inconnue. On ne dispose pas de la valeur de X pour le sujet i.

5 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification méthodologique des DM Origine matérielle des DM : La valeur de x i n a pas été mesurée (oubli...) la valeur : mesurée mais perdue ou non notée la valeur : mesurée, notée, mais considérée comme non utilisable : donnée jugée aberrante / erreur manifeste la donnée : mesurée mais pas disponible : Ne Sait Pas idem : cas particuliers de données censurées.

6 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification méthodologique des DM Des cas particuliers où la donnée est mesurée mais n est pas disponible donnée connue partiellement mais pas totalement manquante censure (1) : la valeur < ou > limites de détection de l outil HIV : nombre de copies du virus sous la limite de détection D-dimères : si > : et la vraie valeur est inconnue censure (2) : des études de survie durée de survie : supérieure à une durée d données non encore manquantes : indice CAO si dent non sortie, CAO sur ensemble incomplet distinguer la DM et le zéro d échantillonage

7 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification par rapport à l unité statistique La donnée est manquante en raison de : non réponse de l unité statistique : aucune mesure n est obtenue pour l unité statistique non réponse pour l item : seule manque la mesure sur la variable X considérée. en général, DM non intentionnellement (tous les cas précédent) manquant intentionnel : sondage par bloc de variable problème du data matching

8 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les DM d un point de vue statistique En analysant des données incomplètes, on souhaite avoir des résultats valides malgré les DM Valides : i.e. p-valeurs, intervalles de confiances et estimations ponctuelles (moyenne, variance, proportions, paramètres de régression, etc) correctes ou encore des distributions a posteriori correctes Ceci n est possible que dans des conditions assez restrictives. La plupart du temps, il faut faire des hypothèses que l on ne peut pas vérifier.

9 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les DM d un point de vue statistique Ceci implique le mécanisme aboutissant à une DM : le mécanisme des manquants et si ce mécanisme dépend d autre variables (mesurées ou non). Ce mécanisme des manquants est généralement inconnu d un point de vue pratique mais il existe une classification théorique Classification statistique des données manquantes (Little & Rubin) Important : Diffèrentes situations diffèrentes méthodes statistiques

10 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Un exemple sur une variable variable X, n-échantillon dont m valeurs manquantes taille de l échantillon de n à n m = n p, de m/n % on peut estimer m et s 2 sur les n m présents valide que si n p valeurs : sous-échantillon aléatoire des n le fait d être manquant ne dépend pas de la valeur (manquante) Pr(x i : ) = p, i. sinon il y a un biais

11 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Effet des manquants : Un exemple (1) Biais et Perte de Puissance on tire 1000 valeurs d une v.a. gaussienne centrée réduite on vérifie sa moyenne et sa variance et on trace l histogramme des valeurs on supprime aléatoirement 250 valeurs sur l ensemble des valeurs du vecteur on vérifie que la moyenne et la variance du sous-échantillon sont proches des valeurs de l échantillon de départ

12 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Effet des manquants : Un exemple (2) On retire ensuite des valeurs surtout dans les valeurs basses de l échantillon : on retire 225 valeurs parmi les valeurs basses et 25 parmi les valeurs hautes. on calcule la moyenne et la variance de l échantillon et on trace son histogramme. On vérifie que les estimations des paramètres sont biaisés.

13 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Autres exemple Voir simulations sur R. modifications des paramètres selon les manquants.

14 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin la forme de la distribution obervée sur les données complètes n est pas forcément la forme de la distribution complète. en présence de données manquantes : biais? importance? la distribution observée sur le sous-échantillon complet est-elle représentative de la forme de la distribution dans la population? si on observe une distribution asymétrique, est-elle asymétrique ou bien le mécanisme des manquants est non-aléatoire?

15 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin si les DM sont manquantes aléatoirement : le mécanisme est ignorable si les DM sont manquantes non aléatoirement (i.e. si la proba que x i soit manquant dépend de la valeur de x i, le mécanisme n est pas ignorable, et les analyses sur le sous-échantillon sont sujettes à biais. si censure complète au dela d un seuil, par exemple 0 : Pr(R i = 1 y i ) = Pr(y i obs y i ) = 1 si y i < 0, 0 sinon.

16 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification des manquants Classification introduite par Little et Rubin (1976, Biometrika) ; encore appelé distribution of missingness Pr(r i x i ; y i ; φ) : Probabilité que x i soit manquant introduit non pas pour le modèliser car en général l information est insuffisante pour le modèliser correctement mais pour savoir dans quelle conditions on peut l ignorer

17 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Classification des manquants Situation bivariée : les éléments Soit deux V.A. X et Y, n réalisations. X est complètement observée Y comporte des valeurs manquantes les deux V.A. X et Y soit qualitative(s) soit quantitative(s) sans perte de généralité.

18 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Situation bivariée sujet X Y 1 x 1 y i i x i y i i + 1 x i+1 * n x n * Tab.: Classification de Little & Rubin

19 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles (1) La probabilité d avoir une valeur manquante est indépendante de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt) (2) La probabilité d avoir une valeur manquante dépend de X mais pas de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs) (3) La probabilité d avoir une valeur manquante dépend de X et de Y Pr(D : Mqt obs, mqt) = Pr(D : Mqt obs, mqt)

20 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles soit Y = {Y ij } un jeu de données composé de deux parties : Y = (Y obs, Y mqt ) soit une indicatrice R ij telle que R ij = 1 si Y ij est manquant et R ij = 0 sinon le mécanisme des manquants est spécifié par un modèle pour la probabilité de réponse : Pr(R = r Y = y, θ) = f R/Y (r y obs, y mqt, θ) le mécanisme est donc la distribution de R sachant Y.

21 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les trois cas possibles (1) La situation MCAR : R et Y sont indépendant, la distribution de R ne dépend pas des données f R/Y (r y obs, y mqt, θ) = f R (r θ) (2) Situation MAR : la connaissance de Y miss ne donne pas d information supplémentaire sur R si Y obs est déjà connu. La distribution de R ne dépend pas des manquants f R/Y (r y obs, y mqt, θ) = f R (r y obs, θ) (3) La distribution de R dépend de la valeur (inconnue) des manquants f R/Y (r y obs, y mqt, θ) = f R (r y obs, y mqt, θ)

22 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Premier cas : MCAR La probabilité d avoir une valeur manquante est indépendante de X et de Y les valeurs manquantes sont Manquantes Aléatoirement Missing at random : MAR les données observées sont Observées Aléatoirement Observed at random : OAR les données sont manquantes complétement aléatoirement Missing Completely at Random : MCAR les valeurs Y observées : sous-échantillon aléatoire de Y

23 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin MCAR : Missing Completely At Random Y : categorical variable x x x x x x X : continuous variable

24 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Deuxième cas : MAR La probabilité d avoir une valeur manquante dépend de X mais pas de Y on dit que le données sont manquantes aléatoirement Missing at Random : MAR les valeurs observées de Y ne sont pas forcément un sous-échantillon aléatoire des valeurs échantillonnées de Y mais elles sont un sous-échantillon aléatoire de Y dans des sous-classes définies par les valeurs de X.

25 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin MAR : Missing At Random Y : categorical variable x x xx x x xx x X : continuous variable Y obs est un sous-échantillon aléatoire / représentatif de Y dans des catégories de X.

26 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin MAR : Missing At Random Y : categorical variable x x xx x x xx x X : continuous variable Y obs est un sous-échantillon aléatoire / représentatif de Y dans des catégories de X.

27 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Troisième cas : MNAR La probabilité d avoir une valeur manquante dépend de X et de Y les valeurs ne sont ni manquantes aléatoirement (non MAR) ni obervées aléatoirement (non OAR) les données sont manquantes non aléatoires : M Not AR (MNAR)

28 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin MNAR : Missing Not At Random Y : categorical variable x x x xxxxxx X : continuous variable

29 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Conséquences Si MCAR et MAR le mécanisme des manquants peut être ignoré pour les méthodes d inférence basées sur la vraisemblance Dans le cas MCAR, le mécanisme peut-être ignoré à la fois pour les approches basées sur la vraisemblance et pour les approches basées sur l échantillonage Dans le cas MNAR le mécanisme ne peut pas être ignoré

30 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples le café sur la feuille de relevé la panne d appareil de mesure le dosage impossible pour raisons liées au sujet coagulation du tube de sang avant dosage si dosage lié à un trouble de la coagulation : MNAR si dosage autre : MCAR dossier médical incomplet

31 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples les aidants des personnes âgées dépendantes, pour savoir si la personne aidée représente une charge, la présence d une réponse dépend de la valeur de la réponse consommation d alcool est souvent d autant plus minimisée que cette consommation est forte dans les dossiers médicaux, la probabilité qu un symptome négatif soit noté est plus faible que la probabilité qu un symptôme positif soit noté.

32 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (2) Soit deux V.A. continues, une est sujette à non-réponse. La variable X complètement observée est l âge et la variable Y incomplètement observée est le revenu Si la probabilité que le revenu soit manquant est indépendante de l âge et du revenu du sujet, alors les données sont de type MCAR (OAR + MAR). Si la probabilité que le revenu soit manquant dépend de l âge de la personne interrogée mais pas de son revenu, alors les DM sont manquantes aléatoirement (ne dépendent pas du revenu) mais elles ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MAR

33 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (3) Si la probabilité que le revenu soit manquant dépend de l âge de la personne et de son revenu, les DM ne sont pas manquantes aléatoirement (dépendent du revenu) et ne sont pas observées aléatoirement (dépendent de l âge) : elles sont donc de type MNAR.

34 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (4) un animal meurt au décours d une expérience avant le recueil de y ex. application de goudron sur la peau d un rat : test cutané du pouvoir cancérigène cause du décès? mort naturelle? passage transcutané de constituant du goudron? et donc toxicité (cardiaque, autre) du goudron? lien avec les analyses de survie

35 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Quelques exemples (5) Études longitudinales cas de la survie et de la censure le sujet quitte l étude décès? lié à l étude? étude longitudinale le sujet ne se présente pas à la visite v i, i < i max le sujet ne se présente pas aux visites v i et suivante décès? lié à l étude?

36 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L intérêt de cette classification Prendre en compte le mécanisme des manquants dans l analyse Si on s intéresse uniquement à la distribution marginale de X (l âge), les données de Y et le mécanisme des manquants n a aucune importance Si on souhaite avoir une estimation conditionnelle de la valeur de Y sachant X (par exemple la répartition des revenus en fonction de l âge), alors l analyse sur les n m valeurs complètes est satisfaisante si les données sont MAR ou si elles sont MCAR Si on s intéresse à la distribution marginale de Y (moyenne des revenus), alors une analyse basée sur les unités complètes est biaisée sauf si les données sont de type MCAR.

37 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Si données MNAR, les estimations portant sur la distribution marginale de Y et sur la distribution conditionnelle de Y sachant X sont biaisées et nécessitent une modélisation des valeurs manquantes Dans les autres cas, la modélisation n est pas nécessaire même si des méthodes adaptées à l analyse statistique en présence de DM doivent être utilisées.

38 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin reprendre les exemples sur l impact des manquants dans R.

39 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Commentaires Le problème principal est que lorsque l on a des données incomplètes, il est très difficile de savoir quelle est la vraie distribution des données et donc de savoir quel est le mécanisme des manquants ou au moins lequel est le plus probable! Il y a une part d avis subjectif dans le choix mais ce peut-être un avis éclairé!

40 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Pertinence de cette classification Permet de prendre en compte le mécanisme des manquants lors de l analyse Si on l intéresse à la distribution marginale des revenus, les résultats sont biaisés sauf si les données sont MCAR Si l on s intéresse à la distribution conditionnelle du revenu en fonction de l âge, c.-à-d. pour des classes d âges données, une analyse basée sur les unités statistiques complètes est satisfaisante si les DM sont MAR Si les DM sont MNAR, les estimations basées sur la distribution marginale du revenu ou sur la distribution conditionnelle du revenu selon l âge sont biaisées et nécessite une modèlisation explicite des MD.

41 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales Dans le cas de données longitudinales (rappel), la classification est modifiée (voir Schafer). MCAR le mécanisme ne dépend ni des covariables x i ni de Y Pr(r i x i ; y i ; φ) = Pr(r i φ) CD Covariate-dependent (CD) missingness : le mécanisme peut dépendre de x i mais pas de Y : Pr(r i x i ; y i ; φ) = Pr(r i x i ; φ) MAR le mécanisme peut dépendre des cov. x i et des Y observés : Pr(r i x i ; y i ; φ) = Pr(r i x i ; y i(obs) ; φ) MNAR tous les autres cas : le mécanisme dépend encore de y mqt même après prise en compte des x i, et des y obs.

42 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales En cas de sortie d étude (avant fin de suivi), signification : MCAR la Pr. de sortie ne dépend pas des caractéristiques du sujets CD la Pr. de sortie peut être liée à des covariables mais pas à la mesure d intérêt MAR la Pr. de sortie peut être liée à des covariables et la valeur de la mesure d intérêt avant la sortie d étude MNAR la Pr. de sortie peut être liée à la mesure d intérêt au moment de la sortie et parfois à la mesure après la sortie de l étude : cas souvent crédible

43 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales Que peut-on dire des données? comme on observe x i, r i et y obs on peut souvent rejeter MCAR et CD on ne peut pas rejeter MAR en faveur de MNAR car on n observe pas y mqt tester MAR suppose des hypothèses invérifiables

44 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin DM et données longitudinales les données ne sont pas MCAR car sorties différentes dans TMT et contrôle pas seulement CD car complets et sortie ont des trajectoires différentes MAR ou MNAR, on ne peut pas savoir

45 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L ignorabilité des données Les données sont ignorables si : 1 les données sont MAR 2 les paramètres grouvernant le mécanisme des manquants ne sont pas reliés aux paramètres que l on veut estimer Cela signifie que : pas nécessaire de modèliser le mécanisme des manquants comme une part de l estimation des paramètres mais nécessite quand même des méthodes particulières en pratique, toujours : ignorable (condition (2) ci-dessus toujours remplie)

46 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin L ignorabilité des données Les données sont non-ignorables si les données ne sont pas MAR. implique de modéliser le mécanisme des manquants pour avoir une bonne estimation des paramètres implique des hypothèses fortes et non vérifiables sur le mécanisme donc d applicabilité limitée car résultats très dépendants des hypothèses sur les manquants et implique un modèle pour chaque cas particulier donc, bien qu évident, très peu utilisé nous ne verrons que le cas ignorable

47 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Un cas particulier le missing plot dans un plan factoriel issu de l agronomie, quand un plot est un manquant méthodes à part dédiées à ce problème

48 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Les données monotones Une répartition de données manquantes est dit monotone si : les variables peuvent être arrangées d une manière telle que pour chaque observation de l échantillon, si X j est manquant, alors X j +j est aussi manquant, avec j entier positif et j + j p donc si pour un sujet i, les données sont manquantes à partir d une certaine variable qui peut changer d un sujet à l autre fréquent dans les données longitudinales (abandont du sujet à partir d une date donnée) si une seule variable, forcément monotone

49 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin --> 1 A > 2 A * --> 3 B * * --> 1 A * * * --> 2 A * * * --> 3 B * * *

50 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Deux autres types de répartition Une répartition de données manquantes peut prendre d autres formes : une répartition quelconque une répartition très structurée parfois volontaire ou résultant de l histoire des données comme dans la fusion de données : deux demi-sondages ou sondages à deux époques différentes un cas très particulier : les variables latentes ou toutes les valeurs d une variables sont à retrouver, comme en analyse factorielle

51 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin --> 1 A > 2 A 3 * > 3 B * * --> 1 A * 3 * --> 2 A * * * --> 3 B * 1 6 Il s agit ici d une répartition arbitraire

52 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin --> 1 A * --> 2 A * --> 3 B * --> 1 A * --> 2 A * --> 3 B * Il s agit ici d une variable latente

53 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Le data fusion Le data fusion (et le data matching, impliqué par le DF) : l ensemble des données sur un sujets ne sont pas forcément dans une seule base de données Def : Combinaison de données, provenant de sources différentes, pour obtenir un seul jeu de données dans lequel toutes les variables sont renseignées (présence obligatoire de variables communes) fusionne des variables provenant d un dataset avec des variables d un second dataset, en appariant les observations par paires à partir de variables communes appelées variables d appariement ( match variables ).

54 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin Le data fusion Le data fusion (suite) : Il n est pas nécessaire que les observations soient identiques dans les deux datasets, c.-à-d. que toutes les observations dans un dataset ne doivent pas forcément figurer dans l autre. par appariement d individu (plus proche voisin) ou par prédiction de variables

55 Classification méthodologique des DM Impact des données manquantes Effet des manquants Classification de Little et Rubin --> 1 A * * --> 2 A * * --> 3 B * * --> 1 A * * > 2 A * * > 3 B * * 6 9 Il s agit ici de fusionner les données en remplacant les données manquantes.

56 Que faire en présence de DM? Avant tout, il faut décrire les données, c.-à-d. les données manquantes et les données non manquantes Combien de DM? Combien de DM par variable? Ou sont les DM? Certaines variables seulement? Toutes les variables? certains sujets seulement? Tous les sujets? Calculer le nombre et la proportion de données manquantes (la plupart des logiciels le font automatiquement) Decrire graphiquement les données et les données manquantes

57 typetrav Dénom. DénCum % % Cum N= 705 *= 94 déclench Dénom. DénCum % % Cum N= 705 *= 94

58 D9S171 TP53 D22S928 D8S264 D4S414 D3S1283 D10S192 D1S207 D1S197 D20S107 D4S394 D1S305 D15S127 D6S275 D13S173 D10S191 D5S346 D16S408 D2S159 D11S916 D8S283 D5S430 D9S179 D3S1282 D1S225 D17S790 D18S53 D14S65 D6S264 D17S794 D16S422 D18S61 D2S138 L138 L186 R198 L204 R221 R323 L333 L346 R349 L352 L358 R381 L410 L448 R450 L451 L477 R487 L543 L551 L584 R590 L592 L599 L636 R638 L651 L673 R681 L686 L758 L773 L786 L811 L797 R813 R827 L138 L186 R198 L204 R221 R323 L333 L346 R349 L352 L358 R381 L410 L448 R450 L451 L477 R487 L543 L551 L584 R590 L592 L599 L636 R638 L651 L673 R681 L686 L758 L773 L786 L811 L797 R813 R827 D9S171 TP53 D22S928 D8S264 D4S414 D3S1283 D10S192 D1S207 D1S197 D20S107 D4S394 D1S305 D15S127 D6S275 D13S173 D10S191 D5S346 D16S408 D2S159 D11S916 D8S283 D5S430 D9S179 D3S1282 D1S225 D17S790 D18S53 D14S65 D6S264 D17S794 D16S422 D18S61 D2S138 manquants Norm. AI

59 D9S171 TP53 D22S928 D8S264 D4S414 D3S1283 D10S192 D1S207 D1S197 D20S107 D4S394 D1S305 D15S127 D6S275 D13S173 D10S191 D5S346 D16S408 D2S159 D11S916 D8S283 D5S430 D9S179 D3S1282 D1S225 D17S790 D18S53 D14S65 D6S264 D17S794 D16S422 D18S61 D2S138 L138 L186 R198 L204 R221 R323 L333 L346 R349 L352 L358 R381 L410 L448 R450 L451 L477 R487 L543 L551 L584 R590 L592 L599 L636 R638 L651 L673 R681 L686 L758 L773 L786 L811 L797 R813 R827 L138 L186 R198 L204 R221 R323 L333 L346 R349 L352 L358 R381 L410 L448 R450 L451 L477 R487 L543 L551 L584 R590 L592 L599 L636 R638 L651 L673 R681 L686 L758 L773 L786 L811 L797 R813 R827 D9S171 TP53 D22S928 D8S264 D4S414 D3S1283 D10S192 D1S207 D1S197 D20S107 D4S394 D1S305 D15S127 D6S275 D13S173 D10S191 D5S346 D16S408 D2S159 D11S916 D8S283 D5S430 D9S179 D3S1282 D1S225 D17S790 D18S53 D14S65 D6S264 D17S794 D16S422 D18S61 D2S138 Manquants Présents

60 Data missing by block (intended or not) GPV Age Sexe Poids Taille BMI tab Jeun CT CHDL CLDL TG Gly PF4 Ddim TAT NumPlq GB GR GPV Age Sexe Poids Taille BMI tab Jeun CT CHDL CLDL TG Gly PF4 Ddim TAT NumPlq GB GR Manquants Présents

61 Determination du mécanisme des manquants Le caractère manquant d une donnée peut-être étudié D devient Y faire un modèle pour étudier les causes des manquants facile à faire problème circulaire : en général, DM sur plusieurs variables (donc X incomplets) difficile à interpréter

62 Que faire après la description La plupart des logiciels décident tout seul ce qu il faut faire avec les données manquantes Les logiciels courants utilisent des méthodes de mauvaises qualités (SPSS notamment) ou rien (MINITAB) Rares sont les logiciels qui permettent une analyse correcte : S+/R, SAS et WinBUGS

63 méthode du cas complet X deux V.A. X 1 et X 2, n-échantillon. m 1 et m 2 valeurs mqt. sur X 1 et X 2. Le nombre m de sujets ayant au moins une donnée manquante max(m 1, m 2 ) m m 1 + m 2 Le nombre n c de sujets complets est égale à n m. Donc en général n c < nombre de sujets complets pour X 1 ou pour X 2 et : la plupart du temps on perd plus de valeurs que le nombre réel de valeurs manquantes

64 --> 1 A 3 4 * 56 H 1 --> 2 A F 1 --> 3 B F 0 --> 1 * * * * * * * --> 2 A F 1 --> 3 B F 0 --> 2 A F 1 --> 3 B F 0

65 Méthode du cas complet : avantages facilite les comparaisons entre analyses uni- et multivariées mais seulement si on retire les mêmes sujets d une analyse à l autre pas-à-pas ascendants : le logiciel retire d emblée les sujets incomplets sur toutes les variables candidates même si in fine toutes ne sont pas retenues dans le modèle

66 Méthode du cas complet : inconvénients biais évident sauf si MCAR perte de puissance perte de cas rapidement considérable si 10 variables avec 10% de manquants (sur des sujets différents) 0, 9 10 cas complets = 34,8%

67 Méthode du cas disponible on utilise pour chaque sous-analyse ou chaque sous-partie de l analyse l ensemble des cas complets avantage : nb max de sujets à chaque analyse / chaque partie inconvénients : nb variables d une analyse / partie à l autre Y = α 1 + βx 1 et Y = α 1 + βx 2 portent sur des sujets différents ACP : matrice de covariance mal conformée pas-à-pas : certains logiciels excluent les sujets incomplets à chaque étape et pas d emblée

68 Ajustement sur dummy variable Une méthode simple et intuitive proposée par Cohen en soit un modèle de régression Y = f (X ) soit une V.A. X explicative incomplète on crée une V. indicatrice D, D = 1 si X manquant, D = 0 sinon autre solution on crée une V. indicatrice D, D = c si X manquant, D = X sinon ou c est une constante quelconque le coefficient de X est invariant à c

69 Ajustement sur dummy variable ce qui change selon c, c est le coefficient de D pour faciliter l interprétation : c = m(x = X obs ) alors : β D = valeur prédite de Y pour les sujets incomplets moins la valeur prédite de Y pour les individus à la moyenne de X mais la méthode est biaisée et donc les estimations ne sont pas valides

70 Ajustement sur dummy variable Cependant : la méthode permet d utiliser tous les sujets disponibles y compris ceux qui sont incomplets donc on évite la perte de puissance : meilleure précision des estimateurs (et donc choisir entre biais et précision) on peut également tester des interactions entre D ou D et X j pour détecter un mécanisme particulier pour les manquants

71 Les méthodes d imputation méthodes très nombreuses consiste à substituer à la valeur manquante une valeur choisie de manière pertinente. méthodes séduisantes et dangereuses (Rubin) Deux grands types : 1 imputation simple 2 imputation multiple

72 Les méthodes d imputation simple (... et mauvaises) LOCF : Last Observation Caried Forward ajouter une catégorie pour les DM moyenne non conditionnelle moyenne conditionnelle (Buck) (par bloc ou pas) imputation + aléa simples mais inconvénients +++ / overfitting /ad hoc estimations d IC très difficiles

73 Ajout d une catégorie pour les DM Soit X une variable aléatoire catégorielle et incomplète On crée une catégorie suplémentaire désignant la DM On fait le modèle avec cette variable multinomiale interprétation? Délicate! Bais + + et augmente le nb de ddl Difficile à utiliser pour des variables ordinales ou continues

74 Last Observation Carried Forward : LOCF (1) très prisée dans l industrie pharmaceutique consiste à remplacer une valeur manquante par la valeur qui la précède dans le fichier (!) très facile à réaliser aucune justification théorique suppose que le fichier n est pas trié et donc les sujets ont un ordre aléatoire indépendant du mécanisme des manquants

75 Première variante : d un sujet à l autre --> 1 A F 1 --> 2 A 3 4 * 56 H 1 --> 3 B F 0 --> 1 A F 1 --> 2 A H 1 --> 3 B F 0

76 Seconde variante : d un temps à l autre pour un même sujet dans une étude longitudinale --> 1 A > 2 A 3 4 * --> 3 B > 1 A > 2 A > 3 B 4 7 6

77 Last Observation Carried Forward : LOCF (1) connait des variantes intéressantes par exemple pour des données continues on prend la valeur précédente plus un aléa ɛ suivant une loi pertinente peut s envisager avec des raffinements dans de l imputation multiples à ne jamais utiliser sinon

78 Les méthodes dans les enquêtes Quelques méthodes classiques : cold deck : source exterieur, limites substitution : tirage au sort d une nouvelle unité difficile si stratification a posteriori

79 Les méthodes dans les enquêtes Une méthodes à part : le hot deck on remplace la valeur manquante par une valeur prise chez un sujet similaire sur un certain nombre de variables difficile en partique car impose une mesure de distance qui est délicate à définir biais et impact sur la puissance des analyses car diminution des variances

80 Le worst case et ses variantes (1) Une méthode facile à utiliser pour des variables catégorielles : imputer les valeurs qui défavorisent (cliniquement) le résultat attendu soit à estimer une proportion p sur N sujets dont n sont manquants on peut attribuer l une des modalités (VIH+) à tous les n manquants et estimer p exemple : VIH au Kenya : N = 787, n = 36, r + = 52 on obtient par le worst case : p = 88/787 on peut faire un intervalle worst case - best case (ou le contraire selon contexte) qui sert de point de départ à la modélisation

81 Le worst case et ses variantes (2) Variantes dans les essais thérapeutiques on veut comparer l effet de deux traitements sur un résultat clinique souvent la mesure d intérêt est absente (décès, guérison car perdu de vue ou autre) l estimation de l effet du traitement est biaisé par les DM on se met dans une situation défavorable au nouveau TMT si la différence existe quand même, on peut valider le nouveau traitement

82 Etude de sensibilité : Shadish Angioplasty: % of missing allocated to good outcome (n=30) Extreme favouring A All allocated to good All allocated to poor Extreme favouring S Stent: % of missing allocated to good outcome (n=24) Significant difference (p<0.05) No significant difference (p>0.05)

83 Méthode de Delucchi Introduction Pour des données qualitatives : table 2 2 si on a m valeurs manquantes dans l une des deux variables on peut imputer les valeurs marginales de m + 1 manières puis dans chaque cellules à partir de la marge (m ) (m ) possibilités pour chacune des m + 1 combinaisons marginales à partir desquelles on conclut

84 Solutions à part Introduction littérature ad hoc algorithme NIPALS : voir modèles PLS qui suppose quand même des hypothèses fortes sur les DM! ne pas avoir de DM!!

85 Introduction Principe (très général) : Interdépendance entre paramétres θ et Y mqt Y mqt contient de l information utile pour estimer θ et θ permet d obtenir des valeurs pertinentes pour Y mqt On remplit les manquants à partir d une estimation de θ puis on ré-estime θ à partir de Y obs et Y mqt et on répéte jusqu à convergence

86 Introduction Les données complètes (i.e. obs + mqt) peuvent être mise sous la forme suivante : Pr(Y θ) = Pr(Y obs θ)pr(y mqt Y obs, θ) d où : L(θ Y ) = L(θ Y obs ) + log Pr(Y mqt Y obs, θ) + c avec : L(θ Y ) = log Pr(Y θ) vraisemblance des données complètes et : L(θ Y obs ) = log Pr(Y obs θ) vraisemblance des données observées Pr(Y mqt Y obs, θ) : distrib. prédictive des DM sachant θ fait le lien entre θ et les DM

87 Introduction Soit θ (t) l estimation courante de θ. Les estimations se font ensuite en deux étapes : E Expectation étape qui donne la log-vraisemblance Q(θ θ (t) ) = L(θ Y )Pr(Y mqt Y obs, θ = θ (t) )dy mqt M Maximization étape qui détermine θ (t+1) en maximisant cette log-vraisemblance Q(θ (t+1) θ (t) ) Q(θ θ (t) )

88 Introduction Un résultat de Dempster, Laird et Rubin (1977) montre que : si θ (t+1) est la valeur de θ qui maximise Q(θ θ (t) ) alors θ (t+1) est une meilleure estimation que θ (t) car la vraisemblance des données observées pour θ (t+1) est au moins aussi grande que celle pour θ (t) L(θ (t+1) Y obs ) L(θ (t) Y obs )

89 : exemple Illustré sur une table 2 2 on suppose deux variables Y 1 et Y 2, variables dichotomiques toutes les deux incomplètes le tableau croisé des deux variables : distribution multinomiale x = {x 11, x 12, x 21, x 22 } de paramètres : θ = {θ 11, θ 12, θ 21, θ 22 } avec θ ij proba qu un sujet ait Y 1 = i et Y 2 = j alors la vraisemblance s écrit : L(θ x) = x 11 logθ 11 + x 12 logθ 12 + x 21 logθ 21 + x 22 logθ 22 les MLE obtenus par : x ij = nθ ij

90 : exemple Soit la table suivante : sujet Y 2 = 1 Y 2 = 2 Y 2 = mqt Y 1 = 1 x11 A x12 A x1+ B Y 1 = 2 x21 A x22 A x2+ B Y 1 = mqt x C +1 x C +2

91 : exemple Les deux étapes de l algorithme : étape E remplace les valeurs inconnues x B ij et x C ij par leur espérance conditionnelles E(x ij Y obs, θ) = E(x A ij + x B ij + x C ij Y obs, θ) = x A ij + x B i+ θ ij /θ i+ + x C +j θ ij /θ +j étape M θ ij = E(x ij Y obs, θ)/n en combinant les deux étapes en une seule, on obtient : ) )] θ (t+1) ij = n [x 1 ij A + xi+ B + x+j C ( θ (t) ij θ (t) i+ ( θ (t) ij θ (t) +j

92 : exemple Soit la table suivante : sujet Non victimes t2 Victimes t2 Non-réponses Non victimes t Victimes t Non-réponses 31 7

93 : exemple Itérations de l EM : t θ (t) 11 θ (t) 12 θ (t) 21 θ (t) ,2500 0,2500 0,2500 0, ,6615 0,1170 0,1498 0, ,6971 0,0987 0,1358 0, ,6971 0,0987 0,1358 0,0685 0,6971 0,0987 0,1358 0,0685

94 L : la star! Repris de JL Schafer : Single-imputation strategies designed to precisely predict the missing values tend to distort estimates of population quantities The goal of the missing-data procedure is to draw accurate inferences about population quantities (e.g. mean change over time), not to accurately predict the missing values With imputation, the best way to achieve that goal is to preserve all aspects of the data distribution (means, trends, within- and between-subject variation, etc.) Ad hoc imputation methods inevitably preserve some aspects but distort others

95 L : la star! l imputation simple est... unique la donnée imputée est considéré comme une donnée observée ne tient pas compte de l incertitude sup. liée aux manquants d où l idée de faire plusieurs imputations différentes on substitue plusieurs valeurs à chaque DM on analyse en tenant compte de cette multiplicité

96 Les étapes d une imputation multiple on analyse la matrice des données pour en déduire un modèle pour les DM on réalise entre M = 3 et 10 imputations pour obtenir 3 à 10 jeux de données complétés on calcule le paramètre d intérêt pour chaque jeu on combine les M imputations pour avoir une inférence qui tienne compte de l incertitude supplémentaire liée aux DM

97 Formules pour l IM Introduction M estimations ponctuelles pour le vecteur de paramètre θ Si gaussien, moyenne et écart-type : ˆQ (t) = ˆQ(Y obs, Y (t) miss ), t = 1,..., m et Û (t) = Û (t) (Y obs, Y (t) miss ), t = 1,..., m On calcule ensuite : ˆQ = 1 m m t=1 ˆQ (t)

98 Formules pour l IM (suite) La Var. globale a deux composantes : (1) variance intra-imputation Ū = 1 m m t=1 U (t) (2) La variance inter-imputation vaut : La variance totale vaut : B = 1 m 1 m ( ˆQ (t) Q) 2 t=1 T = Ū + (1 + m 1 )B

99 Formules pour l IM (suite) À partir de ces équations, on peut réaliser des tests : Q Q T 2 t ν avec : [ ] 2 Ū ν = (m 1) 1 + (1 + m 1 )B intervalles de confiances. Ces statistiques tiennent compte de l incertitude suppl. liées aux DM.

100 Un exemple simple Introduction Exemple : voir feuille Excel

101 Obtention des imputations Pour faire de l IM, il faut générer les valeurs simulées : à partir de la distribution a posteriori des valeurs de Y mqt on définit donc un modèle pour les manquants en analysant la matrice R et en simulant en général sous un modèle multinormal on tire m valeur de Pr(Y mqt Y obs ) Pr(Y mqt Y obs ) = Pr(Y mqt Y obs, θ)pr(θ Y obs )dθ soit distribution prédictive de Y mqt sachant θ moyenné sur la distribution a posteriori de θ ce qui reflète l incertitude sur Y mqt sachant les paramètres du modèle des données complètes.

102 Obtention des imputations Autre méthode, sur des variables quantitatives approximate bayesian bootstrap : rég. logistique pour prédire si X est manquant ou pas calculer proba de manquer = propensity score on trie par prop. score puis quintiles dans chaque quintile, r cas complets et m mqt parmi les r complets, on tire avec remise un éch. aléatoire de taille r pour chaque mqt, on tire avec remise une valeur dans l éch. précédent dernière étape répétée M fois puis combinaison des M paramètres

103 L IM : avantages Introduction souple + + donne des résultats valides robuste aux écarts de spécification du modèle M peut être faible : 3, 5, pas plus de 10.

104 L IM : inconvénients (limités) le recours à des logiciels repose sur le modèle (mais les autres méthodes aussi) si les effectifs sont faibles variantes particulières Par ailleurs aspects bayésiens utiliser WinBUGS

105 l IM par MICE (1) Introduction MICE : Multiple Imputation Chained Equation également le nom d un package R. récent : 2000 obtention des imputations par le chainage d équation

106 Principe de la méthode : soit une matrice X de taile n p, avec m valeurs manquantes, et j variables incomplètes on impute chaque valeur manquante des j variables incomplètes une fois à partir des données observées on prend une première variable dont on retire les valeurs imputées (donc on reprend la variable dans son état initial, incomplètes) on impute les valeurs manquantes à partir des autres variables complétées on passe à la variable suivante : on prédit les valeurs incomplètes à partir des autres on fait un tour complet sur l ensemble des variables incomplètes on procède à M tours N. MEYER pour obtenir Données Mmanquantes jeux de données l IM par MICE (2) Introduction

107 l IM par MICE (3) Introduction Avantages et limites de la méthode facile à faire gère tous les types de données dans un même modèle plus facile à faire sur de très grand jeux de données que IM classique peu de fondements théoriques convergence non assurée mais empiriquement efficace

108 Retour sur les MNAR Introduction Si les données sont MNAR : implique de modéliser le mécanisme des manquants pour avoir une bonne estimation des paramètres implique des hypothèses fortes et non vérifiables sur le mécanisme or souvent on peut raisonnablement suspecter MNAR on peut les modèliser mais complexe, au cas par cas et ne peuvent que difficilement être testé (dépend du contexte) donc pas de méthode générale possible type IM

109 Une méthode à part : l algorithme NIPALS Crée dans les années 1960 pour l ACP a la particularité de pouvoir fournir les composantes de l ACP si l on travaille sur les données complète fournit un résultat si données incomplètes sans supprimer de sujets sans supprimer de variable sans estimer les données manquantes! sans imputation! peut être utilisé à l envers pour estimer ou imputer les DM

110 Une méthode à part : l algorithme NIPALS Algorithme itératif, utilisable en régression soit y et X, centrée réduite on ajuste de manière itérative y = ax j + ε faisable sur données incomplètes puis construction de composantes normer le vecteur a 1 : w 1 = a 1 / a 1. calculer la composante t 1 = 1/( t w 1 w 1 )Xw 1. itération h exprimer la composante t h en termes de prédicteurs X : t h = Xw h.

111 Une autre méthode à part : les modèles mixtes Créés pour analyser des données longitudinales ou multi-niveaux, répétées etc. permet de travailler sur des données incomplètes et avec des sujets n ayant qu une valeur sur j supprime quand même les sujets n ayant que des données manquantes

112 une autre question : Y ou X? Les problèmes de DM se posent surtout lorsque X est incomplet Lorsque Y est incomplet estimer Y i à partir du modèle Donc le problème est moins grave mais il existe quand même S écrit naturellement dans WinBUGS (en fait il est inutile de l écrire!) Problème sérieux dans le domaine médical ou le problème n est pas que statistique!

113 La solution bayésienne Les données manquantes sont issues d une distribution a priori souplesse faire des hypothèses sur les DM mais toute les méthodes en font similitudes avec les données aberrantes voir exemple de prog. Bugs

114 Les logiciels Introduction MINITAB : rien pour les DM SPSS : module mais pas dans la base SAS : différentes fonctions + PROC MI S+ / R : CAT,MIX, NORM A part : SIMCA : cartographie des manquants / R WinBUGS

115 Les packages de R Introduction on trouve dans R plusieurs package qui gèrent plus ou moins les données manquantes : mitools fait de l IM mice imputation multivariée par équations en chaines mvnmle estimation du max. vrais. pour des données gaussiennes multivariées norm IM pour données continues par EM et data augmentation cat IM pour données catégorielles par EM, data augmentation et simulations de paramètre mix la même chose pour mélange de qualitatives et quantitative pan IM pour données longitudinales ameliaii pour les sondages, les séries chronologiques,

116 Package Hmisc Introduction dans le package Hmisc : na.delete Row-wise Deletion na.action na.detail.response Detailed Response Variable Information na.keep Do-nothing na.action na.pattern Variable Clustering na.retain Summarize Data for Making Tables and Plots naclus Variable Clustering naplot Variable Clustering

117 Le package Hmisc : suite aregimpute() Multiple Imputation using Additive Regression, Bootstrapping, and Predictive Mean Matching transcan() Transformations/Imputations using Canonical Variates arrayimpute Missing imputation for microarray data arraymisspattern Exploratory analysis of Missing patterns for microarray data EMV Estimation of Missing Values for a Data Matrix mlmmm ML estimation under multivariate linear mixed models with missing values monomvn Estimation for multivariate normal data with monotone missingness NestedCohort Survival Analysis for Cohorts with Missing Covariate Information

118 DM : un vrai problème sans vraie solution (pratique) il faut toujours faire des hypothèses ou faire une étude de sensibilité qui ne conclut pas le mieux : IM encore mieux : bayésien encore encore mieux : ne pas avoir de DM

119 Les ouvrages de références Little RJA, Rubin DB : Statistical analysis with missing data, 2nd edition. John Wiley & Sons, New York Edition récente : IM ++ Schafer JL. Analysis of Incomplete Multivariate Data Chapman & Hall CRC Allison PD. Missing Data Thousand Oaks, CA : Sage

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Vanina Bousquet 24 mars 2015

Vanina Bousquet 24 mars 2015 Traitement des données manquantes par une méthode d imputation multiple : Application à des données d enquête et de surveillance des maladies infectieuses Vanina Bousquet 24 mars 2015 Plan 1. Contexte

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011 Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête Fiche qualité relative à Santé et Itinéraire Professionnel 2010 (SIP) Nom Années de Périodicité Panel (suivi d échantillon) Services concepteurs Service réalisant Sujets principaux traités dans Carte d

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03 Gestion des opérations et de la logistique Séance 4 4-530-03 Gestion de la capacité Points importants présentés au dernier cours Les principaux types d aménagement Étude du travail et l amélioration des

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement Santé environnement Description du budget espace-temps et estimation de l exposition de la population française dans son logement Sommaire Abréviations 2 1. Introduction 3 2. Données recueillies 4 2.1

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061 Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Economie de l Incertain et des Incitations

Economie de l Incertain et des Incitations Economie de l Incertain et des Incitations CHAPITRE 2 Eléments de théorie des jeux en information symétrique et asymétrique Equilibres Bayesiens - Université de Tours - M1 AGE - Arnold Chassagnon - Automne

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail