Arbres de décision. Applications en médecine. Michaël Genin. Université de Lille 2

Dimension: px
Commencer à balayer dès la page:

Download "Arbres de décision. Applications en médecine. Michaël Genin. Université de Lille 2"

Transcription

1 Arbres de décision Applications en médecine Michaël Genin Université de Lille 2 EA Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr

2 Plan 1 Introduction 2 Méthodologie de construction d un arbre de décision - CHAID 3 Un coup d oeil sur la méthode CART 4 Exemples 5 Limites 6 Quelques logiciels M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

3 Introduction Contexte Deux familles de méthodes de classification Classification non-supervisée (clustering) Partitionner les observations en groupes différents (classes, catégories) mais les plus homogènes possible au regard de variables décrivant les observations Le nombre de classes n est pas connu à l avance Méthodes : Classification hiérarchique Classification supervisée (discrimination) Obtenir un critère de séparation afin de prédire l appartenance à une classe (Y = f (X ) + ϵ) Le nombre de classes est connu à l avance (Variable à expliquer) Méthodes : Régression logistique, Analyse discriminante, Arbres de décision, Réseaux de neurones M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

4 Introduction Contexte Une approche particulière de la discrimination Outils statistiques intéressants et souvent utilisés en médecine Une variable à expliquer et un ensemble de variables explicatives Y = f (X 1, X 2,, X p ) + ϵ Y quantitative = arbre de régression (famille des régressions non paramétriques) Y qualitative = arbre de classement (méthode particulière de discrimination / apprentissage supervisé) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

5 Introduction Contexte Comparaison avec les autres méthodes de discrimination Arbres de décision Régression logistique/analyse Discriminante Modèles paramétriques Additivité des coefficients Prise en compte, uniquement, des variables explicatives binaires et quantitatives Méthode non linéaire, non paramétrique Prise en compte des interactions Tout type de variables explicatives Grand nombre de variables (méthode pas à pas) Résultats graphiques simples à interpréter Extraction de règles (implémentations en BDD) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

6 Introduction Descriptif général Principe de la segmentation Principe La segmentation consiste à construire un arbre de décision à l aide de divisions successives des individus d un échantillon en deux, ou plus, segments (appelés également noeuds) homogènes par rapport à une variable dépendante Y qui peut être de nature : binaire, nominale, ordinale ou quantitative en utilisant l information portée par p variables explicatives de nature : binaire, nominale, ordinale ou quantitative M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

7 Introduction Descriptif général Deux types d arbres de décision Arbre de régression La variable à expliquer est quantitative Les variables de segmentation choisies sont celles qui minimisent la variance intra-segment de la variable à expliquer Arbre de classement La variable à expliquer est qualitative Les variables de segmentations retenues dans l arbre sont celles qui rendent les segments les plus différents possibles quant aux modalités de la variable à expliquer M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

8 Introduction Exemple introductif Exemple introductif Quinlan (1993) L objectif est d expliquer le comportement de joueur de tennis (Variable à expliquer : Y(jouer, ne pas jouer)) à partir de prévisions météorologiques (variables explicatives X i ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

9 Introduction Exemple introductif Descriptif des variables Type Variables Nature Unités/Modalités X 1 Ensoleillement Qualitative Soleil, couvert, pluie X 2 Vent Binaire Oui/Non X 3 Température Quantitative F X 4 Humidité Quantitative % Y Jouer Binaire Oui/Non Variable à expliquer binaire Arbre de classement M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

10 Introduction Exemple introductif Vocabulaire et interprétation graphique Racine Variable de segmentation Arête et noeud enfant Feuille (pures) Discrétisation de variable quantitative Règle de décision M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

11 Introduction Exemple introductif Exemple introductif M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

12 Introduction Questions mises en évidence Question mises en évidence Mais comment faire? Dans quel ordre interviennent les variables de segmentation? Choix de la variable de segmentation : indicateur évaluant la qualité de la segmentation Détermination d un seuil optimal pour les variables quantitatives Définition de la taille optimale de l arbre (toujours des feuilles pures??) Règles d affectation d une observation à un groupe Simple quand la feuille est pure Que faire lors que la feuille n est pas pure?? M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

13 Méthodologie de construction d un arbre de décision - CHAID Méthodologie de construction d un arbre de décision De nombreuses méthodes d induction d arbres (CHAID, CART, ID3, C45, ) Uniquement les méthodes CHAID (CHi-squared Automatic Interaction Detection) et CART (Classification And Regression Trees) sont utilisées de manière récurrente en médecine Cours basé sur CHAID Quelques références à CART M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

14 Méthodologie de construction d un arbre de décision - CHAID Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

15 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Principe La détermination d un cut-off se déroule de la manière suivante : On ordonne de manière croissante les valeurs de la variable On note le nombre de valeurs distinctes n d Il y a donc n d 1 seuils possibles Pour chaque seuil création d une variable binaire (0 si < Seuil et 1 si >= Seuil) Chaque variable recodée est croisée avec la variable à expliquer et l on calcule un test du χ 2 d écart à l indépendance Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera la pvalue associée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

16 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

17 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (1) On ordonne de manière croissante les valeurs d humidité : Il y a 5 observations dans le sommet in[soleil] et n d = 4 valeurs distinctes Nous avons donc n d 1 = 3 seuils possibles M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

18 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (2) Seuil 1 : Seuil 2 : Seuil 3 : (70+85)/2 = 775 (85+90)/2 = 875 (90+95)/2 = 925 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

19 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (3) Pour chaque seuil, la variable quantitative est recodée en variable binaire (discrétisation) Chaque variable discrétisée est croisée à la variable à expliquer au travers d un tableau de contingence et un test du χ 2 d écart à l indépendance est calculé M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

20 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Discrétisation des variables quantitatives Exemple avec la variable humidité (4) Humidité <775 Humidité >= 775 Jouer=oui 2 0 Jouer=non 0 3 Humidité <875 Humidité >= 875 Jouer=oui 2 0 Jouer=non 1 2 Seuils Pvalue (χ 2 ) Humidité <925 Humidité >= 925 Jouer=oui 2 0 Jouer=non 2 1 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

21 Méthodologie de construction d un arbre de décision - CHAID Discrétisation des variables quantitatives Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

22 Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Choix de la variable de segmentation (split) Utilisation de l indicateur de qualité de segmentation Après discrétisation des variables quantitatives ensemble de variables qualitatives candidates à la segmentation du sommet en cours Choix de la meilleure variable de segmentation utilisation de l indicateur de qualité de segmentation Test du χ 2 d écart à l indépendance de Pearson La variable selectionnée sera celle qui maximisera la statistique du test (ou minimisera la pvalue associée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

23 Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Exemple de la segmentation du sommet in[soleil] Variables candidates : Humidité, Température, Vent, Ensoleillement (triviale) Variable Candidate Cut-off Pvalue (χ 2 ) Humidité Température Vent Ensoleillement - 1 La variable Humidité est retenue car elle minimise la pvalue associée au test du χ 2 Ce n est pas étonnant car cette variable de segmentation produit des noeuds enfants purs M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

24 Méthodologie de construction d un arbre de décision - CHAID Choix de la variable de segmentation (split) Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

25 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

26 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Optionnel dans la méthode CHAID Principe Initialement : la segmentation d une variable qualitative produit autant de sommets enfants que de modalités Possibilité de fusion des sommets enfants limiter la fragmentation des données (faibles effectifs) et les sommets enfants redondants Comparaison des distributions de la VAE dans chaque sommet enfant et regroupement des sommets ayant des profils proches M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

27 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Principe (2) Test du χ 2 d équivalence distributionnelle H 0 : les deux sommets enfants ont des profils similaires H 1 : les deux sommets enfants ont des profils différents La statistique suit une loi du χ 2 à K 1 ddl X = K k=1 ( nk1 n k2 n 1 n 2 n k1 + n k2 n 1 n 2 ) 2 K : nombre de modalités de la variable à expliquer 2 χ K 1dll n 1 : nombre d observations présentant la modalité liée au sommet 1 On fusionne les deux sommets enfants ayant les profils les plus proches (au sens du test) puis on réitère l opération jusqu à ce qu aucune fusion ne soit possible Possibilité qu aucune fusion ne se réalise M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

28 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Principe (3) On fusionne les deux sommets enfants ayant les profils les plus proches (au sens du test) puis on réitère l opération jusqu à ce qu aucune fusion ne soit possible Possibilité qu aucune fusion ne se réalise Possibilité que tous les sommets enfants soient fusionnés la variable de segmentation est éliminée d office M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

29 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Exemple avec la variable Ensoleillement (1) Intégration de la possibilité de fusion Comparaison des sommets deux à deux : Sommets χ 2 Pvalue (χ 2 ) Action Soleil et couvert Soleil et Pluie Fusion Couvert et Pluie Risque de première espèce (α) de 10% Les modalités Soleil et Pluie peuvent être fusionnées M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

30 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Fusion des sommets lors de la segmentation (merge) Exemple avec la variable Ensoleillement (2) Sommets χ 2 Pvalue (χ 2 ) Action (Soleil et Pluie) et Couvert Aucune fusion n est possible l algorithme s arrête! M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

31 Méthodologie de construction d un arbre de décision - CHAID Fusion des sommets lors de la segmentation (merge) Méthodologie de construction d un arbre de décision CHAID REPETER Prise en compte d un sommet à segmenter Préparation des variables quantitatives (discrétisation, choix d un cut-off) Sélection de la meilleure variable de segmentation (utilisation de l indice) Si la variable sélectionnée est qualitative Alors Fin SI Test de fusion des modalités ayant des profils similaires Fusion si les tests s avèrent significatifs JUSQU A Conditions d arrêt M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

32 Méthodologie de construction d un arbre de décision - CHAID Conditions d arrêt Conditions d arrêt et détermination de la bonne taille de l arbre Notion de pré-élagage Pendant la phase d expansion de l arbre Acceptation de la segmentation si le test du χ 2 est significatif quant à un risque de première espèce α fixé par l utilisateur (5% par exemple) Le choix du seuil détermine la taille de l arbre : S il est trop permissif arbre sur-dimensionné (risque d overfitting) S il est trop restrictif arbre sous-dimensionné (toute l information n est pas utilisée) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

33 Méthodologie de construction d un arbre de décision - CHAID Conditions d arrêt Conditions d arrêt et détermination de la bonne taille de l arbre Autres conditions d arrêt Les feuilles sont pures Effectifs trop faibles dans un noeud pour segmenter (fixé par l utilisateur) Effectifs trop faibles dans les sommets enfants issus d une segmentation (fixé par l utilisateur) Profondeur limite de l arbre atteinte (fixé par l utilisateur) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

34 Méthodologie de construction d un arbre de décision - CHAID Prise de décision Après la construction de l arbre Tirer des conclusions pour chaque feuille de l arbre Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non) Simple quand les feuilles sont pures! SI (Ensoleillement = Soleil) ET (Humidité < 775%) ALORS Jouer = Oui Dans 100% des cas!! Feuilles non pures règle de la majorité (classe majoritaire) Estimation de la probabilité conditionnelle P(Y /X i ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

35 Un coup d oeil sur la méthode CART Méthode CART Classification And Regression Trees Principe VAE qualitative ou quantitative Variables explicatives qualitatives ou quantitatives Arbres binaires uniquement deux sommets enfants à chaque segmentation Indice de qualité de segmentation basé sur l indice de Gini I = 1 K k=1 f 2 k avec I [0, 1] Plus l indice de Gini est proche de 0 plus le noeud est pur M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

36 Un coup d oeil sur la méthode CART Méthode CART Classification And Regression Trees Principe La variable de segmentation retenue est celle qui maximise le gain de pureté défini par : Gain = I (S) [I (Fils 1 ) + I (Fils 2 )] avec Gain >= 0 Détermination de la taille de l arbre = procédure de post élagage Arbre complètement développé sur un premier échantillon (growing set) Arbre réduit de manière à optimiser le taux de mauvais classement sur un deuxième échantillon (pruning set) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

37 Un coup d oeil sur la méthode CART Comparaison avec CHAID Classification And Regression Trees - Comparaison avec la 21 ARBRES DE méthode DÉCISION d induction CHAID Table 22 Comparatif des méthodes CHAID et CART Caractéristiques/Méthodes CHAID CART Impact(critère de segmentation) χ 2 d indépendance ou t de Tschuprow Indice de Gini Regroupement Arbre n-aire - Test d équivalence distributionnelle Arbre binaire Détermination de la taille optimale Effectif minimum pour segmenter - Nombre de niveau de l arbre - Seuil de spécialisation - Effectifs d admissibilité Détermination de la taille optimale (spécifique) Pré-élagage avec le test du χ 2 d indépendance Post-élagage par un échantillon d élagage ou un validation croisée Avantages Performante pour une phase exploratoire de grandes bases de données Performante en termes de classement - Pas de complexité de paramétrage Inconvénients Moyennement performante en classement - Paramétrage de la méthode compliqué (détermination empirique du seuil α) Peu performante avec des échantillons de taille faible - Binarisation pas toujours appropriée M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

38 Exemples Prévention des effets indésirables liés aux médicaments Prévention des effets indésirables liés aux médicaments Le projet européen PSIP (Patient Safety Through Intelligent Procedures in medication) Effets indésirables liés aux médicaments sont trop fréquents Responsables, chaque année, de morts en France et aux Etats Unis La prévention de ces effets est l axe majeur du projet PSIP Création d outils d aide à la décision basés sur la fouille automatisée de données hospitalières Recherche de règles d alerte du type : Cause 1&Cause 2&&Cause p Effet = 1 M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

39 Exemples Prévention des effets indésirables liés aux médicaments Effet indésirable : INR trop bas M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

40 Exemples Prévention des effets indésirables liés aux médicaments Prévention des effets indésirables liés aux médicaments Règles d alerte La règle extraite de l arbre : INR trop haut ET age > 7866 ET hypoalbunémie INR trop bas (857%) 875% est une estimation de P(Y /X i ) C est la confiance de la règle M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

41 Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives Une autre utilisation des arbres La discrétisation de variable quantitative est utile dans la création de scores cliniques Ex : Fréquence cardiaque, pression artérielle Détermination de seuils (cut-off) maximisant la segmentation au regard d une variable à expliquer qualitative (Vivant/ Décés) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

42 +:*f,+,&a3"&$k$da5$f/&& Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives _$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"& 8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$& R&$KA5*9:$"&9:35*838*C$/& "+)-)=8()$ /69#1,$ =01,%)$ (+6,(/#,01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$& :,&%$:*5&'$&%A5*8&R&VX/& Score PELOD : discrétisation du taux de prothrombine en fonction de Vivant/ Décés & & Algorithme CHAID - Seuil de split : 5% E1$%)=#%56)$56)$(+#('0%,>=)$#$=/$)1$49*)12)$F$/)6(/$*/,12,/$56$=#-=/)1,$(#$/)'=)1,#,01&Z& & & VV/V0& =>/V0& M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

43 Exemples Discrétisation de variables quantitatives Discrétisation de variables quantitatives & 0%,>=)$#$=/$)1$49*)12)$F$/)6(/$*/,12,/$56$=#-=/)1,$(#$/)'=)1,#,01&Z& 3 seuils mis en évidence par l algorithme VV/V0& =>/V0& *,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&&!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&& M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

44 Limites Limites Limites des méthodes d induction d arbres (1) Nécessite de bases d apprentissage de taille importante (fragmentation rapide des données) Instabilité en prédiction Arbre surdimensionné bonne explication de la variabilité mais mauvaises qualités prédictives (overfitting) Arbre sous-dimensionné bonnes qualités prédictives mais ne considère pas toute l information contenue dans les données (underfitting) Non exhaustivité des règles de décision obtenues (Parfois plus de valeur statistique (discrimination) que de valeur métier ) M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

45 Limites Limites Limites des méthodes d induction d arbres (2) Effet papillon : suppression d une variable explicative et tout l arbre change Sensibles aux observations aberrantes Pas de prise en compte des données manquantes M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

46 Limites Quelques pistes Quelques pistes Forêts aléatoires de Breiman (boostrapping, bagging) Règles d association (Analyse du panier de la ménagère) Algorithmes d imputation des données manquantes M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

47 Quelques logiciels Quelques logiciels d induction d arbres de décision Sipina Logiciel Libre Interface du type SPSS Méthodes implémentées : CHAID, ID3, C45, Improved CHAID Possibilité de construction d arbres en utilisant des connaissances expertes R - Package Rpart Logiciel libre Package reconnu et souvent utilisé en recherche Méthode implémentée : CART Rendus graphiques paramétrables M Genin (Université de Lille 2) Arbres de décision Version - 30 mars / 67

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Arbres de Décision. 1 Introduction

Arbres de Décision. 1 Introduction Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Fast and furious decision tree induction

Fast and furious decision tree induction Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand Service méthodes statistiques Institut National d Etudes Démographiques (Ined)

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq e élevé Risque faible Risq à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq L e s I n d i c e s F u n d a t a é Risque Les Indices de faible risque

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Supervision & Maintenance des centrales photovoltaïques en toiture GARANTIR LA PERFORMANCE DE VOS INVESTISSEMENTS DANS LE TEMPS

Supervision & Maintenance des centrales photovoltaïques en toiture GARANTIR LA PERFORMANCE DE VOS INVESTISSEMENTS DANS LE TEMPS Supervision & Maintenance des centrales photovoltaïques en toiture GARANTIR LA PERFORMANCE DE VOS INVESTISSEMENTS DANS LE TEMPS 2 EDF ENR Solaire La Supervision-Maintenance des toitures photovoltaïques

Plus en détail

SOLUTION DE GESTION COMMERCIALE POUR IMPRIMEURS

SOLUTION DE GESTION COMMERCIALE POUR IMPRIMEURS SOLUTION DE GESTION COMMERCIALE POUR IMPRIMEURS ENJEU: PRODUCTIVITÉ ET EFFICACITÉ COMMERCIALE DES BESOINS, UNE SOLUTION Pour un imprimeur de petite ou moyenne taille, le devisage est complexe o Chaque

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

assurance collective Assurance médicaments Des solutions intégrées pour une gestion efficace

assurance collective Assurance médicaments Des solutions intégrées pour une gestion efficace assurance collective Assurance médicaments Des solutions intégrées pour une gestion efficace Notre vision Desjardins Assurances est un acteur canadien important en assurance collective, reconnu pour son

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN)

Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN) Définition Score individuel Score global Echantillon Critère d inclusion Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN) Cet indicateur évalue la tenue du dossier anesthésique.

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Maîtriser les mutations

Maîtriser les mutations Maîtriser les mutations Avec UNE Supply chain AGILE La réflexion porte ses fruits www.cereza.fr TALAN Group Notre savoir-faire : maîtriser les mutations et en faire une force pour l entreprise Cereza,

Plus en détail

Offre Référentiel d échange

Offre Référentiel d échange Offre Référentiel d échange mardi 1er juillet 2014 Groupe CGI inc. CONFIDENTIEL Agenda 1 2 3 4 5 6 7 8 Pourquoi cette solution? Les enjeux et principes de la solution Les acteurs & business case Sa place

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Méthode et exemples d application. Congrès SFSE - Jeudi 15 décembre 2011

Méthode et exemples d application. Congrès SFSE - Jeudi 15 décembre 2011 Exploitation des données de remboursement de médicaments de la Cnam-TS pour l'investigation rétrospective d'épidémie de Gastro-Enterites Aigues d origine hydrique Méthode et exemples d application Congrès

Plus en détail

Du 10 Fév. au 14 Mars 2014

Du 10 Fév. au 14 Mars 2014 Interconnexion des Sites - Design et Implémentation des Réseaux informatiques - Sécurité et Audit des systèmes - IT CATALOGUE DE FORMATION SIS 2014 1 FORMATION ORACLE 10G 11G 10 FEV 2014 DOUALA CAMEROUN

Plus en détail

Vers une Optimisation de l Algorithme AntTreeStoch

Vers une Optimisation de l Algorithme AntTreeStoch Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et

Plus en détail

Déclarations européennes de la pharmacie hospitalière

Déclarations européennes de la pharmacie hospitalière Déclarations européennes de la pharmacie hospitalière Les pages qui suivent constituent les Déclarations européennes de la pharmacie hospitalière. Elles représentent l expression consensuelle de ce que

Plus en détail

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre. Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre. Isabelle Bombard, Bruno da Silva, Pascal Dufour *, Pierre Laurent, Joseph Lieto. Laboratoire d Automatique

Plus en détail

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES 97 PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES Jacques Vaugelade & Marie Piron (Demographie et Statistique) (UR 702) Centre ORSTOM de Ouagadougou

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

MODE D EMPLOI. Station météo avec senseur extérieur sans fil WS-1100

MODE D EMPLOI. Station météo avec senseur extérieur sans fil WS-1100 MODE D EMPLOI Station météo avec senseur extérieur sans fil WS-1100 FR SOMMAIRE 1 2 11 3 4 5 10 9 6 8 1. affi chage de l horloge DCF 2. les précisions météorologiques avec des symboles 3. pression de l

Plus en détail

SOMMAIRE COMMUNIQUÉ DE PRESSE. p. 3. p. 4 LE CESU. p. 5. Les outils. p. 6. Le centre de simulation. Quelques chiffres

SOMMAIRE COMMUNIQUÉ DE PRESSE. p. 3. p. 4 LE CESU. p. 5. Les outils. p. 6. Le centre de simulation. Quelques chiffres SOMMAIRE COMMUNIQUÉ DE PRESSE p. 3 LE CESU Les outils Le centre de simulation Quelques chiffres Un exemple : la formation à l emploi des infirmiers des services d urgences En annexe p. 4 p. 5 p. 6 p. 6

Plus en détail

ITIL V3. Transition des services : Principes et politiques

ITIL V3. Transition des services : Principes et politiques ITIL V3 Transition des services : Principes et politiques Création : janvier 2008 Mise à jour : août 2009 A propos A propos du document Ce document de référence sur le référentiel ITIL V3 a été réalisé

Plus en détail

Aide au codage des emplois (professions et secteurs d activité) lors d enquête en face à face : l outil CAPS

Aide au codage des emplois (professions et secteurs d activité) lors d enquête en face à face : l outil CAPS Aide au codage des emplois (professions et secteurs d activité) lors d enquête en face à face : l outil CAPS Garras L.(1), Prevot C. (3), Lemonnier J.(3), Palmer G.(3), El Yamani M.(1), Pilorget C.(1,2)

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

MMA - Projet Capacity Planning LOUVEL Cédric. Annexe 1

MMA - Projet Capacity Planning LOUVEL Cédric. Annexe 1 Annexe 1 Résumé Gestion Capacity Planning Alternance réalisée du 08 Septembre 2014 au 19 juin 2015 aux MMA Résumé : Ma collaboration au sein de la production informatique MMA s est traduite par une intégration

Plus en détail

Votre Réseau est-il prêt?

Votre Réseau est-il prêt? Adapter les Infrastructures à la Convergence Voix Données Votre Réseau est-il prêt? Conférence IDG Communications Joseph SAOUMA Responsable Offre ToIP Rappel - Définition Voix sur IP (VoIP) Technologie

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Évaluations aléatoires : Comment tirer au sort?

Évaluations aléatoires : Comment tirer au sort? Évaluations aléatoires : Comment tirer au sort? William Parienté Université Catholique de Louvain J-PAL Europe povertyactionlab.org Plan de la semaine 1. Pourquoi évaluer? 2. Comment mesurer l impact?

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

Repères Gérer la capacité

Repères Gérer la capacité Repères Gérer la http://www.agilecom.fr Les enjeux de la gestion de la Réaliser cet ajustement est un effort continuel : La stratégie de l entreprise évolue avec la conjoncture ; Les métiers développent

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

REFERENTIEL DU CQPM. TITRE DU CQPM : Electricien maintenancier process 1 OBJECTIF PROFESSIONNEL DU CQPM

REFERENTIEL DU CQPM. TITRE DU CQPM : Electricien maintenancier process 1 OBJECTIF PROFESSIONNEL DU CQPM COMMISION PARITAIRE NATIONALE DE L EMPLOI DE LE METALLURGIE Qualification : Catégorie : B Dernière modification : 10/04/2008 REFERENTIEL DU CQPM TITRE DU CQPM : Electricien maintenancier process 1 I OBJECTIF

Plus en détail

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux Ministère de la Culture et de la Communication Secrétariat Général Délégation à l Information à la Communication (DICOM) CAHIER DES CLAUSES TECHNIQUES PARTICULIERES Personne publique contractante Ministère

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Créer un référentiel client grâce à Talend MDM

Créer un référentiel client grâce à Talend MDM Créer un référentiel client grâce à Talend MDM Christophe Toum Product Manager Talend Connect 9 octobre 2014 Talend 2014 1 Sommaire Connaissez-vous vos clients? MDM et réconciliation des données Le processus

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail