Khiops: discrétisation des attributs numériques pour le Data Mining

Dimension: px
Commencer à balayer dès la page:

Download "Khiops: discrétisation des attributs numériques pour le Data Mining"

Transcription

1 Note Techique NT/FTR&D/ septembre 00 Vu, pour accord le Khiops: discrétisatio des attributs umériques pour le Data Miig directeur de DTL JM. Pitié Marc Boullé (DTL/DLI) Vu, le chef du départemet DLI JF. Cloarec Date : 6 septembre 00 Résumé : Das le domaie de l appretissage supervisé, certais modèles sot adaptés uiquemet au doées qualitatives. Ces modèles procèdet alors à ue étape de discrétisatio des attributs umériques pour pouvoir les predre e compte. De ombreuses méthodes de discrétisatio ot été proposées das la bibliographie, qui se baset sur des critères statistiques, iformatioels ou ecore d autres critères dédiés. Nous proposos ici ue ouvelle méthode de discrétisatio, Khiops, basée sur la statistique du Khi. Cotrairemet au méthodes de discrétisatio apparetées ChiMerge et ChiSplit, cette méthode optimise le critère du Khi globalemet sur l esemble du domaie de discrétisatio et e écessite aucu paramétrage de critère d arrêt de la discrétisatio. Ue étude théorique complétée par des epérimetatios motre la robustesse de la méthode et la qualité prédictive des discrétisatios obteues. Mots clés : aalyse itelligete doée ; appretissage automatique ; discrétisatio. Domaie : Traitemet de l'iformatio et des coaissaces Le préset documet cotiet des iformatios qui sot la propriété de Frace Télécom R&D. L acceptatio de ce documet par so destiataire implique, de la part de ce derier, la recoaissace du caractère cofidetiel de so coteu et l egagemet de e faire aucue reproductio, aucue trasmissio à des tiers, aucue divulgatio et aucue utilisatio commerciale sas l accord préalable écrit de Frace Télécom R&D. 00 Frace Télécom. Tous droits de reproductio, traductio, et adaptatio réservés pour tous pays Frace Télécom R&D Brache Développemet rue du Gééral Leclerc 9794 Issy-les Moulieau Cede9 Frace Téléphoe : Téléphoe iteratioal :

2 NT/FTR&D/7339 3/50 TABLE DES MATIERES INTRODUCTION LE TEST D INDEPENDANCE DU KHI : PRINCIPES METHODE DE DISCRETISATION KHIOPS ALGORITHME EFFECTIF MINIMUM PAR INTERVALLE EXEMPLE COMPLEXITE ALGORITHMIQUE PROPRIETES DE LA FUSION DES LIGNES DE KHI DE LA METHODE A SON IMPLEMENTATION COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI COMPARAISON AVEC CHIMERGE COMPARAISON AVEC CHISPLIT EXPERIMENTATIONS DESCRIPTION DES EXPERIMENTATIONS MENEES RESULTATS D EXPERIMENTATION COMPARAISON AVEC D AUTRES METHODES DE DISCRETISATION... 3 CONCLUSION... 3 REFERENCES ANNEXE : APPROXIMATION DU DELTAKHI POUR LA METHODE KHIOPS INTRODUCTION LOI DU KHI ET LOI GAMMA EQUIPROBABILITE POUR X=N CALCUL DU LOGARITHME DE PROBABILITE DU KHI Calcul de l(q(,)) Calcul de l(q(,)) Calcul de l(q(,)) pour > CALCUL DU DELTAKHI Itroductio Calcul de DeltaKhi pour u écart de degrés de liberté Calcul de DeltaKhi pour u écart de degré de liberté EVALUATION NUMERIQUE L(Q(,) Comparaiso de plusieurs méthodes d approimatio de DeltaKhi DK(,,) EXEMPLES DE FUSIONS CONCLUSION REFERENCES La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

3 NT/FTR&D/7339 4/50 INTRODUCTION La discrétisatio des attributs umériques est u suet largemet traité das la bibliographie (Zighed et Rakotomalala 000). Ue partie des modèles d appretissage est basée sur le traitemet des attributs à valeurs discrètes. Il est doc écessaire de discrétiser les attributs umériques, c est à dire de découper leur domaie e u ombre fii d itervalles idetifiés chacu par u code. Aisi, tous les modèles prédictifs à base d arbre de décisio utiliset ue méthode de discrétisatio pour traiter les attributs umériques. C4.5 (Quila 993) utilise le gai iformatioel basé sur l etropie de Shao, CART (Breima 984) utilise l idice de Gii (ue mesure de l impureté des itervalles), CHAID (Kass 980) s appuie sur ue méthode de type ChiMerge, SIPINA (Zighed 996) utilise le critère Fusiter (Zighed 998) basé sur des mesures d icertitude sesibles au effectifs. Parmi les méthodes de discrétisatio, il eiste des méthodes descedates et ascedates. Les méthodes descedates partet de l itervalle complet à discrétiser et cherchet le meilleur poit de coupure de l itervalle e optimisat le critère choisi. La méthode est appliquée itérativemet au deu sous itervalles usqu à ce qu u critère d arrêt soit recotré. Les méthodes ascedates partet d itervalles élémetaires et cherchet la meilleure fusio de deu itervalles adacets e optimisat le critère choisi. La méthode est appliquée itérativemet au itervalles restat usqu à ce qu u critère d arrêt soit recotré. Certaies de ces méthodes écessitet u paramétrage utilisateur pour modifier le comportemet du critère de choi du poit de discrétisatio ou pour fier u seuil pour le critère d arrêt. Le problème de la discrétisatio est u problème de compromis etre qualité iformatioelle (itervalles homogèes vis à vis de la variable à prédire) et qualité statistique (effectif suffisat das chaque itervalle pour assurer ue gééralisatio efficace). Les critères de type Khi privilégiet l aspect statistique tadis que ceu basés sur la mesure de l etropie privilégiet l aspect iformatioel. D autres critères (idice d impureté de Gii, mesure d icertitude de Fusiter ) tetet de cocilier les deu aspects e état à la fois sesible au effectifs et à la distributio de la variable à prédire. Le critère MDL (Miimum Descriptio Legth) (Fayyad 99) est ue approche origiale qui cherche à optimiser la quatité totale d iformatio coteue das le modèle et les eceptios au modèle. La méthode de discrétisatio Khiops est ue méthode ascedate basée sur l optimisatio globale du Khi. Les méthodes eistates les plus proches sot les méthodes descedates et ascedates utilisat le critère du Khi, mais de faço locale. La méthode descedate basée sur le Khi est ChiSplit. Elle recherche le meilleur poit de coupure d u itervalle, e maimisat le critère du Khi appliqué au deu sous-itervalles de part et d autre du poit de coupure : o coupe u itervalle si les deu sous-itervalles présetet des différeces sigificatives statistiquemet. Le critère d arrêt est ue probabilité d idépedace maimum à respecter (calculée d après la loi du Khi). La méthode ascedate basée sur le Khi est ChiMerge (Kerber 99). Elle recherche la meilleure fusio d itervalles adacets e miimisat le critère du Khi : o fusioe deu itervalles adacets s ils sot similaires statistiquemet. Le critère d arrêt est ue probabilité d idépedace miimum à respecter (calculée d après la loi du Khi). La méthode Khiops commece la discrétisatio à partir des itervalles élémetaires réduits à u idividu. Elle évalue toutes les fusios d itervalles adacets et choisit celle qui maimise le critère du Khi appliqué à la distributio de l esemble des itervalles. Le critère d arrêt est basé sur la probabilité d idépedace associée au Khi. La méthode s arrête automatiquemet dès que la probabilité d idépedace e décroit plus. La méthode Khiops optimise u critère d évaluatio global de la partitio du domaie e itervalles, et o u critère local appliqué à deu itervalles adacets comme das ChiSplit ou ChiMerge. So absece complète de paramétrage la red très souple à utiliser et permet d aboutir à des partitios de grade qualité sas itervetio utilisateur. Nous motreros qu e dépit de cette approche globale, l algorithme associé à la méthode Khiops est e Nlog(N) ou N est le ombre d idividus à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

4 NT/FTR&D/7339 5/50 Cette compleité algorithmique est la même que pour l algorithme ChiMerge optimisé. Nous compareros la méthode Khiops avec d autres méthodes de discrétisatio et procéderos à des epérimetatios. Efi, ous étudieros les problèmes umériques liés au calcul de la loi du Khi pour u paramétrage etrême (très grad ombre de degrés de liberté et très grade valeur du Khi). Le documet est orgaisé de la faço suivate. La partie rappelle les pricipes du test du Khi et étudie quelques ues de ses propriétés. La partie présete l algorithme Khiops et ses propriétés fodametales. La partie 3 compare la méthode Khiops avec les méthodes apparetées ChiMerge et ChiSplit d u poit de vue théorique. La partie 4 procède à des epérimetatios. L aee étudie les problèmes de sesibilité umérique liés à l approimatio de la loi du Khi. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

5 NT/FTR&D/7339 6/50. LE TEST D INDEPENDANCE DU KHI : PRINCIPES Soit S ue variable source, et T ue variable cible. O cherche à savoir si les variables S et T sot idépedates. O costruit le tableau de cotigece, comptat le ombre d idividus pour chaque couple de valeurs de S et T. Das le tableau par eemple, le couple de valeur (d, B) a été observé 0 fois. S\T A B C a 0 b c d 5 0 e 8 9 Tableau : Eemple de tableau de cotigece Le test du Khi permet de tester l hypothèse d idépedace des deu lois. Le Khi est calculé à partir du tableau de cotigece. S\T A B C Total a 3. b 3. c d e Total...3 N Tableau : Tableau de cotigece utilisé pour le calcul du Khi i : Nombre d idividus pour la i ème valeur de la variable S et la ème valeur de la variable T i. : Nombre total d idividus pour la i ème valeur de la variable S. : Nombre total d idividus pour la ème valeur de la variable T N : Nombre total d idividus I : Nombre de modalités de la variables T (ici 3) J : Nombre de modalités de la variable S (ici 5) Soit e i = i. *. / N. e i représete le ombre d idividus de la case (i, ) si les lois étaiet idépedates. e i est l effectif théorique de la case (i,). La valeur du Khi est ue mesure sur l esemble du tableau de l écart etre les ombres d idividus observés (effectif observé) et les ombres d idividus théoriques (effectif théorique) si les lois étaiet idépedates. La valeur du Khi est doc ue mesure de l écart à l hypothèse d idépedace des variables. ( ) = i ei Khi i ei Sous l hypothèse ulle d idépedace, la valeur du Khi suit ue loi du Khi à (I-)*(J-) degrés de liberté, ce qui permet de costruire u test reetat l hypothèse quad la valeur du Khi est suffisammet grade. Plus la valeur du Khi est importate, mois l hypothèse d idépedace des variables est probable. Par abus de lagage, o parlera das la suite de probabilité d idépedace des variables. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

6 NT/FTR&D/7339 7/50 Proba Degrés 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,0 0,0 0,05 0,0 0,0 0,00 0,000 0,0008 0,0039 0,058 0,06 0,5 0,45,07,64,7 3,84 5,4 6,63 0,83 0,0 0,04 0,0 0, 0,45 0,7,39,4 3, 4,6 5,99 7,8 9, 3,8 3 0, 0,8 0,35 0,58,0,4,37 3,66 4,64 6,5 7,8 9,84,34 6,7 4 0,30 0,43 0,7,06,65,9 3,36 4,88 5,99 7,78 9,49,67 3,8 8,47 5 0,55 0,75,5,6,34 3,00 4,35 6,06 7,9 9,4,07 3,39 5,09 0,5 6 0,87,3,64,0 3,07 3,83 5,35 7,3 8,56 0,64,59 5,03 6,8,46 7,4,56,7,83 3,8 4,67 6,35 8,38 9,80,0 4,07 6,6 8,48 4,3 8,65,03,73 3,49 4,59 5,53 7,34 9,5,03 3,36 5,5 8,7 0,09 6, 9,09,53 3,33 4,7 5,38 6,39 8,34 0,66,4 4,68 6,9 9,68,67 7,88 0,56 3,06 3,94 4,87 6,8 7,7 9,34,78 3,44 5,99 8,3,6 3, 9,59 Tableau 3 : Table du Khi etre et 0 degrés de liberté. Par eemple, pour u tableau de cotigece de dimesio 5*3, le ombre de degrés de liberté de la loi du Khi associée est 8. Si o trouve ue valeur de Khi de 0, cela sigifie que l hypothèse d idépedace des variables à ue probabilité d eviro %. Il est doc raisoable de reeter l hypothèse d idépedace das ce cas. Sesibilité à l idépedace des variables Plus les variables sot idépedates, plus les effectifs observés sot proches des effectifs théoriques. Das ce cas la valeur du Khi est faible et la probabilité d idépedace est doc forte. Sesibilité au effectifs Si o multiplie tous les effectifs par u facteur costat k e gardat les mêmes proportios de modalités cibles, la ouvelle valeur du Khi est multipliée par k. ( k i k ei ) NewKhi = = k. Khi k e i i La probabilité d idépedace dimiue alors très rapidemet avec la taille de la populatio. Cette propriété proviet du caractère statistique du test. Avec ue petite populatio, ue distributio o homogèe est relativemet fréquete, mais est peu fiable pour reeter l hypothèse d idépedace des variables. Pour ue populatio plus grade, il deviet de mois e mois probable qu ue ohomogééité de la distributio soit due au hasard. Sesibilité au proportios observées de modalités cibles Soit ue distributio des modalités cible p, p, p J. = Etudios l ifluece d ue lige de Khi, d effectif, pour des proportios sur la lige de modalités cibles a. = a Les effectifs observés et théoriques de la lige de Khi sot a et p. La cotributio de la lige au Khi est doc ( ( p a ) Khil = p ( p a ) a Khil = = p p Le Khi lige est proportioel à l effectif lige, et varie comme ue combiaiso des carrés des écarts etre les proportios théoriques et observées de modalités cibles, podérées par l iverse des proportios cibles. L écart au modalités cibles de faibles proportios est doc favorisé. Sesibilité de la loi du Khi O a vu que la valeur du Khi varie de faço liéaire avec les effectifs, et approimativemet de faço quadratique avec les écarts etre les proportios observées et théoriques. Par cotre, e se basat sur la p La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

7 NT/FTR&D/7339 8/50 table du Khi du tableau 3, o observe que la probabilité d idépedace varie de faço epoetielle avec la valeur du Khi. Des variatios faibles de la valeur du Khi etraîet des variatios importates de la probabilité d idépedace correspodate. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

8 NT/FTR&D/7339 9/50. METHODE DE DISCRETISATION KHIOPS.. Algorithme Le test du Khi est à la fois sesible au effectifs et au proportios des modalités cibles. Il s agit doc d u critère itéressat a priori pour les méthodes de discrétisatio. La loi du Khi déped du ombre de modalités (par le paramétrage du ombre de degrés de liberté). Cepedat, e passat de la valeur du Khi à la valeur de la probabilité d idépedace associée, o peut comparer deu discrétisatios basées sur des ombres d itervalles différets. O va chercher à miimiser la probabilité d idépedace etre la loi discrétisée et la loi cible e passat par la loi du Khi. Les coditios d applicatio du test du Khi imposet que l o ait u effectif théorique miimum das chaque cellule du tableau de Khi. Cette cotraite devra être prise e compte das l optimisatio. La méthode d optimisatio utilisée est ue méthode gloutoe de type ascedate. O part des itervalles élémetaires, et l o recherche la meilleure fusio possible, c est à dire celle qui etraîe e priorité u meilleur respect des cotraites d effectifs miimum, et à respect de cotraite égal, celle qui miimise la probabilité d idépedace etre loi discrétisée et loi cible. O s arrête quad toutes les cotraites sot respectées et qu aucue fusio supplémetaire e dimiue la probabilité d idépedace etre loi discrétisée et loi cible. Algorithme Khiops Iitialisatio Tri des valeurs de la loi source Créatio d u itervalle élémetaire par valeur de la loi source Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible Optimisatio de la discrétisatio Répéter Evaluer toutes les fusios possibles d itervalles adacets Calcul du Khi associé à la ouvelle loi discrétisée résultat de la fusio Chercher la meilleure fusio Fusios améliorat le respect des cotraites e priorité Maimum du Khi Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio).. Effectif miimum par itervalle La covetio la plus courate est d eiger que les effectifs théoriques soiet au mois égau à 5 pour chaque case du tableau de cotigece. Cette covetio doit être respectée pour des raisos de fiabilité de la loi du Khi. Cet effectif théorique miimum par case est équivalet à u effectif miimum par lige du tableau du Khi, et doc à u effectif miimum par itervalle de la discrétisatio. Das le cadre de la discrétisatio, o procède à des regroupemets de valeurs adhoc e espérat approimer les proportios des modalités cibles à partir des régularités observées das l échatillo. Ces régularités provieet e fait o seulemet de la loi de distributio, mais égalemet du hasard lié à l échatillo. Afi de e pas se baser à tort sur des régularités qui proviedraiet uiquemet du hasard, c est à dire de sur-appredre l échatillo, ue solutio est d augmeter la valeur de l effectif miimum La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

9 NT/FTR&D/7339 0/50 par itervalle, afi de lisser les effets du hasard. O predra pour valeur de l effectif miimum par itervalle aisi redéfii la racie carrée de la taille de l échatillo. Cette valeur permet d ue part d améliorer la fiabilité statistique de l évaluatio de la loi de distributio sur chaque itervalle discrétisé, d autre part d augmeter le ombre d itervalles potetiels et doc la fiesse de la discrétisatio quad la taille de l échatillo augmete. E défiitive, o predra pour effectif miimum par itervalle le maimum du résultat des deu calculs pour assurer à la fois la fiabilité statistique du test du Khi et préveir les problèmes de sur-appretissage..3. Eemple O va illustrer le déroulemet de l algorithme sur la base Iris proveat des bases d appretissage de l UCI Irvie (Blake 998). La base Iris est composée de 50 istaces. Les istaces représetat des fleurs de la famille des Iris sot décrites par 5 attributs : sepal legth e cm sepal width e cm petal legth e cm petal width e cm class: Iris setosa, Iris versicolor, Iris virgiica La variable à prédire est la classe. O va discrétiser l attribut sepal width, qui état le mois corrélé avec la variable cible est le plus itéressat pour illustrer la méthode. Le tableau de cotigece associé au valeurs de l attribut sepal width est le suivat: Valeur Iris Sepal width versicolor Iris Iris Virgiica setosa Total Itervalle fusioé Khi Résultat 0 0 ] - ;,5] 87,86, 0 3 ],0;,35] 87,44, ],5;,45] 87,7, ],35;,55] 85,09, ],45;,65] 88,8, ],55;,75] 88,33, ],65;,85] 87,83, ],75;,95] 84,49,9 7 0 ],85; 3,05] 83, ],95; 3,5] 87,03 3, ]3,05; 3,5] 88,9 3, ]3,5; 3,35] 88, 3,3 3 6 ]3,5; 3,45] 84,86 3,4 9 ]3,35; 3,55] 87,0 3, ]3,45; 3,65] 87,03 3,6 0 3 ]3,55; 3,75] 87,36 3, ]3,65; 3,85] 87,03 3, ]3,75; 3,95] 87,36 3,9 0 0 ]3,85; 4,05] 88, ]3,95; 4,5] 88,36 4, 0 0 ]4,05; 4,5] 88,36 4, 0 0 ]4,5 ; [ 88,36 4,4 0 0 Total Tableau 4 : Table de cotigece pour l attribut sepal width de la base Iris. Evaluatio des fusios. Lors de l iitialisatio, o costitue les 3 itervalles élémetaires ]- ;,], ],;,5] ]4,5; 4,3], ]4,3; [. La valeur du Khi associée est de 88,36. E preat la loi du Khi à 44 degrés de liberté correspodate (44=(3-)*(3-)), o obtiet ue probabilité d idépedace de 8, La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

10 NT/FTR&D/7339 /50 O calcule alors le Khi résultat de chaque fusio d itervalles. Par eemple, la fusio des itervalles ]- ;,], ],;,5] doe u ouvel itervalle ]- ;,5] et le Khi résultat de la ouvelle table (avec u itervalle e mois) a ue valeur de 87,86. O cherche alors la fusio qui maimise le Khi. Ici, la valeur ma du Khi résultat d ue fusio est de 88,36, atteite par eemple pour la fusio des deu deriers itervalles ]4,5; 4,3] et ]4,3; [. E preat la loi du Khi à 4 degrés de liberté correspodate (il y a u itervalle e mois), o obtiet ue probabilité d idépedace de 3, La probabilité d idépedace dimiuat, la discrétisatio est améliorée et o réalise la fusio correspodate. O recommece ces étapes tat qu il y a amélioratio de la discrétisatio. Le tableau 5 illustre la liste des étapes successive de la méthode de discrétisatio. Pour chaque itervalle costitué, o a rappelé les effectifs observés correspodats. Au départ, les itervalles sot fusioés pour arriver à respecter la cotraite des effectifs miimau par itervalle, tout e optimisat le critère de discrétisatio. Ue fois la cotraite satisfaite, les fusios d itervalles se fot uiquemet pour optimiser le critère de discrétisatio. Comme les trois modalités cibles sot équidistribuées, il faut u effectif lige observé de 5 pour satisfaire la cotraite d effectif théorique par case de 5. Cette valeur état supérieure à racie de 50 (cotraite pour éviter le sur-appretissage), o utilise ici u effectif miimum par itervalle de 5. Valeur Iris Sepal width versicolor Iris virgiica Iris setosa Total , 0 3, , , , , , , , , , , , , , , , , 0 0 4, ,4 0 0 Total Tableau 5 : Fusios successives des itervalles pour arriver à ue discrétisatio e trois itervalles Au bout d ue vigtaie d étapes, o arrive à la loi discrétisée suivate: Valeur Sepal width Iris-versicolor Iris-virgiica Iris-setosa Total Itervalle Fusioé Khi Résultat ]- ;.95[ ] - ; 3,35] 54,7 [.95; 3.35[ ],95 ; ] 43,97 [3.35; [ Total Tableau 6 : Table de cotigece pour l attribut sepal width discrétisé de la base Iris Le Khi associé à la loi discrétisée a ue valeur de 70,74, ce qui correspod à ue probabilité d idépedace de, (loi du Khi à 4 degrés de liberté). Deu fusios d itervalles sot ecore La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

11 NT/FTR&D/7339 /50 possibles. La meilleure d etre elles est la première fusio, qui correspod à u Khi de valeur 54,7. La probabilité d idépedace associée est, (loi du Khi à degrés de liberté). Cette fusio qui etraîe ue croissace de la probabilité d idépedace est doc refusée. La variable sepal width a doc été discrétisée e trois itervalles. Das le premier itervalle, la classe Iris setosa est très rare. Das le secod, il y a équilibre etre les trois classes. Das le derier itervalle, la classe Iris setosa est de loi la plus fréquete..4. Compleité algorithmique O va évaluer la compleité algorithmique de la méthode de discrétisatio Khiops par rapport au ombre d idividus N de la base de doées de travail. Das le pire des cas, les idividus preet des valeurs toutes différetes pour la variable à discrétiser. Si l o se base sur les étapes de l algorithme Khiops, o obtiet ue compleité algorithmique e N 3. Iitialisatio: e Nlog(N) Optimisatio de la discrétisatio Répéter (au plus N étapes) Evaluer toutes les fusios possibles d itervalles adacets : N évaluatio de Khi (e N) Chercher la meilleure fusio : e N Evaluer la coditio d arrêt : e O va motrer que l o peut optimiser l algorithme et le rameer à ue compleité algorithmique e Nlog(N). Le calcul du Khi sur u tableau de cotigece complet demade N étapes de calcul de Khi lige. Khi = Khil i i Le calcul du Khi correspodat à la fusio de deu liges i et i (i =i) peut s écrire de la faço suivate : KhiF = Khil Khil Khi l Khi ii' k ii' k k< i k> i' Fii' = Khilk Khilii' Khili Khili' k Fii' = Khi DeltaKhiii' Khi Grâce à l additivité du critère du Khi, le Khi lié à ue fusio d itervalles peut être évalué e ue seule étape si l o coaît le Khi iitial. Si l o mémorise toutes les valeurs de Khi lige et de DeltaKhi, la recherche de la meilleure fusio se fait e recherchat le meilleur DeltaKhi. Après ue fusio d itervalles, seuls les itervalles adacets à l itervalle fusioé doivet être mis à our pour préparer l étape suivate. La partie critique de l algorithme deviet alors la recherche de la meilleure fusio à chaque étape. Cette recherche est e N. Si l o trie préalablemet la liste des fusios possibles, et que l o maitiet cette liste triée au cours de l optimisatio de la discrétisatio, la recherche du meilleur élémet est e, au pri du coût de gestio de la liste triée. Les arbres biaires de recherche équilibrés (AVL Biary Search Tree par eemple) permettet de gérer ue telle liste triée e maiteat l ordre das la liste lors d isertios/supressios à u coût logarithmique. E se basat sur la mémorisatio des KhiLige et des DeltaKhi, sur le calcul icrémetal des Khi et sur l utilisatio d ue liste triée de type arbre biaire de recherche équilibré, o arrive alors à ue compleité globale de Nlog(N). Algorithme Khiops optimisé Iitialisatio Tri des valeurs de la loi source : e Nlog(N) Créatio d u itervalle élémetaire par valeur de la loi source : e N La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

12 NT/FTR&D/7339 3/50 Calcul des Khi lige et du Khi iitial : e N Calcul des DeltaKhi : e N Tri des fusios par valeur de DeltaKhi : e Nlog(N) Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible : e Optimisatio de la discrétisatio Répéter: N étapes Chercher la meilleure fusio : e e preat le premier élémet de la liste triée Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio) Si cotiuer : effectuer la fusio d itervalle Calcul du KhiLige pour le ouvel itervalle : e Calcul des DeltaKhi pour les deu itervalles adacets au ouvel itervalle Mise à our de la liste triée des DeltaKhi : e log(n) Suppressio du DeltaKhi du ouvel itervalle Suppressio des acies DeltaKhi des itervalles adacets au deu sous itervalles sources du ouvel itervalle Aout des ouveau DeltaKhi des itervalles adacets au ouvel itervalle O peut oter que l occupatio mémoire écessaire pour l algorithme est égalemet e Nlog(N). O doit e effet mémoriser N Khi liges, N DeltaKhi, et ue structure de liste triée de type arbre biaire de recherche équilibré qui a ue occupatio mémoire de Nlog(N). La versio optimisée de l algorithme Khiops a la même compleité que la versio optimisée de l algorithme ChiMerge, ce qui red la méthode utilisable y compris sur des bases de doées très volumieuses (de à d idividus)..5. Propriétés de la fusio des liges de Khi Soit ue distributio des modalités cible p, p, p J. = Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. a Les Khi liges sot b Khi l = et Khi l' = ' p. p O evisage la fusio des deu liges de Khi. Les effectifs observés et théoriques de la lige fusioée sot a b et p ( ). a b ' Le Khi lige de la fusio est ( ) ' Khil" = ' p Le regroupemet des deu liges etraîe ue modificatio du Khi, DeltaKhi = Khil Khil Khil. p a b La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

13 NT/FTR&D/7339 4/50 DeltaKhi = ( ' ) ' DeltaKhi = ' a b ' ' p ( a ) b p a ' b La fusio de deu liges de Khi e peut que faire décroître la valeur du Khi. La loi du Khi a cepedat mois de degrés de liberté. Si le Khi décroît suffisammet faiblemet (voire e décroît pas), la probabilité d idépedace correspodate dimiue. Sio, cette probabilité augmete. Si les deu liges ot eactemet les mêmes proportios de modalités cibles (a = b ), alors la fusio de ces deu liges e fait pas dimiuer le Khi. La fusio de deu liges au proportios idetiques (ou très proches) dimiue doc la valeur de la probabilité d idépedace. Pour dimiuer la probabilité d idépedace, il est plus importat d être similaire pour les petits p que pour les grads p. Pour u rapport d effectifs costat, la décroissace du Khi est proportioelle à l effectif global des deu liges. Les fusios avec effectifs faibles ot plus de chace de dimiuer la probabilité d idépedace Pour u effectif global des deu liges costat, la décroissace du Khi est maimale quad les effectifs des deu liges sot idetiques. Les fusios avec effectifs différets dimiue doc davatage la probabilité d idépedace. E résumé, la probabilité d idépedace dimiue (le Khi décroît le mois) selo les facteurs suivats : - faibles effectifs sur les liges - effectifs différets etre les liges - proportios similaires etre les liges (surtout pour les petits p ) 000 ' 00 0 DeltaKhi = DeltaKhi = 0 DeltaKhi = 00 0,8 0,6 b 0,4 DeltaKhi = 0 DeltaKhi = 0,0 DeltaKhi = 0, DeltaKhi = 0,4 0, Figure : Ifluece des effectifs 0 0 0, 0,4 0,6 0,8 a Figure : Ifluece des proportios Remarque Les fusios de liges ayat les même proportios de modalités cibles sot optimales pour l algorithme et serot doc effectuées les premières (au cotraites d effectif miimum près). Toutes les valeurs adacetes ayat même modalité cible peuvet doc être regroupées pour costituer les itervalles iitiau lors de la phase d iitialisatio de l algorithme..6. De la méthode à so implémetatio Il faut dissocier la méthode de l algorithme et de so implémetatio. Le pricipe de la méthode est de rechercher parmi tous les regroupemets e itervalles possibles celui qui miimise la probabilité d idépedace etre la loi discrétisée et la loi cible. Cette probabilité est La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

14 NT/FTR&D/7339 5/50 mesurée par la loi du Khi appliquée au tableau de cotigece etre loi discrétisée et loi cible. Pour améliorer la fiabilité statistique de l algorithme, u effectif miimum dépedat de la taille de l échatillo est aouté pour cotraidre la recherche de la meilleure partitio e itervalles. A ce iveau de pricipe, la méthode Khiops paraît robuste. Le calcul de l effectif miimal théorique doit teir compte plus précisémet des lois cibles à plusieurs modalités pour forcer le regroupemet d itervalles qui e paraisset dissemblables que par le hasard de l échatillo. Ce calcul a ici été fait qu approimativemet. L algorithme de recherche est u algorithme glouto qui pred e compte la cotraite d effectif miimum de la faço la plus souple possible. Cette heuristique garatit u temps d eécutio superliéaire, ce qui est idispesable dès que l o s attaque à des problèmes de data miig tirés du mode réel. Par cotre, il est clair que l algorithme e coduit pas forcémet à la solutio optimale et que l o peut même costruire des eemples le mettat e défaut, otammet e ce qui cocere la prise e compte des cotraites d effectif miimum. Il est éamois ievisageable de rechercher la solutio optimale du problème de la discrétisatio optimale. L algorithme écessite ue boe approimatio de la loi du Khi pour des valeurs très importates de ombre de degrés de liberté et de Khi. L évaluatio eacte de la loi du Khi serait l idéal, mais elle est pas dispoible das la pratique. De plus, o arrive au limites de la précisio umérique des ordiateurs pour des probabilités d idépedace proche de zéro. Les limites de la méthode provieet d avatage de so implémetatio que de so pricipe. Le problème le plus critique est celui de l évaluatio de la loi du Khi. Nous motreros que l approimatio de l effectif miimal et l heuristique gloutoe utilisée permettet d obteir des résultats de très boe qualité avec des temps de calcul très rapides. Nous étudierot égalemet e aee de ouvelles méthodes umériques permettat d approimer le logarithme de la probabilité associée au Khi et de calculer de faço très précise les variatios du Khi cotrôlat le critère d arrêt de l algorithme Khiops, et ce pour de très larges domaies de valeurs. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

15 NT/FTR&D/7339 6/50 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D. 3. COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI 3.. Comparaiso avec ChiMerge Soit ue distributio des modalités cible p, p, p J. = p Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = a Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = b Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. Les Khi liges sot = p a l Khi et = ' " p b l Khi. O a vu que pour la méthode Khiops, le calcul du DeltaKhi résultat de la fusio de deu liges coduit à : ( ) = p b a DeltaKhi ' ' Pour la méthode ChiMerge, o cosidère le tableau du Khi local au deu liges. Das ce cotete local, la distributio des modalités cibles q, q, q J a pour valeurs ' ' b a q =. Pour évaluer l itérêt de la fusio des deu liges, o calcule le Khi de cette table locale du Khi. = ' q b q a l SommeKhi ( )( ) ( ) ( ) ' ' ' ' b a b a l SommeKhi = ( ) ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) = q b a l SommeKhi ' ' Le calcul du critère d arrêt pour les méthodes Khiops et ChiMerge coduit doc a ue epressio mathématique idetique. L iterprétatio du critère est radicalemet différete. La distributio des modalités cibles est globale a toute la table pour Khiops (proportios p i ), alors qu elle est locale au deu liges adacetes de la table pour ChiMerge (proportios q i ). Pour Khiops, o s arrête si : Proba(KhiDeltaKhi, (-)*(J-)) < Proba(Khi, (-)*(J-)) Pour ChiMerge (paramétré par ue valeur ProbaSeuil), o s arrête si : Proba(SommeKhil, J-) > ProbaSeuil

16 NT/FTR&D/7339 7/50 Cela illustre ue différece fodametale etre les deu méthodes. ChiMerge foctioe de faço locale, alors que Khiops tiet compte des proportios de modalités cibles globales, du ombre d itervalles global et de la valeur globale du Khi ProbLevel Khi Figure 3 : Loi du Khi à u degré de liberté O va predre l eemple de la fusio des deu liges de même effectif ayat des proportios de modalités cibles légèremet différetes pour ue loi cible à deu modalités équiréparties. (p-e) (-pe) (pe) (-p-e) p (-p) Les probabilités locales au tableau du Khi des deu liges sot p et -p. La différece d effectifs observés etre les deu liges est D=e pour ue même modalité cible D e D Das ce cas, o a DeltaKhi = 8e = et SommeKhil = =. p( p) p( p) Les seuils d acceptatio usuels du DeltaKhi varie de à 0 quad Khi/(Ndl) varie de à 00 (cf. aee). Cela sigifie que pour l algorithme Khiops, la fusio de deu liges est acceptée dès que la différece des effectifs observés etre les deu liges est au maimum de l ordre de racie de. Cette différece augmete avec le Khi global. Pour avoir u comportemet équivalet das ChiMerge, il faut que p=0,5. Das ce cas, il faut fier u seuil de Khi etre 0,3 (Khi = ) et 0,00 (Khi = 0). Par ailleurs, l algorithme du ChiMerge est très sesible au probabilités cibles p locales au deu liges. Si l o passe à p=0, au lieu de 0,5, le calcul SommeKhil doe u résultat presque trois fois supérieur. Pour u résultat équivalet, il faut alors auster leur seuil de Khi etre 0, (Khi = 3) et 0, (Khi = 30). Le comportemet «ituitif» de la méthode Khiops qui cosiste à autoriser toute fusio de deu liges «similaires» est pas reproductible avec l algorithme ChiMerge. O va predre la table suivate pour illustrer la difficulté de choisir u seuil de Khi pour l algorithme ChiMerge : La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

17 NT/FTR&D/7339 8/50 Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil ,7 6,9 0, ,48,7 0, ,7 0,9 0, ,78 6,0 0, ,7 0,7 0, ,78 6,0 0, ,7 0,9 0, ,48,7 0, ,7 6,9 0, Tableau 7 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O a ici u Khi total pour la table globale de 449, égale à eviro 50 fois le ombre de degrés de liberté. E se référat à la table des DeltaKhi e aee, les fusios de DeltaKhi supérieur à -5 sot acceptées, les autres sot refusées. Pour l algorithme Khiops, les ciq fusios «évidetes» sot acceptées et cosidérées comme équivaletes. Pour ChiMerge, les fusios cetrales (autour de p=0,5) sot largemet préférées au fusios etrêmes (p = 0,03 ou 0,97). La fusio etre les liges et est même préférée à la fusio etre les liges 0-00 et Das ce cadre, il est difficile de choisir le bo seuil pour l algorithme ChiMerge. E fait ici, e choisissat le seuil à 0,0 (pour accepter la fusio etre 0-00 et 6-94), l algorithme ChiMerge va doer u résultat cohéret : les premières fusios vot e effet avoir pour effet d iterdire la fusio etre les liges (fusioée avec 4-76) et (fusioée avec 53-47). Les deu méthodes aboutisset das ce cas à la même table fiale. Das l eemple suivat (Khi total=378), seul l algorithme Khiops permet d aboutir au fusios aturelles. Pour ChiMerge, la fusio etre les liges et est préférée à la fusio «aturelle» etre les liges 0-00 et 6-94 quel que soit le seuil choisi. Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil ,7 6,9 0, ,58 3, 0, ,78 5,95 0, ,78 5,95 0, ,58 3, 0, ,7 6,9 0, Tableau 8 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O va utiliser le derier eemple suivat (Khi total=3800) pour illustrer la prise e compte des facteurs d échelle. Das la méthode Khiops, o se trouve ici à u iveau de Khi/(Ndl) supérieur à 600. A ce iveau de Khi, les fusios aturelles etre et sot acceptées, les autres sot largemet écartées. Pour ChiMerge, la fusio etre et est systématiquemet préférée à la fusio etre et quel que soit le seuil choisi. Il faut oter que ce seuil pour ChiMerge est ici de l ordre de 0 -. Il déped doc fortemet des effectifs e eu, ce qui red so austemet mauel etrêmemet délicat. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

18 NT/FTR&D/7339 9/50 Table iitiale Khiops ChiMerge Table fiale DeltaKhil SommeKhil Seuil ,8 8,00E ,5 4,0E ,04,6E ,04,6E ,5 4,0E ,8 8,00E Tableau 9 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge E coclusio, la méthode ChiMerge comporte plusieurs faiblesses itrisèques qui sot résolues par la méthode Khiops. Les caractéristiques puremet locales de ChiMerge etraîet des difficultés pour trouver u paramétrage du seuil de Khi optimal. Tout seuil fié par l utilisateur e sera pertiet qu à certaies étapes de l algorithme (problèmes d échelles liées à la taille de l échatillo iitial et au ombre d itervalles) et avatagera à tort les fusios d itervalles dot les proportios locales sot proches de l équipartitio. Le critère global utilisé das Khiops résout ces problèmes e calculat u critère d arrêt auto-adaptatif e foctio de la taille de l échatillo et des spécificités locales des itervalles évaluées équitablemet parmi l esemble de toutes les fusios possibles. 3.. Comparaiso avec ChiSplit Khiops est u algorithme ascedat et ChiSplit est u algorithme descedat, ce qui red la comparaiso etre les deu méthodes plus difficile que pour ChiMerge. Preos l eemple d ue loi cible à deu modalités équiréparties, pour laquelle seule ue lige de la table du Khi présete des proportios de modalités cibles différetes des proportios globales. p (-p) p (-p) p (-p) (p-e) (- pe) p (-p) p (-p) p (-p) (Ip-e) (I- I Ipe) O va calculer le critère du ChiSplit pour u premier itervalle costitué de i liges de type p-(-p) et u secod itervalle coteat le reste de la table. ( ip i( p e / I)) ( i( p) i( p e / I)) KhiSpliti = i( p e / I) i( p e / I) ( (( I i) p e) ( I i)( p e / I)) ( (( I i)( p) e) ( I i)( p e / I)) ( I i)( p e / I ) ( I i)( p e / I ) ( e / I ) i KhiSplit i = ( p e / I)( p e / I ) I i Si la lige sigulière est e i 0 avec i 0 <= I/, la valeur du critère croît usqu à i 0 puis décroît esuite (la lige sigulière état passée de l autre côté du poit de coupure, il faut utiliser la formule avec I-i). La La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

19 NT/FTR&D/7339 0/50 coupure se fait uste au ras de la lige sigulière, qui sera isolée e ré-appliquat l algorithme sur le sous itervalle comportat cette lige. La méthode ChiSplit arrive doc à isoler correctemet la sigularité. Le calcul du ChiSplit met éamois e lumière ses problèmes d utilisatio. Le critère d arrêt est très délicat à auster car il déped de facteurs d échelle (ombre de liges du tableau), de l importace des sigularités à détecter, et de la positio de la sigularité das la table du Khi. E effet, la valeur de KhiSplit (maimale au poit de coupure) varie du simple (sigularité e i 0 =) au double (sigularité e i 0 =I/) selo la positio de la sigularité, ce qui red u austemet optimal impossible das le cas de plusieurs sigularités présetes à des positios différetes. O va repredre le premier eemple utilisé pour ChiMerge pour illustrer l esemble de ces problèmes. Table iitiale Khiops ChiSplit Table fiale 0 00 DeltaKhil KhiSplit Seuil ,7, 5,59E ,48 0,90 5,76E ,7 74,9,3E ,78 36,67 5,E ,7 37,8 3,95E ,78 36,67 5,E ,7 74,9,3E ,48 0,90 5,76E ,7, 5,59E Tableau 0 : Choi de la meilleure fusio d itervalle pour Khiops et ChiSplit O est ici das des ordres de gradeur de 0-5 à 0-75 pour le seuil de Khi à utiliser. Pour des échatillos de taille supérieure (de l ordre de 0000 idividus), o se retrouverait au limites de la précisio umérique des machies (de l ordre de ), ce qui redrait impossible le choi d u seuil. Par ailleurs, la coupure optimale trouvée par ChiSplit est de découper au milieu du tableau du Khi. E effet, cette coupure doe deu liges d effectifs et , qui costitue ue ecellete coupure de l esemble e deu itervalles. Mais de ce fait, la coupure a séparé irrémédiablemet les liges et qui seraiet ituitivemet à fusioer. L approche de l algorithme ChiSplit qui combie recherche des structures globales et algorithme glouto costitue doc ue faiblesse itrisèque pour l idetificatio des régularités locales de la variable à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

20 NT/FTR&D/7339 /50 4. EXPERIMENTATIONS 4.. Descriptio des epérimetatios meées Nous avos effectué ue série de test sur des eu d essai théoriques parfaitemet cous, à savoir le mélage de deu classes suivat chacue ue loi de distributio gaussiee. L obectif est d étudier le comportemet de la méthode de discrétisatio Khiops e foctio de la taille de l échatillo et du degré de séparabilité des deu classes, austable par l écart type des gaussiees. Les eu d essai sot costitués de la faço suivate : Chaque eu d essai correspod à u échatillo paramétré u écart type ET et ue taille d échatillo Taille. Chaque idividu est représeté par ue variable cotiue Value et ue variable cible Class à prédire. La variable à prédire Class a deu valeurs 0 et équiréparties. La loi de distributio des 0 est ue gaussiee de moyee 0 et d écart type ET. La loi de distributio des est ue gaussiee de moyee et d écart type ET. O étudie la discrétisatio de l'attribut Value pour l'attribut à prédire Class. Afi d obteir des valeurs statistiquemet fiables, l epérimetatio est répétée 00 fois pour chaque couple de valeur (ET, Taille). Les écarts types étudiés sot 0,, 0,, 0,5, 0,3, 0,4, 0,5, 0,6,,, 0, ce qui permet de passer progressivemet de classes presque parfaitemet séparables à des classes pratiquemet mélagées aléatoiremet. Les tailles d échatillo étudiées sot 00, 000, 0000, 00000, , ce qui permet de passer d échatillos peu fiables statistiquemet à des échatillos très volumieu, correspodat surtout à des tests de volumétrie. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

21 NT/FTR&D/7339 /50 4,00,50 3,50,00 Class0 Class Total 3,00 0,50 0,00 -,00 -,00 0,00,00,00 3,00,50,00,50 ET=0, ET=0, ET=0,5 ET=0,3 ET=0,4 ET=0,5 ET=0,6 ET= ET= ET=0 Figure 5 : Mélage de deu gaussiees d écart type 0,5,00 Class0 0,50 Class Total 0,00 -,00 -,00 0,00,00,00 3,00 Figure 6 : Mélage de deu gaussiees d écart type 0,5,00 0,50 Class0 Class Total 0,50 0,00 -,00 -,00 0,00,00,00 Figure 4: Lois gaussiees utilisées pour l epérimetatio 0,00 -,00 -,00 0,00,00,00 3,00 Figure 7 : Mélage de deu gaussiees d écart type 0,50 0,00 -,00 -,00 0,00,00,00 3,00 Figure 8 : Mélage de deu gaussiees d écart type Class0 Class Total La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

22 NT/FTR&D/7339 3/50 Ue autre faço de préseter le problème du mélage des gaussiees est de visualiser la proportio de la classe 0 (par eemple) e foctio de la valeur de la variable cotiue à discrétiser. Les classes sot équiréparties pour la valeur 0,5, et la trasitio etre la zoe où la classe 0 est maoritaire et celle où la classe est maoritaire est d autat plus rapide que l écart type des gaussiee est faible.,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 ET=0,5 ET=0,50 ET=,00 ET=,00 0,0 0,0 0,00 -,00 -,00 0,00,00,00 3,00 Figure 9 : Proportio de la classe 0 pour différets écarts types des gaussiees Pour illustrer la variabilité statistique des échatillos, o va visualiser la proportio de la classe 0 sur des histogrammes costitués de partiles de taille 5 et 00 pour la séparatio de deu gaussiees d écart type sur u échatillo de taille 000. Ces histogrammes costituet des discrétisatios o supervisées et motret l impact du choi des effectifs par itervalle. O voit clairemet qu ue taille d effectif par itervalle trop petite coduit à refléter trop fidélemet les aléas de l échatillo, alors qu ue taille trop importate (à la limite deu itervalles uiquemet) coduirait à approimer trop grossièremet la courbe de répartitio réelle. 0,9 0,8 0,7 0,6 0,5 0,4 Histo5 Histo00 Répartitio 0,3 0, 0, Figure 0 : Proportio de la classe 0 et histogrammes par partiles pour deu gaussiees d écart type sur u échatillo de taille 000 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

23 NT/FTR&D/7339 4/50 Pour chaque eu de paramètres, o a mesuré les idicateurs suivats : Temps de discrétisatio Idicateur ProbLevel Nombre d itervalles Etropie Etropie mutuelle Erreur théorique Erreur e appretissage Erreur e validatio Distace à la loi Temps de discrétisatio Le temps de discrétisatio est mesuré sur u PC Petium II 500 Mhz, 384 Mo RAM, sous Widow/NT 4.0. Seul le temps de discrétisatio a été pris e compte. Le chargemet des doées e mémoire a pas été comptabilisé. ProbLevel Le ProbLevel est l idicateur utilisé par la méthode Khiops. Il correspod à la probabilité que la loi de la variable discrétisée et la loi cible soiet idépedates pour la valeur du Khi observé (e fait l opposé du logarithme base 0 pour avoir ue valeur positive avec des plages de valeurs facilemet iterprétables). Nombre d itervalles Le ombre d itervalles résulte directemet de la discrétisatio. Etropie L etropie est la mesure de la quatité d iformatio (ombre de bits) présete das la variable discrétisée. Etropie mutuelle L etropie mutuelle représete la quatité d iformatio commue etre la variable discrétisée et la variable cible (qui a ici ue etropie de ). Erreur théorique Le prédicteur optimal est celui qui prédit la classe maoritaire e chaque poit. Das otre cas, le prédicteur optimal est basé sur la séparatio optimale des deu gaussiees, c est à dire sur la médiae des moyees des deu gaussiees qui ot même écart type (séparatio e 0,5 pour les eu d essai). L erreur théorique correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur optimal, c est à dire au rapport de l aire de l itersectio des deu gaussiees sur l aire de la somme des deu gaussiees. Erreur e appretissage L erreur e appretissage est l erreur mesurée sur la discrétisatio si l o se sert de la discrétisatio comme d u prédicteur. Pour chaque itervalle, o prédit la classe maoritaire mesurée sur l échatillo. L erreur e appretissage est égale à la somme des effectifs des classes mioritaires de chaque itervalle de discrétisatio divisée par l effectif global de l échatillo. L erreur e appretissage résulte doc d u comptage dot la fiabilité statistique déped de la taille de l échatillo. Erreur e validatio L erreur e validatio de la discrétisatio correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur lié à la discrétisatio. Cette erreur e validatio peut être calculée de faço eacte car o coaît la loi de distributio eacte de chaque classe. Il est pas écessaire de l estimer sur u esemble de validatio. Pour cela, o calcule pour chaque itervalle l aire erroée sous la gaussiee de la classe prédite à tort. O fait le cumul de ces aires erroées, divisé par l aire de la somme des deu gaussiees. Pour ue discrétisatio qui se baserait sur eactemet deu itervalles ]- ; 0,5] et ]0,5; [ et prédirait la classe 0 sur le premier itervalle et la classe sur le secod itervalle, l erreur e validatio coïciderait avec l erreur théorique. Cela est logique, car das ce cas le prédicteur basé sur la discrétisatio est égal au prédicteur optimal. Distace à la loi La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

24 NT/FTR&D/7339 5/50 O itroduit ce derier critère pour évaluer plus fiemet que par l erreur e validatio la qualité d ue discrétisatio. E effet, si par eemple l o désire fait du scorig, il faut pouvoir classer les idividus par probabilité décroissate d apparteir à ue classe, et doc évaluer cette probabilité plus fiemet que par ue discrétisatio à deu itervalles. Soit ue loi de distributio des classes 0 et défiie e tout poit de la variable Value par p 0 () et p () les probabilités d apparteir à la classe 0 ou, et par la desité de probabilité D(). E tout poit, p 0 () p () = et D ( ) d =. O cherche à comparer cette loi de distributio avec ue secode loi basée sur la même desité de probabilité des idividus, mais pour des proportios p 0 () et p () différetes. O défiit la distace etre les deu distributios de la faço suivate : Distace( ( p ) ( )) 0, p, p' 0, p' = ( p0( ) p' 0 ( ) p( ) p' ( ) ) D( ) d Comme il y a que deu modalités cibles, o a : ((, p ), ( p', p' )) p ( ) p' ( ) Distace p 0 0 = 0 0 D( ) d La distace aisi défiie est doc ulle si et seulemet si les deu distributios sot cofodues. Elle est borée par et cette bore est atteite si par eemple p 0 () = -p 0 () et p 0 () e pred que des valeurs 0 ou. Graphiquemet cette distace peut être vue comme l aire comprise etre deu distributios (podérée éamois par la desité de la distributio e chaque poit). Ceci est illustré ci-dessous pour le cas d ue loi réelle et de sa discrétisatio sur la figure suivate. 0,8 0,6 0,4 Loi discrétisée Loi réelle 0, Figure : Visualisatio de la distace etre ue loi réelle et ue loi discrétisée Das otre cas, la loi de distributio est basée sur l utilisatio de deu gaussiees G(, 0, ET) et G(,, ET). p 0 ()=G(, 0, ET)/D(), p ()=G(,, ET)/D() et D(X) = G(, 0, ET) et G(,, ET). La loi de distributio basée sur ue discrétisatio est la suivate : - Même desité de probabilité D() - Sur chaque itervalle ]if i ; sup i ], o a p 0 () = p 0i () calculé par comptage de la proportio das l itervalle des idividus de la classe 0 e se basat sur l échatillo ayat servi à la discrétisatio supi G(,0, ET) Distace ( LoiReelle, LoiDiscretisee) = p0 i ( ) D( ) d ifi D( X ) Distace i supi ( LoiReelle, LoiDiscretisee) = G(,0, ET )( p ( ) ) G(,, ET p ( ) Pour la discrétisatio optimale à deu itervalles, o a : i if i 0 i ) 0i d La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil. Qu appelle-t-o éclipse? Éclipser sigifie «cacher». Vus depuis la Terre, deu corps célestes peuvet être éclipsés : la Lue et le Soleil. LES ÉCLIPSES Pour qu il ait éclipse, les cetres de la Terre, de la

Plus en détail

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES DEUXIEME PARTIE Deuième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES Chapitre. L assurace de capital différé Chapitre 2. Les opératios de retes Chapitre 3. Les assuraces décès Chapitre 4. Les assuraces

Plus en détail

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI FEUILLE D EXERCICES 7 - PROBABILITÉS SUR UN UNIVERS FINI Exercice - Lacer de dés O lace deux dés à 6 faces équilibrés. Calculer la probabilité d obteir : u double ; ue somme des deux dés égale à 8 ; ue

Plus en détail

Statistique descriptive bidimensionnelle

Statistique descriptive bidimensionnelle 1 Statistique descriptive bidimesioelle Statistique descriptive bidimesioelle Résumé Liaisos etre variables quatitatives (corrélatio et uages de poits), qualitatives (cotigece, mosaïque) et de types différets

Plus en détail

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices Chapitre 1 Déombremet 1.1 Eocés des exercices Exercice 1 L acie système d immatriculatio fraçais était le suivat : chaque plaque avait 4 chiffres, suivis de 2 lettres, puis des 2 uméros du départemet.

Plus en détail

UNIVERSITÉ DE SFAX École Supérieure de Commerce

UNIVERSITÉ DE SFAX École Supérieure de Commerce UNIVERSITÉ DE SFAX École Supérieure de Commerce Aée Uiversitaire 2003 / 2004 Auditoire : Troisième Aée Études Supérieures Commerciales & Scieces Comptables DÉCISIONS FINANCIÈRES Note de cours N 3 Première

Plus en détail

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4 UNVERSTE MONTESQUEU BORDEAUX V Licece 3 ère aée Ecoomie - Gestio Aée uiversitaire 2006-2007 Semestre 2 Prévisios Fiacières Travaux Dirigés - Séaces 4 «Les Critères Complémetaires des Choix d vestissemet»

Plus en détail

Chapitre 3 : Fonctions d une variable réelle (1)

Chapitre 3 : Fonctions d une variable réelle (1) Uiversités Paris 6 et Paris 7 M1 MEEF Aalyse (UE 3) 2013-2014 Chapitre 3 : Foctios d ue variable réelle (1) 1 Lagage topologique das R Défiitio 1 Soit a u poit de R. U esemble V R est u voisiage de a s

Plus en détail

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1 Premières propriétés des ombres réels 2 Suites umériques 3 Suites mootoes : à faire 4 Séries umériques 4. Notio de série. Défiitio 4.. Soit (u ) ue suite de ombres réels ou complexes. Pour N N, o ote S

Plus en détail

Limites des Suites numériques

Limites des Suites numériques Chapitre 2 Limites des Suites umériques Termiale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Limite fiie ou ifiie d ue suite. Limites et comparaiso. Opératios sur les ites. Comportemet

Plus en détail

STATISTIQUE : TESTS D HYPOTHESES

STATISTIQUE : TESTS D HYPOTHESES STATISTIQUE : TESTS D HYPOTHESES Préparatio à l Agrégatio Bordeaux Aée 203-204 Jea-Jacques Ruch Table des Matières Chapitre I. Gééralités sur les tests 5. Itroductio 5 2. Pricipe des tests 6 2.a. Méthodologie

Plus en détail

2 ième partie : MATHÉMATIQUES FINANCIÈRES

2 ième partie : MATHÉMATIQUES FINANCIÈRES 2 ième partie : MATHÉMATIQUES FINANCIÈRES 1. Défiitios L'itérêt est l'idemité que doe au propriétaire d'ue somme d'arget celui qui e a joui pedat u certai temps. Divers élémets itervieet das le calcul

Plus en détail

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015 Uiversité de Bordeaux - Master MIMSE - 2ème aée Scorig Marie Chavet http://www.math.u-bordeaux.fr/ machave/ 2014-2015 1 Itroductio L idée géérale est d affecter ue ote (u score) global à u idividu à partir

Plus en détail

Chap. 5 : Les intérêts (Les calculs financiers)

Chap. 5 : Les intérêts (Les calculs financiers) Chap. 5 : Les itérêts (Les calculs fiaciers) Das u cotrat de prêt, le prêteur met à la dispositio de l empruteur, à u taux d itérêt doé, ue somme d arget (le capital) qu il devra rembourser à ue certaie

Plus en détail

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT? Etude Spéciale o. 7 Javier 2003 SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT? MARK SCHNEIDER Le CGAP vous ivite à lui faire part de vos commetaires, de vos rapports et de toute demade d evoid autres

Plus en détail

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1 Aalyse des doées Statistiques appliquées à la gestio Cours d aalyse de doés Master F. SEYTE : Maître de coféreces HDR e scieces écoomiques Uiversité de Motpellier I M. TERRAZA : Professeur de scieces écoomiques

Plus en détail

Comportement d'une suite

Comportement d'une suite Comportemet d'ue suite I) Approche de "ses de variatio et de ite d'ue suite" : 7 Soit la suite ( ) telle que = 5 ( + ) 2 Représetos graphiquemet la suite das u pla mui d' u repère. Il suffit de placer

Plus en détail

1 Mesure et intégrale

1 Mesure et intégrale 1 Mesure et itégrale 1.1 Tribu boréliee et foctios mesurables Soit =[a, b] u itervalle (le cas où b = ou a = est pas exclu) et F ue famille de sous-esembles de. OditqueF est ue tribu sur si les coditios

Plus en détail

Les algorithmes de tri

Les algorithmes de tri CONSERVATOIRE NATIONAL DES ARTS ET METIERS PARIS MEMOIRE POUR L'EXAMEN PROBATOIRE e INFORMATIQUE par Nicolas HERVE Les algorithmes de tri Souteu le mai JURY PRESIDENTE : Mme COSTA Sommaire Itroductio....

Plus en détail

Chapitre 3 : Transistor bipolaire à jonction

Chapitre 3 : Transistor bipolaire à jonction Chapitre 3 : Trasistor bipolaire à joctio ELEN075 : Electroique Aalogique ELEN075 : Electroique Aalogique / Trasistor bipolaire U aperçu du chapitre 1. Itroductio 2. Trasistor p e mode actif ormal 3. Courats

Plus en détail

Les Nombres Parfaits.

Les Nombres Parfaits. Les Nombres Parfaits. Agathe CAGE, Matthieu CABAUSSEL, David LABROUSSE (2 de Lycée MONTAIGNE BORDEAUX) et Alexadre DEVERT, Pierre Damie DESSARPS (TS Lycée SUD MEDOC LETAILLAN MEDOC) La première partie

Plus en détail

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions. 3 Réseau Le réseau costitue u aspect essetiel d u eviroemet virtuel ESX. Il est doc importat de compredre la techologie, y compris ses différets composats et leur coopératio. Das ce chapitre, ous étudios

Plus en détail

20. Algorithmique & Mathématiques

20. Algorithmique & Mathématiques L'éditeur L'éditeur permet à l'utilisateur de saisir les liges de codes d'u programme ou de défiir des foctios. Remarque : O peut saisir directemet des istructios das la cosole Scilab, mais il est plus

Plus en détail

SÉRIES STATISTIQUES À DEUX VARIABLES

SÉRIES STATISTIQUES À DEUX VARIABLES 1 ) POSITION DU PROBLÈME - VOCABULAIRE A ) DÉFINITION SÉRIES STATISTIQUES À DEUX VARIABLES O cosidère deux variables statistiques umériques x et y observées sur ue même populatio de idividus. O ote x 1

Plus en détail

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe Cosolidatio La société THEOS, qui commercialise des vis, exerce so activité das trois villes : Paris, Nacy et Nice. Le directeur de la société souhaite cosolider les résultats de ses vetes par ville das

Plus en détail

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009 M LA REGRESSION : HYPOTHESES ET TESTS Avril 009 I LES HYPOTHESES DE LA MCO. Hypothèses sur la variable explicative a. est o stochastique. b. a des valeurs xes das les différets échatillos. c. Quad ted

Plus en détail

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe 1/5 Trois objectifs poursuivis par le gouveremet : > améliorer la compétitivité fiscale de la Frace > péreiser les activités de R&D > faire de la Frace u territoire attractif pour l iovatio Les icitatios

Plus en détail

Principes et Méthodes Statistiques

Principes et Méthodes Statistiques Esimag - 2ème aée 0 1 2 3 4 5 6 7 0 5 10 15 x y Pricipes et Méthodes Statistiques Notes de cours Olivier Gaudoi 2 Table des matières 1 Itroductio 7 1.1 Défiitio et domaies d applicatio de la statistique............

Plus en détail

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9 Au sommaire : Suites extraites Le théorème de Bolzao-Weierstrass La preuve du théorème de Bolzao-Weierstrass3 Foctio K-cotractate4 Le théorème du poit fixe5 La preuve du théorème du poit fixe6 Utilisatios

Plus en détail

Séquence 5. La fonction logarithme népérien. Sommaire

Séquence 5. La fonction logarithme népérien. Sommaire Séquece 5 La foctio logarithme épérie Objectifs de la séquece Itroduire ue ouvelle foctio : la foctio logarithme épérie. Coaître les propriétés de cette foctio : sa dérivée, ses variatios, sa courbe, sa

Plus en détail

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 ) RAIRO Operatios Research RAIRO Oper. Res. 34 (2000) 99-129 TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 ) Commuiqué par Berard LEMAIRE Résumé. L étude

Plus en détail

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Les etreprises ot souvet besoi de moyes de fiacemet à court terme : elles ot alors recours aux crédits bacaires (découverts bacaires

Plus en détail

c. Calcul pour une évolution d une proportion entre deux années non consécutives

c. Calcul pour une évolution d une proportion entre deux années non consécutives Calcul des itervalles de cofiace our les EPCV 996-004 - Cas d u ourcetage ou d ue évolutio e oit das la oulatio totale des méages - Cas d u ourcetage ou d ue évolutio das ue sous oulatio das les méages

Plus en détail

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation 1 / 9 Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Le cycle d exploitatio des etreprises (achats stockage productio stockage vetes) peut etraîer des décalages de trésorerie plus

Plus en détail

[http://mp.cpgedupuydelome.fr] édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ 02475 ] [correction] Si n est un entier 2, le rationnel H n =

[http://mp.cpgedupuydelome.fr] édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ 02475 ] [correction] Si n est un entier 2, le rationnel H n = [http://mp.cpgedupuydelome.fr] édité le 1 juillet 14 Eocés 1 Nombres réels Ratioels et irratioels Exercice 1 [ 9 ] [correctio] Motrer que la somme d u ombre ratioel et d u ombre irratioel est u ombre irratioel.

Plus en détail

Formation d un ester à partir d un acide et d un alcool

Formation d un ester à partir d un acide et d un alcool CHAPITRE 10 RÉACTINS D ESTÉRIFICATIN ET D HYDRLYSE 1 Formatio d u ester à partir d u acide et d u alcool 1. Nomeclature Acide : R C H Alcool : R H Groupe caractéristique ester : C Formule géérale d u ester

Plus en détail

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot Exame fial pour Coseiller fiacier / coseillère fiacière avec brevet fédéral Recueil de formules Auteur: Iwa Brot Ce recueil de formules sera mis à dispositio des cadidats, si écessaire. Etat au 1er mars

Plus en détail

EXERCICES : DÉNOMBREMENT

EXERCICES : DÉNOMBREMENT Chapitre 7 ECE 1 - Grad Nouméa - 015 EXERCICES : DÉNOMBREMENT LISTES / ARRANGEMENTS Exercice 1 : Le code ativol Pour so vélo, Toto possède u ativol a code. Le code est ue successio de trois chiffres compris

Plus en détail

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2. Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES PLAN DU CHAPITRE 2 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Pla de sodage 2.2.2 Probabilités d iclusio 2.3 SONDAGE

Plus en détail

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre 2010. 1.1 Quelques dénitions

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre 2010. 1.1 Quelques dénitions Déombremet ECE3 Lycée Carot 12 ovembre 2010 Itroductio La combiatoire, sciece du déombremet, sert comme so om l'idique à compter. Il e s'agit bie etedu pas de reveir au stade du CP et d'appredre à compter

Plus en détail

Cours 5 : ESTIMATION PONCTUELLE

Cours 5 : ESTIMATION PONCTUELLE Cours 5 : ESTIMATION PONCTUELLE A- Gééralités B- Précisio d u estimateur C- Exhaustivité D- iformatio E-estimateur sas biais de variace miimale, estimateur efficace F- Quelques méthode s d estimatio A-

Plus en détail

Module 3 : Inversion de matrices

Module 3 : Inversion de matrices Math Stat Module : Iversio de matrices M Module : Iversio de matrices Uité. Défiitio O e défiira l iverse d ue matrice que si est carrée. O appelle iverse de la matrice carrée toute matrice B telle que

Plus en détail

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction A ew adaptive operator of fusio par Fraçois DELMOTTE LAMIH, Uiversité de Valeciees et du Haiaut-Cambrésis, Le Mot Houy, BP 3, 5933 Valeciees CEDEX 9 fdelmott@flore.uiv-valeciees.fr résumé et mots clés

Plus en détail

Université Pierre et Marie Curie. Biostatistique PACES - UE4 2013-2014

Université Pierre et Marie Curie. Biostatistique PACES - UE4 2013-2014 Uiversité Pierre et Marie Curie Biostatistique PACES - UE4 2013-2014 Resposables : F. Carrat et A. Mallet Auteurs : F. Carrat, A. Mallet, V. Morice Mise à jour : 21 octobre 2013 Relecture : V. Morice,

Plus en détail

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME Uiversité Victor Segale Bordeaux Istitut de Saté Publique, d Épidémiologie et de Développemet (ISPED) Campus Numérique SEME MODULE Pricipaux outils e statistique Versio du 8 août 008 Écrit par : Relu par

Plus en détail

14 Chapitre 14. Théorème du point fixe

14 Chapitre 14. Théorème du point fixe Chapitre 14 Chapitre 14. Théorème du poit fixe Si l o examie de plus près les méthodes de Lagrage et de Newto, étudiées au chapitre précédet, elles revieet das leur pricipe à remplacer la résolutio de

Plus en détail

STATISTIQUE AVANCÉE : MÉTHODES

STATISTIQUE AVANCÉE : MÉTHODES STATISTIQUE AVANCÉE : MÉTHODES NON-PAAMÉTIQUES Ecole Cetrale de Paris Arak S. DALALYAN Table des matières 1 Itroductio 5 2 Modèle de desité 7 2.1 Estimatio par istogrammes............................

Plus en détail

CHAPITRE 2 SÉRIES ENTIÈRES

CHAPITRE 2 SÉRIES ENTIÈRES CHAPITRE 2 SÉRIES ENTIÈRES 2. Séries etières Défiitio 2.. O appelle série etière toute série de foctios ( ) f dot le terme gééral est de la forme f ()=a, où (a ) désige ue suite réelle ou complee et R.

Plus en détail

Cours de Statistiques inférentielles

Cours de Statistiques inférentielles Licece 2-S4 SI-MASS Aée 2015 Cours de Statistiques iféretielles Pierre DUSART 2 Chapitre 1 Lois statistiques 1.1 Itroductio Nous allos voir que si ue variable aléatoire suit ue certaie loi, alors ses réalisatios

Plus en détail

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble. II LE MARCHE DU CAFE 1 L attractivité La segmetatio selo le mode de productio Le marché du café peut être segmeté e foctio de deux modes de productio pricipaux : la torréfactio et la fabricatio de café

Plus en détail

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3. EXERCICE 3 (6 poits ) (Commu à tous les cadidats) Il est possible de traiter la partie C sas avoir traité la partie B Partie A O désige par f la foctio défiie sur l itervalle [, + [ par Détermier la limite

Plus en détail

Sommaire Chapitre 1 - L interface de Windows 7 9

Sommaire Chapitre 1 - L interface de Windows 7 9 Sommaire Chapitre 1 - L iterface de Widows 7 9 1.1. Utiliser le meu Démarrer et la barre des tâches de Widows 7...11 Démarrer et arrêter des programmes...15 Épigler u programme das la barre des tâches...18

Plus en détail

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

La fibre optique arrive chez vous Devenez acteur de la révolution numérique 2 e éditio Edité par l Autorité de régulatio des commuicatios électroiques et des postes RÉPUBLIQUE FRANÇAISE DÉCEMBRE 2010 La fibre optique arrive chez vous Deveez acteur de la révolutio umérique Petit

Plus en détail

55 - EXEMPLES D UTILISATION DU TABLEUR.

55 - EXEMPLES D UTILISATION DU TABLEUR. 55 - EXEMPLES D UTILISATION DU TABLEUR. CHANTAL MENINI 1. U pla possible Les exemples qui vot suivre sot des pistes possibles et e aucu cas ue présetatio exhaustive. De même je ai pas fait ue étude systématique

Plus en détail

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd easylab Le logiciel de gestio de fichiers pour baladeurs et tablettes Visualisatio simplifiée de la flotte Gestio des baladeurs par idividus / classes / groupes / activités Activatio des foctios par simple

Plus en détail

Etude de la fonction ζ de Riemann

Etude de la fonction ζ de Riemann Etude de la foctio ζ de Riema ) Défiitio Pour x réel doé, la série de terme gééral,, coverge si et seulemet si x >. x La foctio zeta de Riema est la foctio défiie sur ], [ par : ( x > ), = x. Remarque.

Plus en détail

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus Yacie Oussar To cite this versio: Yacie Oussar. Réseaux d odelettes et réseaux de euroes pour la modélisatio

Plus en détail

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales PROMENADE ALÉATOIRE : Chaîes de Markov et martigales Thierry Bodieau École Polytechique Paris Départemet de Mathématiques Appliquées thierry.bodieau@polytechique.edu Novembre 2013 2 Table des matières

Plus en détail

Processus et martingales en temps continu

Processus et martingales en temps continu Chapitre 3 Processus et martigales e temps cotiu 1 Quelques rappels sur les martigales e temps discret (voir [4]) O cosidère u espace filtré (Ω, F, (F ) 0, IP). O ote F = 0 F. Défiitio 1.1 Ue suite de

Plus en détail

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers. Reseigemets et moitorig. Reseigemets commerciaux et de solvabilité sur les etreprises et les particuliers. ENSEMBLE CONTRE LES PERTES. Reseigemets Creditreform. Pour plus de trasparece. Etreteir des rapports

Plus en détail

Initiation à l analyse factorielle des correspondances

Initiation à l analyse factorielle des correspondances Fiche TD avec le logiciel : tdr620b Iitiatio à l aalyse factorielle des correspodaces A.B. Dufour & M. Royer & J.R. Lobry Das cette fiche, o étudie l Aalyse Factorielle des Correspodaces. Cette techique

Plus en détail

Donnez de la liberté à vos données. BiBOARD. www.biboard.fr

Donnez de la liberté à vos données. BiBOARD. www.biboard.fr Doez de la liberté à vos doées BiBOARD www.biboard.fr Le décisioel pour tous Le décisioel évolue. L etreprise quelle que soit sa taille, a besoi de piloter so activité à l aide d outils simples, fiables,

Plus en détail

Une action! Un message!

Une action! Un message! Ue actio! U message! Cotact Master est u service exclusif de relaces automatiques de vos actes vers vos cliets, par SMS, messages vocaux, e-mails, courrier... Il se décleche lorsque vous réalisez ue actio

Plus en détail

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012 Mobile Busiess Commuiquez efficacemet avec vos relatios commerciales 9040412 09/2012 U choix capital pour mes affaires Pour gérer efficacemet ses affaires, il y a pas de secret : il faut savoir predre

Plus en détail

Séries réelles ou complexes

Séries réelles ou complexes 6 Séries réelles ou complexes Comme pour le chapitre 3, les suites cosidérées sot a priori complexes et les résultats classiques sur les foctios cotiues ou dérivables d ue variable réelle sot supposés

Plus en détail

4 Approximation des fonctions

4 Approximation des fonctions 4 Approximatio des foctios Ue foctio f arbitraire défiie sur u itervalle I et à valeur das IR peut être représetée par so graphe, ou de maière équivalete par la doée de l esemble de ses valeurs f(t) pour

Plus en détail

Probabilités et statistique pour le CAPES

Probabilités et statistique pour le CAPES Probabilités et statistique pour le CAPES Béatrice de Tilière Frédérique Petit 2 3 jui 205. Uiversité Pierre et Marie Curie 2. Uiversité Pierre et Marie Curie 2 Table des matières Modélisatio de phéomèes

Plus en détail

Neolane Message Center. Neolane v6.0

Neolane Message Center. Neolane v6.0 Neolae Message Ceter Neolae v6.0 Ce documet, aisi que le logiciel qu'il décrit, est fouri das le cadre d'u accord de licece et e peut être utilisé ou copié que das les coditios prévues par cet accord.

Plus en détail

Statistique Numérique et Analyse des Données

Statistique Numérique et Analyse des Données Statistique Numérique et Aalyse des Doées Arak DALALYAN Septembre 2011 Table des matières 1 Élémets de statistique descriptive 9 1.1 Répartitio d ue série umérique uidimesioelle.............. 9 1.2 Statistiques

Plus en détail

Suites et séries de fonctions

Suites et séries de fonctions [http://mp.cpgedupuydelome.fr] édité le 3 avril 5 Eocés Suites et séries de foctios Propriétés de la limite d ue suite de foctios Eercice [ 868 ] [correctio] Etablir que la limite simple d ue suite de

Plus en détail

Mécanismes de protection contre les vers

Mécanismes de protection contre les vers Mécaismes de protectio cotre les vers Itroductio Au cours de so évolutio, l Iteret a grademet progressé. Il est passé du réseau reliat quelques cetres de recherche aux États-Uis au réseau actuel reliat

Plus en détail

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X Exo7 Détermiats Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable T : pour

Plus en détail

Gérer les applications

Gérer les applications Gérer les applicatios E parcourat les rayos du Widows Phoe Store, vous serez e mesure de compléter les services de base de votre smartphoe à travers plus de 10 000 applicatios. Gratuites ou payates, ces

Plus en détail

Intégration et probabilités ENS Paris, 2012-2013. TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Intégration et probabilités ENS Paris, 2012-2013. TD (20)13 Lois des grands nombres, théorème central limite. Corrigé : Itégratio et probabilités EN Paris, 202-203 TD 203 Lois des grads ombres, théorème cetral limite. Corrigé Lois des grads ombres Exercice. Calculer e cet leços Détermier les limites suivates : x +... +

Plus en détail

Comment les Canadiens classent-ils leur système de soins de santé?

Comment les Canadiens classent-ils leur système de soins de santé? Novembre Les sois de saté au Caada, c est capital bulleti o 4 Commet les Caadies classet-ils leur système de sois de saté? Résultats du sodage iteratioal du Fods du Commowealth sur les politiques de saté

Plus en détail

Le chef d entreprise développe les services funéraires de l entreprise, en

Le chef d entreprise développe les services funéraires de l entreprise, en Le chef d etreprise développe les services fuéraires de l etreprise, e assurat lui-même tout ou partie des activités de vete et e ecadrat directemet le persoel techique et commercial et d exploitatio.

Plus en détail

Polynésie Septembre 2002 - Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Polynésie Septembre 2002 - Exercice On peut traiter la question 4 sans avoir traité les questions précédentes. Polyésie Septembre 2 - Exercice O peut traiter la questio 4 sas avoir traité les questios précédetes Pour u achat immobilier, lorsqu ue persoe emprute ue somme de 50 000 euros, remboursable par mesualités

Plus en détail

Création et développement d une fonction audit interne*

Création et développement d une fonction audit interne* Créatio et développemet d ue foctio audit itere* Ue démarche e 10 étapes [ Sommaire] Dix étapes pour réussir... 7 Étapes 1 à 4 Défiitio du cadre d itervetio... 9 1 Idetifier les attetes des parties preates...

Plus en détail

Exercice I ( non spé ) 1/ u 1 = 3 4. 2 3 u 2 4 + 3 9. 19 4 2/ Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Exercice I ( non spé ) 1/ u 1 = 3 4. 2 3 u 2 4 + 3 9. 19 4 2/ Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1 Bac blac TS Correctio Exercice I ( Spé ) / émotros par récurrece que 5x y = pour tout etier aturel 5x y = 5 8 = La propriété est doc vraie au rag = Supposos que la propriété est vraie jusqu au rag, o a

Plus en détail

Neolane Leads. Neolane v6.0

Neolane Leads. Neolane v6.0 Neolae Leads Neolae v6.0 Ce documet, aisi que le logiciel qu'il décrit, est fouri das le cadre d'u accord de licece et e peut être utilisé ou copié que das les coditios prévues par cet accord. Cette publicatio

Plus en détail

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3... Applicatios des maths Algèbre fiacière 1. Itérêts composés O place u capital C 0 à u taux auel T a pedat aées. Quelle est la valeur fiale C de ce capital? aée capital e fi d'aée 1 C 0 + T C 0 = C 0 (1

Plus en détail

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO Des résultats du Programme de réductio des risques STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO 1. Cotexte La puaise tere Lygus lieolaris (figure 1) est

Plus en détail

Compte Sélect Banque Manuvie Guide du débutant

Compte Sélect Banque Manuvie Guide du débutant GUIDE DU DÉBUTANT Compte Sélect Baque Mauvie Guide du débutat Besoi d aide? Preez quelques miutes pour lire attetivemet votre Guide du cliet. Le préset Guide du débutat vous facilitera l utilisatio de

Plus en détail

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

One Office Voice Pack Vos appels fixes et mobiles en un seul pack Uique! Exteded Fleet Appels illimités vers les uméros Mobistar et les liges fixes! Oe Office Voice Pack Vos appels fixes et mobiles e u seul pack Commuiquez et travaillez e toute liberté Mobistar offre

Plus en détail

Simulations interactives de convertisseurs en électronique de puissance

Simulations interactives de convertisseurs en électronique de puissance Simulatios iteractives de covertisseurs e électroique de puissace Jea-Jacques HUSELSTEIN, Philippe ENII Laboratoire d'électrotechique de Motpellier (LEM) - Uiversité Motpellier II, 079, Place Eugèe Bataillo,

Plus en détail

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT POLTQU ONOMQU T DVLOPPMNT TRUTUR DU MAR NATONAL DU AF-AAO T PR AU PRODUTUR MALAN Beïla Beoit osultat PD N 06/008 ellule d Aalyse de Politiques coomiques du R Aée de pulicatio : Avril 009 Résumé e papier

Plus en détail

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes Faites prospérer vos affaires grâce aux solutios d éparge et de gestio des dettes Quelques excelletes raisos d offrir des produits bacaires et de fiducie à vos cliets Vous avez la compétece écessaire pour

Plus en détail

Processus géométrique généralisé et applications en fiabilité

Processus géométrique généralisé et applications en fiabilité Processus géométrique gééralisé et applicatios e fiabilité Lauret Bordes 1 & Sophie Mercier 2 1,2 Uiversité de Pau et des Pays de l Adour Laboratoire de Mathématiques et de leurs Applicatios - Pau UMR

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Eo7 Séries etières Eercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable Eercice

Plus en détail

Exercices de mathématiques

Exercices de mathématiques MP MP* Thierry DugarDi Marc rezzouk Exercices de mathématiques Cetrale-Supélec, Mies-Pots, École Polytechique et ENS Coceptio et créatio de couverture : Atelier 3+ Duod, 205 5 rue Laromiguière, 75005 Paris

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Exo7 Topologie Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable Exercice **

Plus en détail

Guide des logiciels de l ordinateur HP Media Center

Guide des logiciels de l ordinateur HP Media Center Guide des logiciels de l ordiateur HP Media Ceter Les garaties des produits et services HP sot exclusivemet présetées das les déclaratios expresses de garatie accompagat ces produits et services. Aucu

Plus en détail

La maladie rénale chronique

La maladie rénale chronique La maladie réale chroique Qu est-ce que cela veut dire pour moi? Natioal Kidey Disease Educatio Program La maladie réale chroique: l essetiel Vous avez été iformé(e) que vous êtes atteit(e) de la maladie

Plus en détail

GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES

GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES SOMMAIRE Les visites d etreprises : pourquoi ouvrir ses portes?.... 8 1.1 Des motivatios variées pour les etreprises... 8 1.2 Les freis à l ouverture

Plus en détail

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL LE WMS EXET DE LA SULY HAIN DE DÉTAIL QUELS SNT LES ENJEUX DE LA SULY HAIN? garatir la promesse cliet es derières aées, la distributio coaît ue véritable mutatio avec l évolutio des modes de cosommatio.

Plus en détail

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau Lorsque la sécurisatio des paiemets par carte bacaire sur Iteret coduit à ue cocurrece etre les baques et les opérateurs de réseau David Bouie Das cet article, ous ous iterrogeos sur l issue de la cocurrece

Plus en détail

MESURE DE L'INFORMATION

MESURE DE L'INFORMATION MESURE DE L'INFORMATION Marc URO TABLE DES MATIÈRES INTRODUCTION... 3 INCERTITUDE D'UN ÉVÉNEMENT (OU SELF-INFORMATION)... 7 INFORMATION MUTUELLE DE DEUX ÉVÉNEMENTS... 9 ENTROPIE D'UNE VARIABLE ALÉATOIRE

Plus en détail

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison ANNALES D ÉCONOMIE ET DE STATISTIQUE. N 58 2000 La tarificatio hospitalière : de l eveloppe globale à la cocurrece par comparaiso Michel MOUGEOT * RÉSUMÉ. Cet article cosidère différetes politiques de

Plus en détail

UV SQ 20. Automne 2006. Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

UV SQ 20. Automne 2006. Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1 UV SQ 0 Probabilités Statistiques UV SQ 0 Autome 006 Resposable d Rémy Garadel ( m.-el. remy.garadel@utbm.fr ) page SQ-0 Probabilités - Statistiques Bibliographie: Titre Auteur(s) Editios Localisatio Niveau

Plus en détail

Opérations bancaires avec l étranger *

Opérations bancaires avec l étranger * Opératios bacaires avec l étrager * Coditios bacaires au 1 er juillet 2011 Etreprises et orgaismes d itérêt gééral Opératios à destiatio de l étrager Viremets émis vers l étrager : viremet e euros iférieur

Plus en détail