Khiops: discrétisation des attributs numériques pour le Data Mining

Dimension: px
Commencer à balayer dès la page:

Download "Khiops: discrétisation des attributs numériques pour le Data Mining"

Transcription

1 Note Techique NT/FTR&D/ septembre 00 Vu, pour accord le Khiops: discrétisatio des attributs umériques pour le Data Miig directeur de DTL JM. Pitié Marc Boullé (DTL/DLI) Vu, le chef du départemet DLI JF. Cloarec Date : 6 septembre 00 Résumé : Das le domaie de l appretissage supervisé, certais modèles sot adaptés uiquemet au doées qualitatives. Ces modèles procèdet alors à ue étape de discrétisatio des attributs umériques pour pouvoir les predre e compte. De ombreuses méthodes de discrétisatio ot été proposées das la bibliographie, qui se baset sur des critères statistiques, iformatioels ou ecore d autres critères dédiés. Nous proposos ici ue ouvelle méthode de discrétisatio, Khiops, basée sur la statistique du Khi. Cotrairemet au méthodes de discrétisatio apparetées ChiMerge et ChiSplit, cette méthode optimise le critère du Khi globalemet sur l esemble du domaie de discrétisatio et e écessite aucu paramétrage de critère d arrêt de la discrétisatio. Ue étude théorique complétée par des epérimetatios motre la robustesse de la méthode et la qualité prédictive des discrétisatios obteues. Mots clés : aalyse itelligete doée ; appretissage automatique ; discrétisatio. Domaie : Traitemet de l'iformatio et des coaissaces Le préset documet cotiet des iformatios qui sot la propriété de Frace Télécom R&D. L acceptatio de ce documet par so destiataire implique, de la part de ce derier, la recoaissace du caractère cofidetiel de so coteu et l egagemet de e faire aucue reproductio, aucue trasmissio à des tiers, aucue divulgatio et aucue utilisatio commerciale sas l accord préalable écrit de Frace Télécom R&D. 00 Frace Télécom. Tous droits de reproductio, traductio, et adaptatio réservés pour tous pays Frace Télécom R&D Brache Développemet rue du Gééral Leclerc 9794 Issy-les Moulieau Cede9 Frace Téléphoe : Téléphoe iteratioal :

2 NT/FTR&D/7339 3/50 TABLE DES MATIERES INTRODUCTION LE TEST D INDEPENDANCE DU KHI : PRINCIPES METHODE DE DISCRETISATION KHIOPS ALGORITHME EFFECTIF MINIMUM PAR INTERVALLE EXEMPLE COMPLEXITE ALGORITHMIQUE PROPRIETES DE LA FUSION DES LIGNES DE KHI DE LA METHODE A SON IMPLEMENTATION COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI COMPARAISON AVEC CHIMERGE COMPARAISON AVEC CHISPLIT EXPERIMENTATIONS DESCRIPTION DES EXPERIMENTATIONS MENEES RESULTATS D EXPERIMENTATION COMPARAISON AVEC D AUTRES METHODES DE DISCRETISATION... 3 CONCLUSION... 3 REFERENCES ANNEXE : APPROXIMATION DU DELTAKHI POUR LA METHODE KHIOPS INTRODUCTION LOI DU KHI ET LOI GAMMA EQUIPROBABILITE POUR X=N CALCUL DU LOGARITHME DE PROBABILITE DU KHI Calcul de l(q(,)) Calcul de l(q(,)) Calcul de l(q(,)) pour > CALCUL DU DELTAKHI Itroductio Calcul de DeltaKhi pour u écart de degrés de liberté Calcul de DeltaKhi pour u écart de degré de liberté EVALUATION NUMERIQUE L(Q(,) Comparaiso de plusieurs méthodes d approimatio de DeltaKhi DK(,,) EXEMPLES DE FUSIONS CONCLUSION REFERENCES La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

3 NT/FTR&D/7339 4/50 INTRODUCTION La discrétisatio des attributs umériques est u suet largemet traité das la bibliographie (Zighed et Rakotomalala 000). Ue partie des modèles d appretissage est basée sur le traitemet des attributs à valeurs discrètes. Il est doc écessaire de discrétiser les attributs umériques, c est à dire de découper leur domaie e u ombre fii d itervalles idetifiés chacu par u code. Aisi, tous les modèles prédictifs à base d arbre de décisio utiliset ue méthode de discrétisatio pour traiter les attributs umériques. C4.5 (Quila 993) utilise le gai iformatioel basé sur l etropie de Shao, CART (Breima 984) utilise l idice de Gii (ue mesure de l impureté des itervalles), CHAID (Kass 980) s appuie sur ue méthode de type ChiMerge, SIPINA (Zighed 996) utilise le critère Fusiter (Zighed 998) basé sur des mesures d icertitude sesibles au effectifs. Parmi les méthodes de discrétisatio, il eiste des méthodes descedates et ascedates. Les méthodes descedates partet de l itervalle complet à discrétiser et cherchet le meilleur poit de coupure de l itervalle e optimisat le critère choisi. La méthode est appliquée itérativemet au deu sous itervalles usqu à ce qu u critère d arrêt soit recotré. Les méthodes ascedates partet d itervalles élémetaires et cherchet la meilleure fusio de deu itervalles adacets e optimisat le critère choisi. La méthode est appliquée itérativemet au itervalles restat usqu à ce qu u critère d arrêt soit recotré. Certaies de ces méthodes écessitet u paramétrage utilisateur pour modifier le comportemet du critère de choi du poit de discrétisatio ou pour fier u seuil pour le critère d arrêt. Le problème de la discrétisatio est u problème de compromis etre qualité iformatioelle (itervalles homogèes vis à vis de la variable à prédire) et qualité statistique (effectif suffisat das chaque itervalle pour assurer ue gééralisatio efficace). Les critères de type Khi privilégiet l aspect statistique tadis que ceu basés sur la mesure de l etropie privilégiet l aspect iformatioel. D autres critères (idice d impureté de Gii, mesure d icertitude de Fusiter ) tetet de cocilier les deu aspects e état à la fois sesible au effectifs et à la distributio de la variable à prédire. Le critère MDL (Miimum Descriptio Legth) (Fayyad 99) est ue approche origiale qui cherche à optimiser la quatité totale d iformatio coteue das le modèle et les eceptios au modèle. La méthode de discrétisatio Khiops est ue méthode ascedate basée sur l optimisatio globale du Khi. Les méthodes eistates les plus proches sot les méthodes descedates et ascedates utilisat le critère du Khi, mais de faço locale. La méthode descedate basée sur le Khi est ChiSplit. Elle recherche le meilleur poit de coupure d u itervalle, e maimisat le critère du Khi appliqué au deu sous-itervalles de part et d autre du poit de coupure : o coupe u itervalle si les deu sous-itervalles présetet des différeces sigificatives statistiquemet. Le critère d arrêt est ue probabilité d idépedace maimum à respecter (calculée d après la loi du Khi). La méthode ascedate basée sur le Khi est ChiMerge (Kerber 99). Elle recherche la meilleure fusio d itervalles adacets e miimisat le critère du Khi : o fusioe deu itervalles adacets s ils sot similaires statistiquemet. Le critère d arrêt est ue probabilité d idépedace miimum à respecter (calculée d après la loi du Khi). La méthode Khiops commece la discrétisatio à partir des itervalles élémetaires réduits à u idividu. Elle évalue toutes les fusios d itervalles adacets et choisit celle qui maimise le critère du Khi appliqué à la distributio de l esemble des itervalles. Le critère d arrêt est basé sur la probabilité d idépedace associée au Khi. La méthode s arrête automatiquemet dès que la probabilité d idépedace e décroit plus. La méthode Khiops optimise u critère d évaluatio global de la partitio du domaie e itervalles, et o u critère local appliqué à deu itervalles adacets comme das ChiSplit ou ChiMerge. So absece complète de paramétrage la red très souple à utiliser et permet d aboutir à des partitios de grade qualité sas itervetio utilisateur. Nous motreros qu e dépit de cette approche globale, l algorithme associé à la méthode Khiops est e Nlog(N) ou N est le ombre d idividus à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

4 NT/FTR&D/7339 5/50 Cette compleité algorithmique est la même que pour l algorithme ChiMerge optimisé. Nous compareros la méthode Khiops avec d autres méthodes de discrétisatio et procéderos à des epérimetatios. Efi, ous étudieros les problèmes umériques liés au calcul de la loi du Khi pour u paramétrage etrême (très grad ombre de degrés de liberté et très grade valeur du Khi). Le documet est orgaisé de la faço suivate. La partie rappelle les pricipes du test du Khi et étudie quelques ues de ses propriétés. La partie présete l algorithme Khiops et ses propriétés fodametales. La partie 3 compare la méthode Khiops avec les méthodes apparetées ChiMerge et ChiSplit d u poit de vue théorique. La partie 4 procède à des epérimetatios. L aee étudie les problèmes de sesibilité umérique liés à l approimatio de la loi du Khi. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

5 NT/FTR&D/7339 6/50. LE TEST D INDEPENDANCE DU KHI : PRINCIPES Soit S ue variable source, et T ue variable cible. O cherche à savoir si les variables S et T sot idépedates. O costruit le tableau de cotigece, comptat le ombre d idividus pour chaque couple de valeurs de S et T. Das le tableau par eemple, le couple de valeur (d, B) a été observé 0 fois. S\T A B C a 0 b c d 5 0 e 8 9 Tableau : Eemple de tableau de cotigece Le test du Khi permet de tester l hypothèse d idépedace des deu lois. Le Khi est calculé à partir du tableau de cotigece. S\T A B C Total a 3. b 3. c d e Total...3 N Tableau : Tableau de cotigece utilisé pour le calcul du Khi i : Nombre d idividus pour la i ème valeur de la variable S et la ème valeur de la variable T i. : Nombre total d idividus pour la i ème valeur de la variable S. : Nombre total d idividus pour la ème valeur de la variable T N : Nombre total d idividus I : Nombre de modalités de la variables T (ici 3) J : Nombre de modalités de la variable S (ici 5) Soit e i = i. *. / N. e i représete le ombre d idividus de la case (i, ) si les lois étaiet idépedates. e i est l effectif théorique de la case (i,). La valeur du Khi est ue mesure sur l esemble du tableau de l écart etre les ombres d idividus observés (effectif observé) et les ombres d idividus théoriques (effectif théorique) si les lois étaiet idépedates. La valeur du Khi est doc ue mesure de l écart à l hypothèse d idépedace des variables. ( ) = i ei Khi i ei Sous l hypothèse ulle d idépedace, la valeur du Khi suit ue loi du Khi à (I-)*(J-) degrés de liberté, ce qui permet de costruire u test reetat l hypothèse quad la valeur du Khi est suffisammet grade. Plus la valeur du Khi est importate, mois l hypothèse d idépedace des variables est probable. Par abus de lagage, o parlera das la suite de probabilité d idépedace des variables. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

6 NT/FTR&D/7339 7/50 Proba Degrés 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,0 0,0 0,05 0,0 0,0 0,00 0,000 0,0008 0,0039 0,058 0,06 0,5 0,45,07,64,7 3,84 5,4 6,63 0,83 0,0 0,04 0,0 0, 0,45 0,7,39,4 3, 4,6 5,99 7,8 9, 3,8 3 0, 0,8 0,35 0,58,0,4,37 3,66 4,64 6,5 7,8 9,84,34 6,7 4 0,30 0,43 0,7,06,65,9 3,36 4,88 5,99 7,78 9,49,67 3,8 8,47 5 0,55 0,75,5,6,34 3,00 4,35 6,06 7,9 9,4,07 3,39 5,09 0,5 6 0,87,3,64,0 3,07 3,83 5,35 7,3 8,56 0,64,59 5,03 6,8,46 7,4,56,7,83 3,8 4,67 6,35 8,38 9,80,0 4,07 6,6 8,48 4,3 8,65,03,73 3,49 4,59 5,53 7,34 9,5,03 3,36 5,5 8,7 0,09 6, 9,09,53 3,33 4,7 5,38 6,39 8,34 0,66,4 4,68 6,9 9,68,67 7,88 0,56 3,06 3,94 4,87 6,8 7,7 9,34,78 3,44 5,99 8,3,6 3, 9,59 Tableau 3 : Table du Khi etre et 0 degrés de liberté. Par eemple, pour u tableau de cotigece de dimesio 5*3, le ombre de degrés de liberté de la loi du Khi associée est 8. Si o trouve ue valeur de Khi de 0, cela sigifie que l hypothèse d idépedace des variables à ue probabilité d eviro %. Il est doc raisoable de reeter l hypothèse d idépedace das ce cas. Sesibilité à l idépedace des variables Plus les variables sot idépedates, plus les effectifs observés sot proches des effectifs théoriques. Das ce cas la valeur du Khi est faible et la probabilité d idépedace est doc forte. Sesibilité au effectifs Si o multiplie tous les effectifs par u facteur costat k e gardat les mêmes proportios de modalités cibles, la ouvelle valeur du Khi est multipliée par k. ( k i k ei ) NewKhi = = k. Khi k e i i La probabilité d idépedace dimiue alors très rapidemet avec la taille de la populatio. Cette propriété proviet du caractère statistique du test. Avec ue petite populatio, ue distributio o homogèe est relativemet fréquete, mais est peu fiable pour reeter l hypothèse d idépedace des variables. Pour ue populatio plus grade, il deviet de mois e mois probable qu ue ohomogééité de la distributio soit due au hasard. Sesibilité au proportios observées de modalités cibles Soit ue distributio des modalités cible p, p, p J. = Etudios l ifluece d ue lige de Khi, d effectif, pour des proportios sur la lige de modalités cibles a. = a Les effectifs observés et théoriques de la lige de Khi sot a et p. La cotributio de la lige au Khi est doc ( ( p a ) Khil = p ( p a ) a Khil = = p p Le Khi lige est proportioel à l effectif lige, et varie comme ue combiaiso des carrés des écarts etre les proportios théoriques et observées de modalités cibles, podérées par l iverse des proportios cibles. L écart au modalités cibles de faibles proportios est doc favorisé. Sesibilité de la loi du Khi O a vu que la valeur du Khi varie de faço liéaire avec les effectifs, et approimativemet de faço quadratique avec les écarts etre les proportios observées et théoriques. Par cotre, e se basat sur la p La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

7 NT/FTR&D/7339 8/50 table du Khi du tableau 3, o observe que la probabilité d idépedace varie de faço epoetielle avec la valeur du Khi. Des variatios faibles de la valeur du Khi etraîet des variatios importates de la probabilité d idépedace correspodate. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

8 NT/FTR&D/7339 9/50. METHODE DE DISCRETISATION KHIOPS.. Algorithme Le test du Khi est à la fois sesible au effectifs et au proportios des modalités cibles. Il s agit doc d u critère itéressat a priori pour les méthodes de discrétisatio. La loi du Khi déped du ombre de modalités (par le paramétrage du ombre de degrés de liberté). Cepedat, e passat de la valeur du Khi à la valeur de la probabilité d idépedace associée, o peut comparer deu discrétisatios basées sur des ombres d itervalles différets. O va chercher à miimiser la probabilité d idépedace etre la loi discrétisée et la loi cible e passat par la loi du Khi. Les coditios d applicatio du test du Khi imposet que l o ait u effectif théorique miimum das chaque cellule du tableau de Khi. Cette cotraite devra être prise e compte das l optimisatio. La méthode d optimisatio utilisée est ue méthode gloutoe de type ascedate. O part des itervalles élémetaires, et l o recherche la meilleure fusio possible, c est à dire celle qui etraîe e priorité u meilleur respect des cotraites d effectifs miimum, et à respect de cotraite égal, celle qui miimise la probabilité d idépedace etre loi discrétisée et loi cible. O s arrête quad toutes les cotraites sot respectées et qu aucue fusio supplémetaire e dimiue la probabilité d idépedace etre loi discrétisée et loi cible. Algorithme Khiops Iitialisatio Tri des valeurs de la loi source Créatio d u itervalle élémetaire par valeur de la loi source Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible Optimisatio de la discrétisatio Répéter Evaluer toutes les fusios possibles d itervalles adacets Calcul du Khi associé à la ouvelle loi discrétisée résultat de la fusio Chercher la meilleure fusio Fusios améliorat le respect des cotraites e priorité Maimum du Khi Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio).. Effectif miimum par itervalle La covetio la plus courate est d eiger que les effectifs théoriques soiet au mois égau à 5 pour chaque case du tableau de cotigece. Cette covetio doit être respectée pour des raisos de fiabilité de la loi du Khi. Cet effectif théorique miimum par case est équivalet à u effectif miimum par lige du tableau du Khi, et doc à u effectif miimum par itervalle de la discrétisatio. Das le cadre de la discrétisatio, o procède à des regroupemets de valeurs adhoc e espérat approimer les proportios des modalités cibles à partir des régularités observées das l échatillo. Ces régularités provieet e fait o seulemet de la loi de distributio, mais égalemet du hasard lié à l échatillo. Afi de e pas se baser à tort sur des régularités qui proviedraiet uiquemet du hasard, c est à dire de sur-appredre l échatillo, ue solutio est d augmeter la valeur de l effectif miimum La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

9 NT/FTR&D/7339 0/50 par itervalle, afi de lisser les effets du hasard. O predra pour valeur de l effectif miimum par itervalle aisi redéfii la racie carrée de la taille de l échatillo. Cette valeur permet d ue part d améliorer la fiabilité statistique de l évaluatio de la loi de distributio sur chaque itervalle discrétisé, d autre part d augmeter le ombre d itervalles potetiels et doc la fiesse de la discrétisatio quad la taille de l échatillo augmete. E défiitive, o predra pour effectif miimum par itervalle le maimum du résultat des deu calculs pour assurer à la fois la fiabilité statistique du test du Khi et préveir les problèmes de sur-appretissage..3. Eemple O va illustrer le déroulemet de l algorithme sur la base Iris proveat des bases d appretissage de l UCI Irvie (Blake 998). La base Iris est composée de 50 istaces. Les istaces représetat des fleurs de la famille des Iris sot décrites par 5 attributs : sepal legth e cm sepal width e cm petal legth e cm petal width e cm class: Iris setosa, Iris versicolor, Iris virgiica La variable à prédire est la classe. O va discrétiser l attribut sepal width, qui état le mois corrélé avec la variable cible est le plus itéressat pour illustrer la méthode. Le tableau de cotigece associé au valeurs de l attribut sepal width est le suivat: Valeur Iris Sepal width versicolor Iris Iris Virgiica setosa Total Itervalle fusioé Khi Résultat 0 0 ] - ;,5] 87,86, 0 3 ],0;,35] 87,44, ],5;,45] 87,7, ],35;,55] 85,09, ],45;,65] 88,8, ],55;,75] 88,33, ],65;,85] 87,83, ],75;,95] 84,49,9 7 0 ],85; 3,05] 83, ],95; 3,5] 87,03 3, ]3,05; 3,5] 88,9 3, ]3,5; 3,35] 88, 3,3 3 6 ]3,5; 3,45] 84,86 3,4 9 ]3,35; 3,55] 87,0 3, ]3,45; 3,65] 87,03 3,6 0 3 ]3,55; 3,75] 87,36 3, ]3,65; 3,85] 87,03 3, ]3,75; 3,95] 87,36 3,9 0 0 ]3,85; 4,05] 88, ]3,95; 4,5] 88,36 4, 0 0 ]4,05; 4,5] 88,36 4, 0 0 ]4,5 ; [ 88,36 4,4 0 0 Total Tableau 4 : Table de cotigece pour l attribut sepal width de la base Iris. Evaluatio des fusios. Lors de l iitialisatio, o costitue les 3 itervalles élémetaires ]- ;,], ],;,5] ]4,5; 4,3], ]4,3; [. La valeur du Khi associée est de 88,36. E preat la loi du Khi à 44 degrés de liberté correspodate (44=(3-)*(3-)), o obtiet ue probabilité d idépedace de 8, La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

10 NT/FTR&D/7339 /50 O calcule alors le Khi résultat de chaque fusio d itervalles. Par eemple, la fusio des itervalles ]- ;,], ],;,5] doe u ouvel itervalle ]- ;,5] et le Khi résultat de la ouvelle table (avec u itervalle e mois) a ue valeur de 87,86. O cherche alors la fusio qui maimise le Khi. Ici, la valeur ma du Khi résultat d ue fusio est de 88,36, atteite par eemple pour la fusio des deu deriers itervalles ]4,5; 4,3] et ]4,3; [. E preat la loi du Khi à 4 degrés de liberté correspodate (il y a u itervalle e mois), o obtiet ue probabilité d idépedace de 3, La probabilité d idépedace dimiuat, la discrétisatio est améliorée et o réalise la fusio correspodate. O recommece ces étapes tat qu il y a amélioratio de la discrétisatio. Le tableau 5 illustre la liste des étapes successive de la méthode de discrétisatio. Pour chaque itervalle costitué, o a rappelé les effectifs observés correspodats. Au départ, les itervalles sot fusioés pour arriver à respecter la cotraite des effectifs miimau par itervalle, tout e optimisat le critère de discrétisatio. Ue fois la cotraite satisfaite, les fusios d itervalles se fot uiquemet pour optimiser le critère de discrétisatio. Comme les trois modalités cibles sot équidistribuées, il faut u effectif lige observé de 5 pour satisfaire la cotraite d effectif théorique par case de 5. Cette valeur état supérieure à racie de 50 (cotraite pour éviter le sur-appretissage), o utilise ici u effectif miimum par itervalle de 5. Valeur Iris Sepal width versicolor Iris virgiica Iris setosa Total , 0 3, , , , , , , , , , , , , , , , , 0 0 4, ,4 0 0 Total Tableau 5 : Fusios successives des itervalles pour arriver à ue discrétisatio e trois itervalles Au bout d ue vigtaie d étapes, o arrive à la loi discrétisée suivate: Valeur Sepal width Iris-versicolor Iris-virgiica Iris-setosa Total Itervalle Fusioé Khi Résultat ]- ;.95[ ] - ; 3,35] 54,7 [.95; 3.35[ ],95 ; ] 43,97 [3.35; [ Total Tableau 6 : Table de cotigece pour l attribut sepal width discrétisé de la base Iris Le Khi associé à la loi discrétisée a ue valeur de 70,74, ce qui correspod à ue probabilité d idépedace de, (loi du Khi à 4 degrés de liberté). Deu fusios d itervalles sot ecore La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

11 NT/FTR&D/7339 /50 possibles. La meilleure d etre elles est la première fusio, qui correspod à u Khi de valeur 54,7. La probabilité d idépedace associée est, (loi du Khi à degrés de liberté). Cette fusio qui etraîe ue croissace de la probabilité d idépedace est doc refusée. La variable sepal width a doc été discrétisée e trois itervalles. Das le premier itervalle, la classe Iris setosa est très rare. Das le secod, il y a équilibre etre les trois classes. Das le derier itervalle, la classe Iris setosa est de loi la plus fréquete..4. Compleité algorithmique O va évaluer la compleité algorithmique de la méthode de discrétisatio Khiops par rapport au ombre d idividus N de la base de doées de travail. Das le pire des cas, les idividus preet des valeurs toutes différetes pour la variable à discrétiser. Si l o se base sur les étapes de l algorithme Khiops, o obtiet ue compleité algorithmique e N 3. Iitialisatio: e Nlog(N) Optimisatio de la discrétisatio Répéter (au plus N étapes) Evaluer toutes les fusios possibles d itervalles adacets : N évaluatio de Khi (e N) Chercher la meilleure fusio : e N Evaluer la coditio d arrêt : e O va motrer que l o peut optimiser l algorithme et le rameer à ue compleité algorithmique e Nlog(N). Le calcul du Khi sur u tableau de cotigece complet demade N étapes de calcul de Khi lige. Khi = Khil i i Le calcul du Khi correspodat à la fusio de deu liges i et i (i =i) peut s écrire de la faço suivate : KhiF = Khil Khil Khi l Khi ii' k ii' k k< i k> i' Fii' = Khilk Khilii' Khili Khili' k Fii' = Khi DeltaKhiii' Khi Grâce à l additivité du critère du Khi, le Khi lié à ue fusio d itervalles peut être évalué e ue seule étape si l o coaît le Khi iitial. Si l o mémorise toutes les valeurs de Khi lige et de DeltaKhi, la recherche de la meilleure fusio se fait e recherchat le meilleur DeltaKhi. Après ue fusio d itervalles, seuls les itervalles adacets à l itervalle fusioé doivet être mis à our pour préparer l étape suivate. La partie critique de l algorithme deviet alors la recherche de la meilleure fusio à chaque étape. Cette recherche est e N. Si l o trie préalablemet la liste des fusios possibles, et que l o maitiet cette liste triée au cours de l optimisatio de la discrétisatio, la recherche du meilleur élémet est e, au pri du coût de gestio de la liste triée. Les arbres biaires de recherche équilibrés (AVL Biary Search Tree par eemple) permettet de gérer ue telle liste triée e maiteat l ordre das la liste lors d isertios/supressios à u coût logarithmique. E se basat sur la mémorisatio des KhiLige et des DeltaKhi, sur le calcul icrémetal des Khi et sur l utilisatio d ue liste triée de type arbre biaire de recherche équilibré, o arrive alors à ue compleité globale de Nlog(N). Algorithme Khiops optimisé Iitialisatio Tri des valeurs de la loi source : e Nlog(N) Créatio d u itervalle élémetaire par valeur de la loi source : e N La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

12 NT/FTR&D/7339 3/50 Calcul des Khi lige et du Khi iitial : e N Calcul des DeltaKhi : e N Tri des fusios par valeur de DeltaKhi : e Nlog(N) Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible : e Optimisatio de la discrétisatio Répéter: N étapes Chercher la meilleure fusio : e e preat le premier élémet de la liste triée Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio) Si cotiuer : effectuer la fusio d itervalle Calcul du KhiLige pour le ouvel itervalle : e Calcul des DeltaKhi pour les deu itervalles adacets au ouvel itervalle Mise à our de la liste triée des DeltaKhi : e log(n) Suppressio du DeltaKhi du ouvel itervalle Suppressio des acies DeltaKhi des itervalles adacets au deu sous itervalles sources du ouvel itervalle Aout des ouveau DeltaKhi des itervalles adacets au ouvel itervalle O peut oter que l occupatio mémoire écessaire pour l algorithme est égalemet e Nlog(N). O doit e effet mémoriser N Khi liges, N DeltaKhi, et ue structure de liste triée de type arbre biaire de recherche équilibré qui a ue occupatio mémoire de Nlog(N). La versio optimisée de l algorithme Khiops a la même compleité que la versio optimisée de l algorithme ChiMerge, ce qui red la méthode utilisable y compris sur des bases de doées très volumieuses (de à d idividus)..5. Propriétés de la fusio des liges de Khi Soit ue distributio des modalités cible p, p, p J. = Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. a Les Khi liges sot b Khi l = et Khi l' = ' p. p O evisage la fusio des deu liges de Khi. Les effectifs observés et théoriques de la lige fusioée sot a b et p ( ). a b ' Le Khi lige de la fusio est ( ) ' Khil" = ' p Le regroupemet des deu liges etraîe ue modificatio du Khi, DeltaKhi = Khil Khil Khil. p a b La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

13 NT/FTR&D/7339 4/50 DeltaKhi = ( ' ) ' DeltaKhi = ' a b ' ' p ( a ) b p a ' b La fusio de deu liges de Khi e peut que faire décroître la valeur du Khi. La loi du Khi a cepedat mois de degrés de liberté. Si le Khi décroît suffisammet faiblemet (voire e décroît pas), la probabilité d idépedace correspodate dimiue. Sio, cette probabilité augmete. Si les deu liges ot eactemet les mêmes proportios de modalités cibles (a = b ), alors la fusio de ces deu liges e fait pas dimiuer le Khi. La fusio de deu liges au proportios idetiques (ou très proches) dimiue doc la valeur de la probabilité d idépedace. Pour dimiuer la probabilité d idépedace, il est plus importat d être similaire pour les petits p que pour les grads p. Pour u rapport d effectifs costat, la décroissace du Khi est proportioelle à l effectif global des deu liges. Les fusios avec effectifs faibles ot plus de chace de dimiuer la probabilité d idépedace Pour u effectif global des deu liges costat, la décroissace du Khi est maimale quad les effectifs des deu liges sot idetiques. Les fusios avec effectifs différets dimiue doc davatage la probabilité d idépedace. E résumé, la probabilité d idépedace dimiue (le Khi décroît le mois) selo les facteurs suivats : - faibles effectifs sur les liges - effectifs différets etre les liges - proportios similaires etre les liges (surtout pour les petits p ) 000 ' 00 0 DeltaKhi = DeltaKhi = 0 DeltaKhi = 00 0,8 0,6 b 0,4 DeltaKhi = 0 DeltaKhi = 0,0 DeltaKhi = 0, DeltaKhi = 0,4 0, Figure : Ifluece des effectifs 0 0 0, 0,4 0,6 0,8 a Figure : Ifluece des proportios Remarque Les fusios de liges ayat les même proportios de modalités cibles sot optimales pour l algorithme et serot doc effectuées les premières (au cotraites d effectif miimum près). Toutes les valeurs adacetes ayat même modalité cible peuvet doc être regroupées pour costituer les itervalles iitiau lors de la phase d iitialisatio de l algorithme..6. De la méthode à so implémetatio Il faut dissocier la méthode de l algorithme et de so implémetatio. Le pricipe de la méthode est de rechercher parmi tous les regroupemets e itervalles possibles celui qui miimise la probabilité d idépedace etre la loi discrétisée et la loi cible. Cette probabilité est La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

14 NT/FTR&D/7339 5/50 mesurée par la loi du Khi appliquée au tableau de cotigece etre loi discrétisée et loi cible. Pour améliorer la fiabilité statistique de l algorithme, u effectif miimum dépedat de la taille de l échatillo est aouté pour cotraidre la recherche de la meilleure partitio e itervalles. A ce iveau de pricipe, la méthode Khiops paraît robuste. Le calcul de l effectif miimal théorique doit teir compte plus précisémet des lois cibles à plusieurs modalités pour forcer le regroupemet d itervalles qui e paraisset dissemblables que par le hasard de l échatillo. Ce calcul a ici été fait qu approimativemet. L algorithme de recherche est u algorithme glouto qui pred e compte la cotraite d effectif miimum de la faço la plus souple possible. Cette heuristique garatit u temps d eécutio superliéaire, ce qui est idispesable dès que l o s attaque à des problèmes de data miig tirés du mode réel. Par cotre, il est clair que l algorithme e coduit pas forcémet à la solutio optimale et que l o peut même costruire des eemples le mettat e défaut, otammet e ce qui cocere la prise e compte des cotraites d effectif miimum. Il est éamois ievisageable de rechercher la solutio optimale du problème de la discrétisatio optimale. L algorithme écessite ue boe approimatio de la loi du Khi pour des valeurs très importates de ombre de degrés de liberté et de Khi. L évaluatio eacte de la loi du Khi serait l idéal, mais elle est pas dispoible das la pratique. De plus, o arrive au limites de la précisio umérique des ordiateurs pour des probabilités d idépedace proche de zéro. Les limites de la méthode provieet d avatage de so implémetatio que de so pricipe. Le problème le plus critique est celui de l évaluatio de la loi du Khi. Nous motreros que l approimatio de l effectif miimal et l heuristique gloutoe utilisée permettet d obteir des résultats de très boe qualité avec des temps de calcul très rapides. Nous étudierot égalemet e aee de ouvelles méthodes umériques permettat d approimer le logarithme de la probabilité associée au Khi et de calculer de faço très précise les variatios du Khi cotrôlat le critère d arrêt de l algorithme Khiops, et ce pour de très larges domaies de valeurs. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

15 NT/FTR&D/7339 6/50 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D. 3. COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI 3.. Comparaiso avec ChiMerge Soit ue distributio des modalités cible p, p, p J. = p Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = a Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = b Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. Les Khi liges sot = p a l Khi et = ' " p b l Khi. O a vu que pour la méthode Khiops, le calcul du DeltaKhi résultat de la fusio de deu liges coduit à : ( ) = p b a DeltaKhi ' ' Pour la méthode ChiMerge, o cosidère le tableau du Khi local au deu liges. Das ce cotete local, la distributio des modalités cibles q, q, q J a pour valeurs ' ' b a q =. Pour évaluer l itérêt de la fusio des deu liges, o calcule le Khi de cette table locale du Khi. = ' q b q a l SommeKhi ( )( ) ( ) ( ) ' ' ' ' b a b a l SommeKhi = ( ) ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) = q b a l SommeKhi ' ' Le calcul du critère d arrêt pour les méthodes Khiops et ChiMerge coduit doc a ue epressio mathématique idetique. L iterprétatio du critère est radicalemet différete. La distributio des modalités cibles est globale a toute la table pour Khiops (proportios p i ), alors qu elle est locale au deu liges adacetes de la table pour ChiMerge (proportios q i ). Pour Khiops, o s arrête si : Proba(KhiDeltaKhi, (-)*(J-)) < Proba(Khi, (-)*(J-)) Pour ChiMerge (paramétré par ue valeur ProbaSeuil), o s arrête si : Proba(SommeKhil, J-) > ProbaSeuil

16 NT/FTR&D/7339 7/50 Cela illustre ue différece fodametale etre les deu méthodes. ChiMerge foctioe de faço locale, alors que Khiops tiet compte des proportios de modalités cibles globales, du ombre d itervalles global et de la valeur globale du Khi ProbLevel Khi Figure 3 : Loi du Khi à u degré de liberté O va predre l eemple de la fusio des deu liges de même effectif ayat des proportios de modalités cibles légèremet différetes pour ue loi cible à deu modalités équiréparties. (p-e) (-pe) (pe) (-p-e) p (-p) Les probabilités locales au tableau du Khi des deu liges sot p et -p. La différece d effectifs observés etre les deu liges est D=e pour ue même modalité cible D e D Das ce cas, o a DeltaKhi = 8e = et SommeKhil = =. p( p) p( p) Les seuils d acceptatio usuels du DeltaKhi varie de à 0 quad Khi/(Ndl) varie de à 00 (cf. aee). Cela sigifie que pour l algorithme Khiops, la fusio de deu liges est acceptée dès que la différece des effectifs observés etre les deu liges est au maimum de l ordre de racie de. Cette différece augmete avec le Khi global. Pour avoir u comportemet équivalet das ChiMerge, il faut que p=0,5. Das ce cas, il faut fier u seuil de Khi etre 0,3 (Khi = ) et 0,00 (Khi = 0). Par ailleurs, l algorithme du ChiMerge est très sesible au probabilités cibles p locales au deu liges. Si l o passe à p=0, au lieu de 0,5, le calcul SommeKhil doe u résultat presque trois fois supérieur. Pour u résultat équivalet, il faut alors auster leur seuil de Khi etre 0, (Khi = 3) et 0, (Khi = 30). Le comportemet «ituitif» de la méthode Khiops qui cosiste à autoriser toute fusio de deu liges «similaires» est pas reproductible avec l algorithme ChiMerge. O va predre la table suivate pour illustrer la difficulté de choisir u seuil de Khi pour l algorithme ChiMerge : La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

17 NT/FTR&D/7339 8/50 Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil ,7 6,9 0, ,48,7 0, ,7 0,9 0, ,78 6,0 0, ,7 0,7 0, ,78 6,0 0, ,7 0,9 0, ,48,7 0, ,7 6,9 0, Tableau 7 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O a ici u Khi total pour la table globale de 449, égale à eviro 50 fois le ombre de degrés de liberté. E se référat à la table des DeltaKhi e aee, les fusios de DeltaKhi supérieur à -5 sot acceptées, les autres sot refusées. Pour l algorithme Khiops, les ciq fusios «évidetes» sot acceptées et cosidérées comme équivaletes. Pour ChiMerge, les fusios cetrales (autour de p=0,5) sot largemet préférées au fusios etrêmes (p = 0,03 ou 0,97). La fusio etre les liges et est même préférée à la fusio etre les liges 0-00 et Das ce cadre, il est difficile de choisir le bo seuil pour l algorithme ChiMerge. E fait ici, e choisissat le seuil à 0,0 (pour accepter la fusio etre 0-00 et 6-94), l algorithme ChiMerge va doer u résultat cohéret : les premières fusios vot e effet avoir pour effet d iterdire la fusio etre les liges (fusioée avec 4-76) et (fusioée avec 53-47). Les deu méthodes aboutisset das ce cas à la même table fiale. Das l eemple suivat (Khi total=378), seul l algorithme Khiops permet d aboutir au fusios aturelles. Pour ChiMerge, la fusio etre les liges et est préférée à la fusio «aturelle» etre les liges 0-00 et 6-94 quel que soit le seuil choisi. Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil ,7 6,9 0, ,58 3, 0, ,78 5,95 0, ,78 5,95 0, ,58 3, 0, ,7 6,9 0, Tableau 8 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O va utiliser le derier eemple suivat (Khi total=3800) pour illustrer la prise e compte des facteurs d échelle. Das la méthode Khiops, o se trouve ici à u iveau de Khi/(Ndl) supérieur à 600. A ce iveau de Khi, les fusios aturelles etre et sot acceptées, les autres sot largemet écartées. Pour ChiMerge, la fusio etre et est systématiquemet préférée à la fusio etre et quel que soit le seuil choisi. Il faut oter que ce seuil pour ChiMerge est ici de l ordre de 0 -. Il déped doc fortemet des effectifs e eu, ce qui red so austemet mauel etrêmemet délicat. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

18 NT/FTR&D/7339 9/50 Table iitiale Khiops ChiMerge Table fiale DeltaKhil SommeKhil Seuil ,8 8,00E ,5 4,0E ,04,6E ,04,6E ,5 4,0E ,8 8,00E Tableau 9 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge E coclusio, la méthode ChiMerge comporte plusieurs faiblesses itrisèques qui sot résolues par la méthode Khiops. Les caractéristiques puremet locales de ChiMerge etraîet des difficultés pour trouver u paramétrage du seuil de Khi optimal. Tout seuil fié par l utilisateur e sera pertiet qu à certaies étapes de l algorithme (problèmes d échelles liées à la taille de l échatillo iitial et au ombre d itervalles) et avatagera à tort les fusios d itervalles dot les proportios locales sot proches de l équipartitio. Le critère global utilisé das Khiops résout ces problèmes e calculat u critère d arrêt auto-adaptatif e foctio de la taille de l échatillo et des spécificités locales des itervalles évaluées équitablemet parmi l esemble de toutes les fusios possibles. 3.. Comparaiso avec ChiSplit Khiops est u algorithme ascedat et ChiSplit est u algorithme descedat, ce qui red la comparaiso etre les deu méthodes plus difficile que pour ChiMerge. Preos l eemple d ue loi cible à deu modalités équiréparties, pour laquelle seule ue lige de la table du Khi présete des proportios de modalités cibles différetes des proportios globales. p (-p) p (-p) p (-p) (p-e) (- pe) p (-p) p (-p) p (-p) (Ip-e) (I- I Ipe) O va calculer le critère du ChiSplit pour u premier itervalle costitué de i liges de type p-(-p) et u secod itervalle coteat le reste de la table. ( ip i( p e / I)) ( i( p) i( p e / I)) KhiSpliti = i( p e / I) i( p e / I) ( (( I i) p e) ( I i)( p e / I)) ( (( I i)( p) e) ( I i)( p e / I)) ( I i)( p e / I ) ( I i)( p e / I ) ( e / I ) i KhiSplit i = ( p e / I)( p e / I ) I i Si la lige sigulière est e i 0 avec i 0 <= I/, la valeur du critère croît usqu à i 0 puis décroît esuite (la lige sigulière état passée de l autre côté du poit de coupure, il faut utiliser la formule avec I-i). La La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

19 NT/FTR&D/7339 0/50 coupure se fait uste au ras de la lige sigulière, qui sera isolée e ré-appliquat l algorithme sur le sous itervalle comportat cette lige. La méthode ChiSplit arrive doc à isoler correctemet la sigularité. Le calcul du ChiSplit met éamois e lumière ses problèmes d utilisatio. Le critère d arrêt est très délicat à auster car il déped de facteurs d échelle (ombre de liges du tableau), de l importace des sigularités à détecter, et de la positio de la sigularité das la table du Khi. E effet, la valeur de KhiSplit (maimale au poit de coupure) varie du simple (sigularité e i 0 =) au double (sigularité e i 0 =I/) selo la positio de la sigularité, ce qui red u austemet optimal impossible das le cas de plusieurs sigularités présetes à des positios différetes. O va repredre le premier eemple utilisé pour ChiMerge pour illustrer l esemble de ces problèmes. Table iitiale Khiops ChiSplit Table fiale 0 00 DeltaKhil KhiSplit Seuil ,7, 5,59E ,48 0,90 5,76E ,7 74,9,3E ,78 36,67 5,E ,7 37,8 3,95E ,78 36,67 5,E ,7 74,9,3E ,48 0,90 5,76E ,7, 5,59E Tableau 0 : Choi de la meilleure fusio d itervalle pour Khiops et ChiSplit O est ici das des ordres de gradeur de 0-5 à 0-75 pour le seuil de Khi à utiliser. Pour des échatillos de taille supérieure (de l ordre de 0000 idividus), o se retrouverait au limites de la précisio umérique des machies (de l ordre de ), ce qui redrait impossible le choi d u seuil. Par ailleurs, la coupure optimale trouvée par ChiSplit est de découper au milieu du tableau du Khi. E effet, cette coupure doe deu liges d effectifs et , qui costitue ue ecellete coupure de l esemble e deu itervalles. Mais de ce fait, la coupure a séparé irrémédiablemet les liges et qui seraiet ituitivemet à fusioer. L approche de l algorithme ChiSplit qui combie recherche des structures globales et algorithme glouto costitue doc ue faiblesse itrisèque pour l idetificatio des régularités locales de la variable à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

20 NT/FTR&D/7339 /50 4. EXPERIMENTATIONS 4.. Descriptio des epérimetatios meées Nous avos effectué ue série de test sur des eu d essai théoriques parfaitemet cous, à savoir le mélage de deu classes suivat chacue ue loi de distributio gaussiee. L obectif est d étudier le comportemet de la méthode de discrétisatio Khiops e foctio de la taille de l échatillo et du degré de séparabilité des deu classes, austable par l écart type des gaussiees. Les eu d essai sot costitués de la faço suivate : Chaque eu d essai correspod à u échatillo paramétré u écart type ET et ue taille d échatillo Taille. Chaque idividu est représeté par ue variable cotiue Value et ue variable cible Class à prédire. La variable à prédire Class a deu valeurs 0 et équiréparties. La loi de distributio des 0 est ue gaussiee de moyee 0 et d écart type ET. La loi de distributio des est ue gaussiee de moyee et d écart type ET. O étudie la discrétisatio de l'attribut Value pour l'attribut à prédire Class. Afi d obteir des valeurs statistiquemet fiables, l epérimetatio est répétée 00 fois pour chaque couple de valeur (ET, Taille). Les écarts types étudiés sot 0,, 0,, 0,5, 0,3, 0,4, 0,5, 0,6,,, 0, ce qui permet de passer progressivemet de classes presque parfaitemet séparables à des classes pratiquemet mélagées aléatoiremet. Les tailles d échatillo étudiées sot 00, 000, 0000, 00000, , ce qui permet de passer d échatillos peu fiables statistiquemet à des échatillos très volumieu, correspodat surtout à des tests de volumétrie. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

21 NT/FTR&D/7339 /50 4,00,50 3,50,00 Class0 Class Total 3,00 0,50 0,00 -,00 -,00 0,00,00,00 3,00,50,00,50 ET=0, ET=0, ET=0,5 ET=0,3 ET=0,4 ET=0,5 ET=0,6 ET= ET= ET=0 Figure 5 : Mélage de deu gaussiees d écart type 0,5,00 Class0 0,50 Class Total 0,00 -,00 -,00 0,00,00,00 3,00 Figure 6 : Mélage de deu gaussiees d écart type 0,5,00 0,50 Class0 Class Total 0,50 0,00 -,00 -,00 0,00,00,00 Figure 4: Lois gaussiees utilisées pour l epérimetatio 0,00 -,00 -,00 0,00,00,00 3,00 Figure 7 : Mélage de deu gaussiees d écart type 0,50 0,00 -,00 -,00 0,00,00,00 3,00 Figure 8 : Mélage de deu gaussiees d écart type Class0 Class Total La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

22 NT/FTR&D/7339 3/50 Ue autre faço de préseter le problème du mélage des gaussiees est de visualiser la proportio de la classe 0 (par eemple) e foctio de la valeur de la variable cotiue à discrétiser. Les classes sot équiréparties pour la valeur 0,5, et la trasitio etre la zoe où la classe 0 est maoritaire et celle où la classe est maoritaire est d autat plus rapide que l écart type des gaussiee est faible.,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 ET=0,5 ET=0,50 ET=,00 ET=,00 0,0 0,0 0,00 -,00 -,00 0,00,00,00 3,00 Figure 9 : Proportio de la classe 0 pour différets écarts types des gaussiees Pour illustrer la variabilité statistique des échatillos, o va visualiser la proportio de la classe 0 sur des histogrammes costitués de partiles de taille 5 et 00 pour la séparatio de deu gaussiees d écart type sur u échatillo de taille 000. Ces histogrammes costituet des discrétisatios o supervisées et motret l impact du choi des effectifs par itervalle. O voit clairemet qu ue taille d effectif par itervalle trop petite coduit à refléter trop fidélemet les aléas de l échatillo, alors qu ue taille trop importate (à la limite deu itervalles uiquemet) coduirait à approimer trop grossièremet la courbe de répartitio réelle. 0,9 0,8 0,7 0,6 0,5 0,4 Histo5 Histo00 Répartitio 0,3 0, 0, Figure 0 : Proportio de la classe 0 et histogrammes par partiles pour deu gaussiees d écart type sur u échatillo de taille 000 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

23 NT/FTR&D/7339 4/50 Pour chaque eu de paramètres, o a mesuré les idicateurs suivats : Temps de discrétisatio Idicateur ProbLevel Nombre d itervalles Etropie Etropie mutuelle Erreur théorique Erreur e appretissage Erreur e validatio Distace à la loi Temps de discrétisatio Le temps de discrétisatio est mesuré sur u PC Petium II 500 Mhz, 384 Mo RAM, sous Widow/NT 4.0. Seul le temps de discrétisatio a été pris e compte. Le chargemet des doées e mémoire a pas été comptabilisé. ProbLevel Le ProbLevel est l idicateur utilisé par la méthode Khiops. Il correspod à la probabilité que la loi de la variable discrétisée et la loi cible soiet idépedates pour la valeur du Khi observé (e fait l opposé du logarithme base 0 pour avoir ue valeur positive avec des plages de valeurs facilemet iterprétables). Nombre d itervalles Le ombre d itervalles résulte directemet de la discrétisatio. Etropie L etropie est la mesure de la quatité d iformatio (ombre de bits) présete das la variable discrétisée. Etropie mutuelle L etropie mutuelle représete la quatité d iformatio commue etre la variable discrétisée et la variable cible (qui a ici ue etropie de ). Erreur théorique Le prédicteur optimal est celui qui prédit la classe maoritaire e chaque poit. Das otre cas, le prédicteur optimal est basé sur la séparatio optimale des deu gaussiees, c est à dire sur la médiae des moyees des deu gaussiees qui ot même écart type (séparatio e 0,5 pour les eu d essai). L erreur théorique correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur optimal, c est à dire au rapport de l aire de l itersectio des deu gaussiees sur l aire de la somme des deu gaussiees. Erreur e appretissage L erreur e appretissage est l erreur mesurée sur la discrétisatio si l o se sert de la discrétisatio comme d u prédicteur. Pour chaque itervalle, o prédit la classe maoritaire mesurée sur l échatillo. L erreur e appretissage est égale à la somme des effectifs des classes mioritaires de chaque itervalle de discrétisatio divisée par l effectif global de l échatillo. L erreur e appretissage résulte doc d u comptage dot la fiabilité statistique déped de la taille de l échatillo. Erreur e validatio L erreur e validatio de la discrétisatio correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur lié à la discrétisatio. Cette erreur e validatio peut être calculée de faço eacte car o coaît la loi de distributio eacte de chaque classe. Il est pas écessaire de l estimer sur u esemble de validatio. Pour cela, o calcule pour chaque itervalle l aire erroée sous la gaussiee de la classe prédite à tort. O fait le cumul de ces aires erroées, divisé par l aire de la somme des deu gaussiees. Pour ue discrétisatio qui se baserait sur eactemet deu itervalles ]- ; 0,5] et ]0,5; [ et prédirait la classe 0 sur le premier itervalle et la classe sur le secod itervalle, l erreur e validatio coïciderait avec l erreur théorique. Cela est logique, car das ce cas le prédicteur basé sur la discrétisatio est égal au prédicteur optimal. Distace à la loi La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

24 NT/FTR&D/7339 5/50 O itroduit ce derier critère pour évaluer plus fiemet que par l erreur e validatio la qualité d ue discrétisatio. E effet, si par eemple l o désire fait du scorig, il faut pouvoir classer les idividus par probabilité décroissate d apparteir à ue classe, et doc évaluer cette probabilité plus fiemet que par ue discrétisatio à deu itervalles. Soit ue loi de distributio des classes 0 et défiie e tout poit de la variable Value par p 0 () et p () les probabilités d apparteir à la classe 0 ou, et par la desité de probabilité D(). E tout poit, p 0 () p () = et D ( ) d =. O cherche à comparer cette loi de distributio avec ue secode loi basée sur la même desité de probabilité des idividus, mais pour des proportios p 0 () et p () différetes. O défiit la distace etre les deu distributios de la faço suivate : Distace( ( p ) ( )) 0, p, p' 0, p' = ( p0( ) p' 0 ( ) p( ) p' ( ) ) D( ) d Comme il y a que deu modalités cibles, o a : ((, p ), ( p', p' )) p ( ) p' ( ) Distace p 0 0 = 0 0 D( ) d La distace aisi défiie est doc ulle si et seulemet si les deu distributios sot cofodues. Elle est borée par et cette bore est atteite si par eemple p 0 () = -p 0 () et p 0 () e pred que des valeurs 0 ou. Graphiquemet cette distace peut être vue comme l aire comprise etre deu distributios (podérée éamois par la desité de la distributio e chaque poit). Ceci est illustré ci-dessous pour le cas d ue loi réelle et de sa discrétisatio sur la figure suivate. 0,8 0,6 0,4 Loi discrétisée Loi réelle 0, Figure : Visualisatio de la distace etre ue loi réelle et ue loi discrétisée Das otre cas, la loi de distributio est basée sur l utilisatio de deu gaussiees G(, 0, ET) et G(,, ET). p 0 ()=G(, 0, ET)/D(), p ()=G(,, ET)/D() et D(X) = G(, 0, ET) et G(,, ET). La loi de distributio basée sur ue discrétisatio est la suivate : - Même desité de probabilité D() - Sur chaque itervalle ]if i ; sup i ], o a p 0 () = p 0i () calculé par comptage de la proportio das l itervalle des idividus de la classe 0 e se basat sur l échatillo ayat servi à la discrétisatio supi G(,0, ET) Distace ( LoiReelle, LoiDiscretisee) = p0 i ( ) D( ) d ifi D( X ) Distace i supi ( LoiReelle, LoiDiscretisee) = G(,0, ET )( p ( ) ) G(,, ET p ( ) Pour la discrétisatio optimale à deu itervalles, o a : i if i 0 i ) 0i d La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

La classification de données quantitatives avec SPAD

La classification de données quantitatives avec SPAD La classificatio de doées quatitatives avec SPAD SPAD effectue toujours ue ACP de la matrice des doées quatitatives X " p avat de faire la classificatio des idividus. Les méthodes de classificatio s appliquet

Plus en détail

DEVOIR SURVEILLE DE MATHEMATIQUES 3 heures Probabilités conditionnelles - Suites géométriques - fonctions exponentielles Calculatrice autorisée

DEVOIR SURVEILLE DE MATHEMATIQUES 3 heures Probabilités conditionnelles - Suites géométriques - fonctions exponentielles Calculatrice autorisée DEVOIR SURVEILLE DE MATHEMATIQUES 3 heures Probabilités coditioelles - Suites géométriques - foctios epoetielles Calculatrice autorisée Termiale ES123 Eercice 1 : 5 poits Partie A : Ue agece de locatio

Plus en détail

Estimations et intervalles de confiance

Estimations et intervalles de confiance Estimatios et itervalles de cofiace Estimatios et itervalles de cofiace Résumé Cette vigette itroduit la otio d estimateur et ses propriétés : covergece, biais, erreur quadratique, avat d aborder l estimatio

Plus en détail

Codes détecteurs et correcteurs d erreurs

Codes détecteurs et correcteurs d erreurs Codes détecteurs et correcteurs d erreurs Lorsque des doées umériques sot stockées ou trasmises, des perturbatios (par exemple électromagétiques) peuvet les edommager. Les codes détecteurs et correcteurs

Plus en détail

Chapitre 1 : Les notions de base

Chapitre 1 : Les notions de base Chapitre : Les otios de base Itroductio I Comparer des gradeurs A) Les pourcetages B) Taux de variatio, coefficiet multiplicateur, idice C) Importace du ses de la comparaiso ) Raisoemet sur les taux de

Plus en détail

DIDIER AUROUX POLYTECH NICE-SOPHIA MAM5 - OPTION IMAFA 2010-2011

DIDIER AUROUX POLYTECH NICE-SOPHIA MAM5 - OPTION IMAFA 2010-2011 MÉTHODES NUMÉRIQUES POUR LE PRICING D OPTIONS DIDIER AUROUX POLYTECH NICE-SOPHIA MAM5 - OPTION IMAFA 2010-2011 Table des matières 1 Notatios et équatio de Black-Scholes 2 11 Notatios 2 12 Équatio de Black-Scholes

Plus en détail

Chapitre 4 Lois discrètes

Chapitre 4 Lois discrètes Chapitre 4 Lois discrètes 1. Loi de Beroulli Ue variable aléatoire X est ue variable de Beroulli si elle e pred que les valeurs 0 et 1 avec des probabilités o ulles. P(X = 1) = p, P(X = 0) = 1 p = q, avec

Plus en détail

TP R : méthodes statistiques élémentaires

TP R : méthodes statistiques élémentaires M2 IFMA et MPE TP R : méthodes statistiques élémetaires À la fi de la séace vous déposerez vos scripts R das la boîte de dépôt de votre espace Sakai : http://australe.upmc.fr/portal. 1 Importatio des doées

Plus en détail

Fluctuation et estimation

Fluctuation et estimation Fluctuatio et estimatio Table des matières I Idetificatio de la situatio........................................ II Échatilloage, itervalle de fluctuatio asymptotique........................ II. Itervalle

Plus en détail

B) CHAÎNES DE SOLIDES

B) CHAÎNES DE SOLIDES Chaîes de solides B) CHAÎNES DE SOLIDES Objectifs Cette théorie a pour but d'aalyser les comportemets statique et ciématique d'u mécaisme à partir d'u modèle défii par le schéma ciématique du mécaisme.

Plus en détail

TS Intervalle de fluctuation et estimation Cours

TS Intervalle de fluctuation et estimation Cours Aée 2013/2014 TS Itervalle de fluctuatio et estimatio Cours est u etier aturel o ul et p est u réel de l itervalle 0 ; 1. I Itervalle de fluctuatio Cotexte : Das ue populatio, la proportio d idividus présetat

Plus en détail

Racine nième Corrigés d exercices

Racine nième Corrigés d exercices Racie ième Corrigés d eercices Page 9 : N 8, 8, 8, 86, 88, 89, 9, 9, 9, 97 Page 6 : N, Page 6 : N Page 67 : N 8 Page 6 : N N 8 page 9 6 6 6 6 6 ( ) = = = = = = = = ( ) = = = = = = ( ) 8 = 8 = = = = = =

Plus en détail

Intervalle de fluctuation des fréquences. Estimation CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES. fréquence F n. fréquence obtenue f.

Intervalle de fluctuation des fréquences. Estimation CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES. fréquence F n. fréquence obtenue f. Chapitre 14 Itervalle de fluctuatio des fréqueces. Estimatio Termiale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Itervalle de fluctuatio Estimatio Itervalle de cofiace (*). Niveau

Plus en détail

Intervalles de fluctuation et de confiance

Intervalles de fluctuation et de confiance Chapitre 9 Itervalles de fluctuatio et de cofiace Sommaire 9.1 Itervalle de fluctuatio................................... 157 9.1.1 Quelques rappels..................................... 157 9.1.2 Itervalle

Plus en détail

Entrée à Sciences Po ADMISSION AU COLLÈGE UNIVERSITAIRE 2014 MATHÉMATIQUES durée de l épreuve : 3 h

Entrée à Sciences Po ADMISSION AU COLLÈGE UNIVERSITAIRE 2014 MATHÉMATIQUES durée de l épreuve : 3 h Etrée à Scieces Po ADMISSION AU COLLÈGE UNIVERSITAIRE 2014 MATHÉMATIQUES durée de l épreuve : 3 h A P M E P Les calculatrices sot autorisées Exercice Vrai-Faux 8 poits Pour chacue des affirmatios suivates,

Plus en détail

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil. Qu appelle-t-o éclipse? Éclipser sigifie «cacher». Vus depuis la Terre, deu corps célestes peuvet être éclipsés : la Lue et le Soleil. LES ÉCLIPSES Pour qu il ait éclipse, les cetres de la Terre, de la

Plus en détail

Questions pour un champion en ligne

Questions pour un champion en ligne Questios pour u champio e lige Le jeu télévisé QPUC préseté sur FR3 et aimé par Julie Lepers existe aussi e variate «e lige». U jeu «e lige» se déroule aisi : Six iterautes disputet ue première mache dite

Plus en détail

BTS BIOCHIMIE & ANALYSES BIOLOGIQUES 2001

BTS BIOCHIMIE & ANALYSES BIOLOGIQUES 2001 Exercice 1 : ( 12 poits ) Les parties A et B peuvet être traitées idépedammet l ue de l autre. O se propose d étudier l évolutio e foctio du temps des températures d u bai et d u solide plogé das ce bai.

Plus en détail

Corrigé du baccalauréat Polynésie 16 juin 2014 STI2D STL spécialité SPCL

Corrigé du baccalauréat Polynésie 16 juin 2014 STI2D STL spécialité SPCL Corrigé du baccalauréat Polyésie 6 jui 4 STID STL spécialité SPCL EXERCICE 4 poits Cet eercice est u questioaire à choi multiples. Pour chacue des questios suivates, ue seule des quatre réposes proposées

Plus en détail

Limites des Suites numériques

Limites des Suites numériques Chapitre 2 Limites des Suites umériques Termiale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Limite fiie ou ifiie d ue suite. Limites et comparaiso. Opératios sur les ites. Comportemet

Plus en détail

Dénombrement - Combinatoire Cours

Dénombrement - Combinatoire Cours Déombremet - Combiatoire Cours La combiatoire (ou aalyse combiatoire) étudie commet compter des objets. Elle fourit des méthodes de déombremet particulièremet utiles e probabilité. U des pricipaux exemples

Plus en détail

Échantillonnage. Pour reprendre contact Les réponses exactes sont : Activité 1. Activité 2. 1 Réponse c. 2 Réponse a. Réponse c. 3 Réponse a.

Échantillonnage. Pour reprendre contact Les réponses exactes sont : Activité 1. Activité 2. 1 Réponse c. 2 Réponse a. Réponse c. 3 Réponse a. Échatilloage 9 Pour repredre cotact Les réposes exactes sot : Répose c. Répose a. Répose c. 3 Répose a. 4 Répose b. Répose c. Activité. La populatio étudiée est la productio d automobiles. Le caractère

Plus en détail

Test de validité et d'hypothèse

Test de validité et d'hypothèse Test de validité et d'hypothèse 1 Vocabulaire Problème: Il s'agit à partir de l'étude d'u ou plusieurs échatillos de predre des décisios cocerat l'esemble de la populatio. O est alors ameé à émettre des

Plus en détail

Chapitre 3 : Fonctions d une variable réelle (1)

Chapitre 3 : Fonctions d une variable réelle (1) Uiversités Paris 6 et Paris 7 M1 MEEF Aalyse (UE 3) 2013-2014 Chapitre 3 : Foctios d ue variable réelle (1) 1 Lagage topologique das R Défiitio 1 Soit a u poit de R. U esemble V R est u voisiage de a s

Plus en détail

Promenades aléatoires : vers les chaînes de Markov

Promenades aléatoires : vers les chaînes de Markov AME Dossier : Matrices et suites 545 romeades aléatoires : vers les chaîes de Markov ierre Griho (*) Cet article propose ue mise e perspective de la otio de promeade ou de marche aléatoire itroduite das

Plus en détail

Correction Bac ES France juin 2010

Correction Bac ES France juin 2010 Correctio Bac ES Frace jui 010 Exercice 1 (4 poits) (Commu à tous les cadidats) Pour ue meilleure compréhesio, les réposes serot justifiées das ce corrigé. Questio 1 Le ombre 3 est solutio de l équatio

Plus en détail

Bac Blanc Terminale L - Février 2015 Épreuve de Spécialité Mathématiques (durée 3 heures)

Bac Blanc Terminale L - Février 2015 Épreuve de Spécialité Mathématiques (durée 3 heures) Exercice 1 (5 poits) Bac Blac Termiale L - Février 015 Épreuve de Spécialité Mathématiques (durée 3 heures) Questio 1 : La populatio d'ue ville baisse de 1 % tous les as pedat 10 as. Elle est doc multipliée

Plus en détail

La calculatrice est autorisée. Le sujet comporte un total de 5 exercices. ( ) ( ) ( )

La calculatrice est autorisée. Le sujet comporte un total de 5 exercices. ( ) ( ) ( ) Aée 01-013 Mathématiques Décembre 01 Durée : 3 heures BAC blac N 1 La calculatrice est autorisée. Le sujet comporte u total de 5 exercices. Les élèves e suivat pas l eseigemet de spécialité traiterot les

Plus en détail

SESSION DE 2004 CA/PLP

SESSION DE 2004 CA/PLP SESSION DE 4 CA/PLP CONCOURS EXTERNE Sectio : MATHÉMATIQUES SCIENCES PHYSIQUES COMPOSITION DE MATHÉMATIQUES Durée : 4 heures L usage des calculatrices de poche est autorisø (coformømet au directives de

Plus en détail

I. Quitte ou double. Pour n = 1 : C 0 + (2p 1) E (M k ) = C 0 + (2p 1) E (M 1 ) = E (C 1 ) d après le 1. Soit n N tel que E (C n ) = C 0 + (2p 1)

I. Quitte ou double. Pour n = 1 : C 0 + (2p 1) E (M k ) = C 0 + (2p 1) E (M 1 ) = E (C 1 ) d après le 1. Soit n N tel que E (C n ) = C 0 + (2p 1) Corrigé ESSEC III 008 par Pierre Veuillez Das certaies situatios paris sportifs, ivestissemets fiaciers..., o est ameé à miser de l arget de faço répétée sur des paris à espérace favorable. O se propose

Plus en détail

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES DEUXIEME PARTIE Deuième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES Chapitre. L assurace de capital différé Chapitre 2. Les opératios de retes Chapitre 3. Les assuraces décès Chapitre 4. Les assuraces

Plus en détail

Lucyna FIRLEJ IUT Mesures Physiques Statistiques C1

Lucyna FIRLEJ IUT Mesures Physiques Statistiques C1 1 Statistique iferetielle. Relatios Iteratioales Lucya Firlej Pl. E.Bataillo, Bat.11, cc.06 34095 Motpellier cedex 5 Frace lucya.firlej@umotpellier.fr S3. Statistics. 30 h d eseigemet: 10 cours, 10 TD,

Plus en détail

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI FEUILLE D EXERCICES 7 - PROBABILITÉS SUR UN UNIVERS FINI Exercice - Lacer de dés O lace deux dés à 6 faces équilibrés. Calculer la probabilité d obteir : u double ; ue somme des deux dés égale à 8 ; ue

Plus en détail

UNE APPROCHE DE LA COMPÉTITIVITÉ DE LA ZONE EURO : LE TAUX DE CHANGE EFFECTIF DE L EURO

UNE APPROCHE DE LA COMPÉTITIVITÉ DE LA ZONE EURO : LE TAUX DE CHANGE EFFECTIF DE L EURO UN APPROCH D LA COMPÉTITIVITÉ D LA ZON URO : L TAU D CHANG FFCTIF D L URO Le taux de chage effectif d ue moaie omial et réel costitue u idicateur privilégié pour apprécier la compétitivité d ue écoomie

Plus en détail

Application du logiciel Excel

Application du logiciel Excel Applicatio du logiciel Ecel Utilisatio du Solver du logiciel Ecel Table de matiers Lacemet du logiciel... Optimisatios... Programmatio liéaire... Problème du trasport... 8 Problème de programmatio quadratique...

Plus en détail

Organisme de recherche et d information sur la logistique et le transport LES PREVISIONS DES CONSOMMATIONS

Organisme de recherche et d information sur la logistique et le transport LES PREVISIONS DES CONSOMMATIONS LES PREVISIONS DES CONSOMMATIONS Les logiciels utilisés pour la gestio des stocks itègret de ombreuses foctios de calcul. L ue des plus importates est l exécutio des prévisios des cosommatios futures d

Plus en détail

SÉRIES STATISTIQUES À DEUX VARIABLES

SÉRIES STATISTIQUES À DEUX VARIABLES 1 ) POSITION DU PROBLÈME - VOCABULAIRE A ) DÉFINITION SÉRIES STATISTIQUES À DEUX VARIABLES O cosidère deux variables statistiques umériques x et y observées sur ue même populatio de idividus. O ote x 1

Plus en détail

Éléments finis de joint mécaniques et éléments finis de joint couplés hydromécanique

Éléments finis de joint mécaniques et éléments finis de joint couplés hydromécanique Titre : Élémets fiis de joit mécaiques et élémets fi[...] Date : 28/10/2014 Pae : 1/10 Élémets fiis de joit mécaiques et élémets fiis de joit couplés hydromécaique Résumé : Cette documetatio porte sur

Plus en détail

Travaux dirigés G33 Dimensionnement 2 séances Enseignant : Anthony Busson.

Travaux dirigés G33 Dimensionnement 2 séances Enseignant : Anthony Busson. Travaux dirigés G33 Dimesioemet 2 séaces Eseigat : Athoy Busso. Exercice 1 : O cosidère u web switch et 3 serveurs web. Le web switch reçoit les requêtes http proveat des cliets et les répartit de maière

Plus en détail

Séries entières. Chap. 09 : cours complet.

Séries entières. Chap. 09 : cours complet. Séries etières Chap 9 : cours complet Rayo de covergece et somme d ue série etière Défiitio : série etière réelle ou complee Théorème : lemme d Abel Théorème : itervalle des valeurs positives où ue série

Plus en détail

Statistique descriptive bidimensionnelle

Statistique descriptive bidimensionnelle 1 Statistique descriptive bidimesioelle Statistique descriptive bidimesioelle Résumé Liaisos etre variables quatitatives (corrélatio et uages de poits), qualitatives (cotigece, mosaïque) et de types différets

Plus en détail

Agrégation externe de mathématiques, session 2008 Épreuve de modélisation, option A : Probabilités et Statistiques

Agrégation externe de mathématiques, session 2008 Épreuve de modélisation, option A : Probabilités et Statistiques Agrégatio extere de mathématiques, sessio 2008 Épreuve de modélisatio, optio (public 2008) Mots clefs : Loi des grads ombres, espace des polyômes, estimatio o-paramétrique Il est rappelé que le jury exige

Plus en détail

Sciences Po Option Mathématiques

Sciences Po Option Mathématiques Scieces Po Optio Mathématiques Epreue 3 Vrai-Fau Questio FAUX La suite ( u ) état géométrique de raiso différete de, o a classiquemet, pour tout etier aturel : où q est la raiso de la suite ( u ) Ici,

Plus en détail

STATISTIQUE : ESTIMATION

STATISTIQUE : ESTIMATION STATISTIQUE : ESTIMATION Préparatio à l Agrégatio Bordeaux Aée 202-203 Jea-Jacques Ruch Table des Matières Chapitre I. Estimatio poctuelle 5. Défiitios 5 2. Critères de comparaiso d estimateurs 6 3. Exemples

Plus en détail

I- Rappel I-1. Types de tirages : Soit un ensemble fini E contenant n éléments. On considère l'épreuve suivante : " tirer p éléments de E ".

I- Rappel I-1. Types de tirages : Soit un ensemble fini E contenant n éléments. On considère l'épreuve suivante :  tirer p éléments de E . Cours de termiales Probabilités sur u esemble fii Mr ABIDI F I- Rappel I- Types de tirages : Soit u esemble fii E coteat élémets O cosidère l'épreuve suivate : " tirer p élémets de E " Type de tirages

Plus en détail

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices Chapitre 1 Déombremet 1.1 Eocés des exercices Exercice 1 L acie système d immatriculatio fraçais était le suivat : chaque plaque avait 4 chiffres, suivis de 2 lettres, puis des 2 uméros du départemet.

Plus en détail

UNIVERSITÉ DE SFAX École Supérieure de Commerce

UNIVERSITÉ DE SFAX École Supérieure de Commerce UNIVERSITÉ DE SFAX École Supérieure de Commerce Aée Uiversitaire 2003 / 2004 Auditoire : Troisième Aée Études Supérieures Commerciales & Scieces Comptables DÉCISIONS FINANCIÈRES Note de cours N 3 Première

Plus en détail

ADMISSION AU COLLEGE UNIVERSITAIRE

ADMISSION AU COLLEGE UNIVERSITAIRE ADMISSION AU COLLEGE UNIVERSITAIRE Samedi mars 204 MATHEMATIQUES durée de l'épreuve : 3h - coefficiet 2 Le sujet est uméroté de à 5. L'aexe est à redre avec la copie. L'exercice Vrai-Faux est oté sur 8,

Plus en détail

FLUCTUATION ET ESTIMATION

FLUCTUATION ET ESTIMATION 1 FLUCTUATION ET ESTIMATION Le mathématicie d'origie russe Jerzy Neyma (1894 ; 1981), ci-cotre, pose les fodemets d'ue approche ouvelle des statistiques. Avec l'aglais Ego Pearso, il développe la théorie

Plus en détail

Cours de méthodes de simulation

Cours de méthodes de simulation ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION ( ESSAIT) Cours de méthodes de simulatio Préparé par Hasse MATHLOUTHI Aée uiversitaire 2014-2015 AVANT PROPOS Ce documet propose u cours sur

Plus en détail

ASSOCIATION POUR LA CERTIFICATION DES MATERIAUX ISOLANTS

ASSOCIATION POUR LA CERTIFICATION DES MATERIAUX ISOLANTS Idice de Révisio Date de mise e applicatio B 01/09/2014 Cahier Techique 1 ASSOCIATION POUR LA CERTIFICATION DES MATERIAUX ISOLANTS 4, aveue du Recteur-Poicarré, 75782 Paris Cedex 16 Tel. 33.(0)1.64.68.84.97

Plus en détail

Exercices - Variables aléatoires discrètes : corrigé. Variables discrètes finies - Exercices pratiques

Exercices - Variables aléatoires discrètes : corrigé. Variables discrètes finies - Exercices pratiques Variables discrètes fiies - Exercices pratiques Exercice - Loi d u dé truqué - L2/ECS -. X pred ses valeurs das {,..., 6}. Par hypothèse, il existe u réel a tel que P (X k) ka. Maiteat, puisque P X est

Plus en détail

STATISTIQUE : TESTS D HYPOTHESES

STATISTIQUE : TESTS D HYPOTHESES STATISTIQUE : TESTS D HYPOTHESES Préparatio à l Agrégatio Bordeaux Aée 203-204 Jea-Jacques Ruch Table des Matières Chapitre I. Gééralités sur les tests 5. Itroductio 5 2. Pricipe des tests 6 2.a. Méthodologie

Plus en détail

Questions Chapitre 2 L approche statistique de la réalité 1

Questions Chapitre 2 L approche statistique de la réalité 1 Questios Chapitre 2 L approche statistique de la réalité 1 Expliquer la otio de variable et défiir les différets types de variables Décrire les échelles de classificatio et trasformer les doées pour passer

Plus en détail

Loi binomiale. Niveau : Première S + SUP (Convergence) Prérequis : Variable aléatoire, espérance, variance, théorème limite central, loi de Poisson

Loi binomiale. Niveau : Première S + SUP (Convergence) Prérequis : Variable aléatoire, espérance, variance, théorème limite central, loi de Poisson 4 L E Ç O N Loi biomiale Niveau : Première S + SUP (Covergece) Prérequis : Variable aléatoire, espérace, variace, théorème limite cetral, loi de Poisso 1 Loi de Beroulli Défiitio 41 Loi de Beroulli Soit

Plus en détail

Devoir de statistiques: CORRIGE

Devoir de statistiques: CORRIGE CPP - la prépa des INP ( ème aée). Bordeaux, 6/04/04. Devoir de statistiques: CORRIGE durée h Doées: O rappelle que si Z suit ue loi N (0, ), o a P(Z.96) 0, 975 et P(Z.65) 0, 95. Exercice. θ et O cosidère

Plus en détail

Estimation par vraisemblance

Estimation par vraisemblance Chapitre 4 Estimatio par vraisemblace Le procédé de costructio des estimateurs par isertio a été itroduit das le chapitre 2. L objectif de ce chapitre est d étudier ue autre méthode de costructio, basée

Plus en détail

École de technologie supérieure

École de technologie supérieure École de techologie supérieure Mat 165-04 Algèbre liéaire et aalyse vectorielle A-015 Michel Beaudi michel.beaudi@etsmtl.ca Liste d exercices à faire e T.P./Caledrier des évaluatios Itroductio au cours

Plus en détail

Inégalités souvent rencontrées

Inégalités souvent rencontrées Iégalités souvet recotrées Recotres Putam 004 Uiversité de Sherbrooke Jea-Philippe Mori Théorie Certaies iégalités sot deveues célèbres e raiso de leur grade utilité Elles sot aussi souvet au coeur de

Plus en détail

Comportement d'une suite

Comportement d'une suite Comportemet d'ue suite I) Approche de "ses de variatio et de ite d'ue suite" : 7 Soit la suite ( ) telle que = 5 ( + ) 2 Représetos graphiquemet la suite das u pla mui d' u repère. Il suffit de placer

Plus en détail

EXERCICES : DÉNOMBREMENT

EXERCICES : DÉNOMBREMENT Chapitre 7 ECE 1 - Grad Nouméa - 015 EXERCICES : DÉNOMBREMENT LISTES / ARRANGEMENTS Exercice 1 : Le code ativol Pour so vélo, Toto possède u ativol a code. Le code est ue successio de trois chiffres compris

Plus en détail

sont égales, alors le produit des «extrêmes» a d est égal au produit des «moyens» c d ; et réciproquement ; la preuve est ici 1.

sont égales, alors le produit des «extrêmes» a d est égal au produit des «moyens» c d ; et réciproquement ; la preuve est ici 1. Cours 5 Idépedace 1 Das le cours précédet, ous avos vu que la variable Y était idépedate de la variable X si ses distributios coditioelles e fréquece sot égales ; das ce cas e effet, la mesure de X sur

Plus en détail

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4 UNVERSTE MONTESQUEU BORDEAUX V Licece 3 ère aée Ecoomie - Gestio Aée uiversitaire 2006-2007 Semestre 2 Prévisios Fiacières Travaux Dirigés - Séaces 4 «Les Critères Complémetaires des Choix d vestissemet»

Plus en détail

Chapitre 3 : Transistor bipolaire à jonction

Chapitre 3 : Transistor bipolaire à jonction Chapitre 3 : Trasistor bipolaire à joctio ELEN075 : Electroique Aalogique ELEN075 : Electroique Aalogique / Trasistor bipolaire U aperçu du chapitre 1. Itroductio 2. Trasistor p e mode actif ormal 3. Courats

Plus en détail

Mots de longueur donnée à base de P lettres, et fonction génératrice

Mots de longueur donnée à base de P lettres, et fonction génératrice Mots de logueur doée à base de lettres, et foctio géératrice Cosidéros les mots de logueur à base de lettres, avec etier positif. ) Combie existe-t-il de tels mots? La première lettre du mot est l ue des

Plus en détail

Tests. Chapitre 2. 1 Principe d un test Définitions Méthode générale... 3

Tests. Chapitre 2. 1 Principe d un test Définitions Méthode générale... 3 Tests Chapitre Table des matières 1 Pricipe d u test 1 11 Défiitios 1 Méthode géérale 3 Test de coformité à u paramètre 3 1 Test de coformité à ue moyee 3 Test de coformité à ue proportio 4 3 Test d homogééité

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Logique, esembles et applicatios Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I :

Plus en détail

On peut représenter la situation par un arbre : On a donc p(b 1 B 2)= p(b 1) p (B ) = 3 4 = 3.

On peut représenter la situation par un arbre : On a donc p(b 1 B 2)= p(b 1) p (B ) = 3 4 = 3. T ale S Correctio Exercices type bac de Probabilités. Mars Exercice : Ue ure cotiet au départ 0 boules blaches et 0 boules oires idiscerables au toucher. O tire au hasard ue boule de l ure : Si la boule

Plus en détail

Les Nombres Parfaits.

Les Nombres Parfaits. Les Nombres Parfaits. Agathe CAGE, Matthieu CABAUSSEL, David LABROUSSE (2 de Lycée MONTAIGNE BORDEAUX) et Alexadre DEVERT, Pierre Damie DESSARPS (TS Lycée SUD MEDOC LETAILLAN MEDOC) La première partie

Plus en détail

Correction HEC III 2007

Correction HEC III 2007 HEC III 7 Voie Écoomique Correctio Page Correctio HEC III 7 Voie écoomique La correctio comporte 9 pages. Eercice. Par dé itio est ue valeur propre de t si et seulemet si est ue valeur propre de T: Et

Plus en détail

Correction des exercices sur la nature ondulatoire de la lumière

Correction des exercices sur la nature ondulatoire de la lumière CORRECTION EXERCICES TS /5 CHAPITRE 3 Correctio des exercices sur la ature odulatoire de la lumière Correctio exercice : idice d u verre et réfractio. La radiatio = 530 m est verte et la radiatio = 680

Plus en détail

Corrigés TD Chapitre 2 : Variables aléatoires sur un univers fini 0 0 0 1/6 0 0 1 0 1/4 0 1/4 0 4 1/6 0 0 0 1/6

Corrigés TD Chapitre 2 : Variables aléatoires sur un univers fini 0 0 0 1/6 0 0 1 0 1/4 0 1/4 0 4 1/6 0 0 0 1/6 Corrigés TD Chapitre : Variables aléatoires sur u uivers fii Exercice : Soit X la VAR défiie par le tableau suivat : x i - - 0 p 6 4 6 4 6 i O ote Y = X ) Détermier la loi cooite de X et Y ) Détermier

Plus en détail

Modèle de pointage et correction des dérives

Modèle de pointage et correction des dérives Ges de la Lue Observatoire astroomique de Plougastel Tél : 0 98 40 69 73 http://www.gesdelalue.org Modèle de poitage et correctio des dérives 1. Présetatio du problème Le poitage d u astre par u télescope

Plus en détail

trouve jamais dans les concepts généraux que ce qu on y met

trouve jamais dans les concepts généraux que ce qu on y met ,QIRUPDWLTXHQRUPHHWWHPSV,VDEHOOH%R\GHQV Présetatio par Marie-Ae Chabi Réuio PIN 15 javier 2004 /HVEDVHVGHGRQQpHVHPSLULTXHV Collectio fiie et structurée de doées codifiées, textuelles ou multimédia, destiées

Plus en détail

Baccalauréat S Nouvelle-Calédonie 7 mars 2014

Baccalauréat S Nouvelle-Calédonie 7 mars 2014 Durée : 4 heures Baccalauréat S Nouvelle-Calédoie 7 mars 2014 A. P. M. E. P. EXERCICE 1 Commu à tous les cadidats 4 poits Cet exercice est u QCM questioaire à choix multiple. Pour chaque questio, ue seule

Plus en détail

Informatique TP2 : Calcul numérique d une intégrale CPP 1A

Informatique TP2 : Calcul numérique d une intégrale CPP 1A Iformatique TP : Calcul umérique d ue itégrale CPP 1A Romai Casati, Wafa Johal, Frederic Deveray, Matthieu Moy Avril - jui 014 1 Zéro de foctio O doe le code suivat (vu e cours), qui permet de calculer

Plus en détail

Séquence 9. Sommaire. 1. Pré-requis 2. Intervalles de fluctuation 3. Estimation 4. Synthèse de la séquence 5. Exercices de synthèse

Séquence 9. Sommaire. 1. Pré-requis 2. Intervalles de fluctuation 3. Estimation 4. Synthèse de la séquence 5. Exercices de synthèse Séquece 9 Itervalles de fluctuatio, estimatio Objectifs de la séquece Das le chapitre 2, o étudie des itervalles de fluctuatio des variables aléatoires X F =, fréqueces des variables aléatoires biomiales

Plus en détail

1 Mesure et intégrale

1 Mesure et intégrale 1 Mesure et itégrale 1.1 Tribu boréliee et foctios mesurables Soit =[a, b] u itervalle (le cas où b = ou a = est pas exclu) et F ue famille de sous-esembles de. OditqueF est ue tribu sur si les coditios

Plus en détail

Chapitre 3 Détermination de la taille de l'échantillon

Chapitre 3 Détermination de la taille de l'échantillon Chapitre 3 Détermiatio de la taille de l'échatillo Lorsqu o prélève u échatillo pour estimer u paramètre, o court toujours le risque de découvrir u peu trop tard que l'échatillo prélevé est trop petit

Plus en détail

1 Introduction. 2 Probabilités : Variables Aléatoires Continues. 3 Estimation. 4 Tests. 5 Régression

1 Introduction. 2 Probabilités : Variables Aléatoires Continues. 3 Estimation. 4 Tests. 5 Régression Pla du cours Méthodes de statistique iféretielle. A. Philippe Laboratoire de mathématiques Jea Leray Uiversité de Nates Ae.Philippe@uiv-ates.fr 1 Itroductio 2 Probabilités : Variables Aléatoires Cotiues

Plus en détail

Chapitre 9 La loi binomiale

Chapitre 9 La loi binomiale A) Variables aléatoires 1) Défiitio Chapitre 9 La loi biomiale O appelle variable aléatoire X ue foctio qui associe à tout résultat (évéemet élémetaire) u ombre réel. Pour ue même expériece aléatoire,

Plus en détail

x 0 h a (x) ln (2 a ) h a 2 a Justifier, par le calcul, le signe de h' a (x) pour x appartenant à ] 0 ; + [. b. Rappeler la limite de ln x x

x 0 h a (x) ln (2 a ) h a 2 a Justifier, par le calcul, le signe de h' a (x) pour x appartenant à ] 0 ; + [. b. Rappeler la limite de ln x x EXERCICE (6 poits) Commu à tous les cadidats Soit f la foctio défiie sur l itervalle ] ; + [ par f () = l Pour tout réel a strictemet positif, o défiit sur ] ; + [ la foctio g a par g a () = a O ote C

Plus en détail

La Méthode de Monte Carlo

La Méthode de Monte Carlo La Méthode de Mote Carlo Etiee Pardoux UMR 6632 Laboratoire d Aalyse, Topologie, Probabilités et EA 3781 Evolutio Biologique Uiversité de Provece Etiee Pardoux (LATP) Marseille, 13/09/2006 1 / 33 Cotets

Plus en détail

Chap. 5 : Les intérêts (Les calculs financiers)

Chap. 5 : Les intérêts (Les calculs financiers) Chap. 5 : Les itérêts (Les calculs fiaciers) Das u cotrat de prêt, le prêteur met à la dispositio de l empruteur, à u taux d itérêt doé, ue somme d arget (le capital) qu il devra rembourser à ue certaie

Plus en détail

Séquence 8. Suites arithmétiques et géométriques. Sommaire

Séquence 8. Suites arithmétiques et géométriques. Sommaire Séquece 8 Suites arithmétiques et géométriques Sommaire Pré-requis Suites arithmétiques Suites géométriques Sythèse du cours Exercices d approfodissemet Séquece 8 MA Ced - Académie e lige Pré-requis A

Plus en détail

Mathématiques. Terminale S Corrigés des exercices. Rédaction : Laurent Beroul Isabelle Tenaud Sébastien Cario. Coordination : Sébastien Cario

Mathématiques. Terminale S Corrigés des exercices. Rédaction : Laurent Beroul Isabelle Tenaud Sébastien Cario. Coordination : Sébastien Cario Mathématiques Termiale S Corrigés des eercices Rédactio : Lauret Beroul Isabelle Teaud Sébastie Cario Coordiatio : Sébastie Cario Ce cours est la propriété du Ced Les images et tetes itégrés à ce cours

Plus en détail

10ème cours Une variable numérique : indices de localisation

10ème cours Une variable numérique : indices de localisation 10ème cours Ue variable umérique : idices de localisatio Das ce cours, o fait u rappel sur les idices de localisatio, médiae, quatiles et moyee, et o étudie la faço de les utiliser pour comparer les distributios

Plus en détail

Estimation. Exemple Les statistiques des notes obtenues en mathématiques au BTS OL en France pour l année 2014 sont :

Estimation. Exemple Les statistiques des notes obtenues en mathématiques au BTS OL en France pour l année 2014 sont : Estimatio Objectifs Estimer poctuellemet ue proportio, ue moyee ou u écart type d ue populatio à l aide de la calculatrice ou d u logiciel, à partir d u échatillo Détermier u itervalle de cofiace à u iveau

Plus en détail

Été 2007 l Numéro 1. Division des enquêtes spéciales. Un mot de la rédactrice... 2. ELNEJ disponible en ligne!... 2. Coup d oeil sur les cycles

Été 2007 l Numéro 1. Division des enquêtes spéciales. Un mot de la rédactrice... 2. ELNEJ disponible en ligne!... 2. Coup d oeil sur les cycles Été 2007 l Numéro 1 Divisio des equêtes spéciales U mot de la rédactrice... 2 ELNEJ dispoible e lige!... 2 Coup d oeil sur les cycles.. Cycle 6...3.. Cycle 7...3.. Cycle 8... 3 Faits saillats.. La dispositio

Plus en détail

Méthodes basiques en statistiques sous R

Méthodes basiques en statistiques sous R Méthodes basiques e statistiques sous R Master II Modélisatio Aléatoire - Paris VII Eseigat : Mme Picard Sébastie Le Berre 12 mai 2011 R est u logiciel de calcul largemet utilisé par la commuauté scietifique

Plus en détail

Problème I- Acide éthanoïque (ph et conductimétrie) Enoncé

Problème I- Acide éthanoïque (ph et conductimétrie) Enoncé - Acide éthaoïque (ph et coductimétrie) Eocé 1- L acide éthaoïque (H 3 OOH) est u oxydat e solutio aqueuse das le couple H 3 OOH/H 3 H OH (acide éthaoïque/éthaol). Écrire la demi-équatio d oxydoréductio

Plus en détail

Ce type de compresseur est aussi appelée compresseur volumetrique.

Ce type de compresseur est aussi appelée compresseur volumetrique. Chapitre 4 Compresseurs Buts 1. Savoir que das ce cas if faut se redre compte qu il y a des effets thermique 2. Savoir qu il y a ue limite á l augmetatio de la pressio de gaz 3. Savoir quelles istabilités

Plus en détail

Application «Calculs» Application «Graphiques» Application «Tableur et listes» FR

Application «Calculs» Application «Graphiques» Application «Tableur et listes» FR TI Nspire Documet de Formatio T3 Walloie TI-Nspire Le tout e u des mathématiques Suites umériques La loi de Verhulst Applicatio «Calculs» Applicatio «Graphiques» Applicatio «Tableur et listes» FR Formatios

Plus en détail

PERFORMANCE CONTACT vous présente son LOGICIEL de PRISE de RENDEZ-VOUS

PERFORMANCE CONTACT vous présente son LOGICIEL de PRISE de RENDEZ-VOUS PERFORMANCE CONTACT vous présete so LOGICIEL de PRISE de RENDEZ-VOUS OBTENEZ sas effort LES RENDEZ-VOUS que vous SOUHAITEZ SIMPLICITÉ ET EFFICACITÉ Spécialisée das la prise de redez-vous depuis de ombreuses

Plus en détail

Université de Provence 2011 2012. Planche 6. Nombres réels. Suites réelles. Nombres réels.

Université de Provence 2011 2012. Planche 6. Nombres réels. Suites réelles. Nombres réels. Uiversité de Provece 011 01 Mathématiques Géérales I Plache 6 Nombres réels Suites réelles Nombres réels Exercice 1 Mettre sous forme irréductible p/q les ratioels suivats (les chiffres souligés se répètet

Plus en détail

Notions de base pour l analyse d un tableau de contingence

Notions de base pour l analyse d un tableau de contingence Uiversité de Bordeaux - Master MIMSE - 2ème aée Notios de base pour l aalyse d u tableau de cotigece Marie Chavet http://wwwmathu-bordeauxfr/ machave/ 204-205 Notatios et défiitios U tableau de cotigece

Plus en détail

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1 Premières propriétés des ombres réels 2 Suites umériques 3 Suites mootoes : à faire 4 Séries umériques 4. Notio de série. Défiitio 4.. Soit (u ) ue suite de ombres réels ou complexes. Pour N N, o ote S

Plus en détail

1/ ETUDE ASYMPTOTIQUE D'UNE MARCHE ALEATOIRE ENTRE DEUX ETATS

1/ ETUDE ASYMPTOTIQUE D'UNE MARCHE ALEATOIRE ENTRE DEUX ETATS CHAPITRE 4 MATRICES ET SUITES 1/ ETUDE ASYMPTOTIQUE D'UNE MARCHE ALEATOIRE ENTRE DEUX ETATS 11/ Présetatio et modélisatio O cosidère u système ui peut se trouver soit das u état A, soit das u état, et

Plus en détail

PROBABILITÉS. A cette expérience aléatoire, on associe l ensemble des résultats possibles appelé univers. Ses éléments sont appelés éventualités.

PROBABILITÉS. A cette expérience aléatoire, on associe l ensemble des résultats possibles appelé univers. Ses éléments sont appelés éventualités. PROBABILITÉS I. PROBABILITÉS ( RAPPELS) a. Expérieces aléatoires et modèles Le lacer d ue pièce de moaie, le lacer d u dé sot des expérieces aléatoires, car avat de les effectuer, o e peut pas prévoir

Plus en détail

Séquence 9. Lois normales, intervalle de fluctuation, estimation. Sommaire

Séquence 9. Lois normales, intervalle de fluctuation, estimation. Sommaire Séquece 9 Lois ormales, itervalle de fluctuatio, estimatio Sommaire 1. Prérequis. Lois ormales 3. Itervalles de fluctuatio 4. Estimatio 5. Sythèse de la séquece Séquece 9 MA0 1 Ced - Académie e lige Das

Plus en détail