Post-élagage Indirect des Arbres de Décision dans le Data Mining

Dimension: px
Commencer à balayer dès la page:

Download "Post-élagage Indirect des Arbres de Décision dans le Data Mining"

Transcription

1 SETIT th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 25-29, 2007 TUNISIA Post-élagage Indirect des Arbres de Décision dans le Data Mining Mansour Mededjel *, Hafida Belbachir ** * Département d Informatique, Faculté des Sciences et Sciences de l Ingénieur, Université Abdelhamid Ibn Badis Mostaganem, Algérie. mededjel_mansour@yahoo.fr ** Département d Informatique, Faculté des Sciences, Université des Sciences et de la Technologie - Mohamed Boudiaf Oran, Algérie. h_belbach@yahoo.fr Résumé : Cet article présente une approche d élagage qui porte sur les règles générées à partir d un arbre de décision. Dans ce contexte, deux approches seront proposées. La première, est une méthode de simplification de règles par le test d indépendance statistique ; et la deuxième, utilise des critères de validation inspirés de la technique de découverte des règles d association. Mots-clés : Arbres de décision, Data mining, Elagage, Règles de décision. INTRODUCTION Les arbres de décision constituent une technique préliminaire puissante de data mining, qui consiste à extraire des connaissances potentielles à partir des données dans un but de description ou de prédiction. Les arbres de décision sont l une des techniques de classification, qui peut être utilisée pour prédire les classes des nouveaux cas. Cependant, un des inconvénients de cette technique, est l utilisation fréquente des variables moins pertinentes pour l étape de construction de l arbre (sur-apprentissage). Ce problème est résolu par l étape d élagage qui consiste à supprimer les sous-arbres superflus ou trop liés aux données, dans le but d améliorer l aspect prédictif de l arbre d une part, et réduire sa complexité d autre part. Plusieurs méthodes d élagage existent dans la littérature, telles que : MCCP (Minimal Cost-Complexity Pruning) de BRIEMAN pour l algorithme CART [BFOS84], cette méthode consiste à construire une suite emboîtée de sous-arbres en utilisant une formulation dite complexité de coût minimale. En fonction du coût de mauvaise classification et la taille de l arbre, on dérive un ordre des arbres de complexité décroissante, commençant de l arbre complet. Cette séquence est récursivement crée en sélectionnant le dernier arbre dans la séquence (initialement, l arbre complet) ; examinant chacun de ses sous-arbres, et sélectionnant celui avec la moindre métrique de complexité de coût et faisant celui-ci le prochain sous-arbre dans la séquence. Le processus s arrête quand le sous-arbre final est juste le nœud racine. Une fois cette séquence est produite, on fait le choix d un arbre optimal en fonction du critère suivant : on calcule l'erreur apparente (estimation de l erreur réelle) de chaque sous-arbre, celui qui minimise cette mesure, est choisi comme modèle final. REP (Reduced Error Pruning) qui consiste à estimer l'erreur réelle d'un sous-arbre donné sur un ensemble d élagage ou de test. Plus algorithmiquement, l élagage se fait comme suit : Tant qu'il existe un arbre que l'on peut remplacer par une feuille sans faire croître l estimation de l'erreur réelle alors élaguer cet arbre. Cette technique donne un arbre légèrement conforme dans le sens où certains exemples seront peut être mal classifiés. PEP (Pessimistic Error Pruning), afin de pallier les inconvénients de la méthode précédente, QUINLAN [Qui87] a proposé une stratégie d élagage qui fait le recours à un seul ensemble de construction et d élagage de l arbre. L arbre est élagué en examinant le taux d erreur à chaque nœud et assumant que le vrai taux d erreur est considérablement pire. Si un nœud donné contient N enregistrements dans lesquels E parmi eux, sont mal classifiés, alors le taux d erreur est estimé à E/N. La préoccupation centrale de l algorithme, est de minimiser cette estimation, en - 1 -

2 considérant ce taux d erreur comme une version très optimiste du taux d erreur réel. [BL04] [Bro05] MEP (Minimum Error Pruning) de NIBLETT et BRATKO [NB87], CVP (Critical Value Pruning) de MINGERS [Min87], et EBP (Error Based Pruning) proposée par QUINLAN comme une amélioration de la méthode PEP, pour l algorithme C4.5 [Qui93]. Toutes ces méthodes diffèrent par leur stratégie d élagage (ascendante ou descendante), échantillon d élagage utilisé (même échantillon utilisé pour la construction, ou un autre), et le type d élagage considéré : pré -élagage (élagage au moment de la construction de l arbre) ou post-élagage (élagage après la construction de l arbre). Les résultats d application de ces méthodes, diffèrent ainsi du point de vue performance de généralisation, et de la taille de l arbre obtenu. Un des problèmes majeur de ces méthodes, est l utilisation des critères qui ne sont pas très significatifs pour la décision d élagage. Quoique le taux d erreur puisse être un critère important pour l évaluation du modèle construit, mais il reste toujours biaisé par la nature et la qualité du modèle obtenu. Dans cet article, nous présentons une approche d élagage qui porte sur les règles générées à partir de l arbre de décision. Dans ce contexte, deux approches seront proposées. La première, est une méthode de simplification de règles par le test d indépendance statistique, qui sera proposée pour modifier le mécanisme d élagage de l algorithme CHAID. Et la deuxième, utilise des critères de validation inspirés de la technique de découverte des règles d association. 1. Règles issues des arbres de décision et élagage Un arbre de décision, une fois construit, peut être converti en un ensemble de règles équivalent, où chaque chemin, du nœud racine au nœud feuille, sera exprimé par une règle, en enregistrant les tests comme antécédents (prémisses), et la classe du nœud feuille comme conséquent (conclusion). Ces règles doivent être par la suite, simplifiées. La conversion d un arbre de décision en un ensemble de règles avant l élagage, a les avantages suivants [Win92]: Elle permet de distinguer parmi les différents contextes, dans quel cas un nœud de décision est utilisé. Puisque chaque chemin produit une règle distincte, la décision d élagage concernant un test peut être prise différemment pour chaque chemin. En revanche, si l arbre celui même est élagué, les deux seuls choix seraient : - enlever le n œud de décision complètement, ou - le maintenir tel qu il est. Elle enlève la distinction entre les tests d attributs qui se produisent près de la racine et les autres, qui se produisent près des feuilles. Elle améliore la lisibilité sans perte d information. Notre approche consiste à transformer l arbre de décision en un ensemble de règles, et d appliquer ensuite l élagage ; on parlera donc de «post-élagage indirect». Nous présentons deux variantes de ce type d élagage : celui basé sur le test d indépendance statistique, et celui basé sur les mesures d association. 2. L élagage basé sur le test d indépendance Ce type d élagage est tiré des travaux de WINSTON [Win92]. L ensemble de règles conçu d une construction maximale d un arbre de décision, est simplifié en éliminant les antécédents des règles (non nécessaires) par le procédé suivant : On construit les tables de contingence, que nous expliciterons par la suite, pour chaque règle composée de plus d un antécédent (des règles avec un seul antécédent, ne peuvent pas être encore simplifiées). On élimine les antécédents qui n ont aucun effet sur la conclusion atteinte par la règle. L indépendance d une conclusion d un antécédent est vérifiée en utilisant un test d indépendance statistique. Nous expliciterons cette étape dans ce qui suit. Une fois que les différentes règles sont simplifiées par élimination des antécédents redondants, on simplifie l ensemble entier par élimination de quelques règles non pertinentes Table de contingence La table de contingence est une représentation tabulaire d une règle (voir tableau 1). C 1 C 2 L 1 x 11 x 12 L 1T = x 11 + x 12 L 2 x 21 x 22 L 2T = x 21 + x 22 C T1 = x 11 + x 21 C T2 = x 12 + x 22 T = x 11 + x 12 + x 21 + x 22 Tableau 1. Table de contingence d une règle L 1 et L 2 représentent les états booléens d un antécédent pour les conclusions C 1 et C 2, (C 1 est la négation de C 2 ). x 11, x 12, x 21 et x 22 représentent les fréquences de chaque paire antécédent-conséquent. L 1T, L 2T, C T1 et C T2 sont les sommes marginales des lignes et des colonnes, respectivement. T est la somme totale de la table, elle est utilisée avec les sommes marginales pour calculer les valeurs prévues des cellules dans la deuxième étape du test d indépendance Test d indépendance Pour vérifier l indépendance d un antécédent d une règle, de sa conclusion, on procède comme suit

3 1. On forme la table de contingence de dimension : l x c (lignes x colonnes) ; 2. On calcule la valeur de Chi² (observé) par la formule suivante : Chi 2 ( x e ) = e i j 2 (1) Où x (1 i l et 1 j c) représente la valeur observée de la cellule dans la table de contingence, et e représente la valeur prévue de la cellule, donnée par : e L. C it Tj = (2) T L it est la somme des colonnes pour la i ème ligne, et C Tj est la somme des lignes pour la j ème colonne. 3. On utilise la table statistique 1 avec les valeurs : Chi²α (théorique) et ddl 2, correspondantes à un niveau de signification α choisi par l utilisateur (qui représente le risque d erreur, par exemple α =25%), pour déterminer si la conclusion est indépendante de l antécédent selon le test suivant : Si Chi 2 > Chi 2 α ; on rejette l hypothèse nulle de l indépendance et on accepte l hypothèse alternative ; on garde l antécédent puisqu il y a une dépendance avec la conclusion. Si Chi 2 Chi 2 α ; on accepte l hypothèse nulle de l indépendance ; on rejette l antécédent puisqu il est indépendant de la conclusion Proposition d application du post-élagage indirect à CHAID Le principe de l algorithme CHAID [Kas80], s appuie sur le mécanisme de pré-élagage qui consiste à arrêter la croissance de l arbre en fixant un critère d arrêt local, basé sur le test d indépendance statistique, dont l hypothèse nulle est l indépendance de la variable de division avec l attribut cible. L un des inconvénients de ce principe de pré-élagage, est d arrêter prématurément la construction de l arbre. Nous proposons de modifier l élagage dans CHAID en appliquant un post-élagage basé sur les règles selon le mécanisme d élagage décrit ci-dessus. Cette solution vise à éviter le risque d un arrêt prématuré de la construction de l arbre (avant que le sur-apprentissage se produise) d un coté, et à exploiter les avantages du post-élagage indirect, d un autre coté. 1 Table de Chi² (ou Khi²) fournie dans les annexes de statistique. 2 ddl (degré de liberté) = (l - 1) x (c - 1) Limites Bien que le test de Chi² (utilisé dans ce mécanisme), donne souvent de bons résultats ; il ne faut pas négliger son aspect statistique, c.-à-d. que la qualité des résultats est influencée par la nature et le volume de données étudiées. Le seul paramètre qui permet à l utilisateur d intervenir, est bien sûr le choix du seuil d erreurα. Ce paramètre peut être un avantage du fait qu il permet d ajuster l algorithme et de le contrôler suivant par exemple, le domaine étudié et les résultats souhaités. Mais d un autre coté, il peut poser un autre problème, du fait qu un mauvais choix de ce paramètre, peut conduire à des résultats inexplicables. Donc la présence d un expert humain est un atout exigé. L approche d élagage basé sur le test d indépendance, souffre ainsi du caractère instable de ce test, lié étroitement à la taille de l ensemble d apprentissage (des expériences faites, nous ont montré qu avec le même seuil d erreur fixé, les règles générées (après l élagage) à partir d un ensemble de données, diffèrent de celles générées à partir du même ensemble multiplié k fois). Une autre limite est l aspect symétrique du test du fait que les mesures d indépendance d une affectation et sa négation, sont égales. Afin de remédier à ces restrictions, une deuxième contribution, tout à fait nouvelle, consiste à appliquer une autre méthode suivant le même principe de post-élagage des règles générées, mais en utilisant des tests différents, basés sur les mesures d association. 3. L élagage basé sur les mesures d association Dans cette section, nous considérons un autre type d élagage basé sur les critères d évaluation utilisés par la technique de découverte de règles d association. Avant d entrer dans les détails, il sera fondamental de donner quelques éclaircissements relatifs à cette technique afin de familiariser le lecteur et l aider à cerner le contexte de cette vue Que sont les règles d association? La principale application de cette technique est «l analyse du panier de la ménagère» qui consiste comme l indique son nom, en la recherche d associations entre les objets. La méthode peut être appliquée à tout secteur d activité pour lequel, il est intéressant de rechercher des groupements potentiels de produits ou de services. Elle utilise un certain nombre d algorithmes, tel que l algorithme APRIORI d AGRAWAL [AS94]. Une règle d association est de la forme «Si A Alors B», où A et B sont des conjonctions d attributs. A est la condition ou la prémisse de la règle, et B est la conclusion. On peut distinguer deux étapes élémentaires pour cette technique : la première consiste en la génération des itemsets fréquents, et la deuxième consiste en la génération de règles d association entre ces itemsets, qui seront par la suite, évaluées et validées. Tout cela étant fait avec une concentration particulière sur un - 3 -

4 certain nombre de mesures. Notre préoccupation principale, est d appliquer ces mesures sur les règles de décision pour évaluer leur pertinence vis -à-vis de l ensemble de données sur lesquelles, elles vont être appliquées. Les règles d association comme les règles de décision, visent à prédire la classe moyennant un ensemble de conditions, appelées aussi itemsets. Cependant la principale différence, est que la prédiction associée à la conclusion de la règle associative, n'est pas limitée à une seule classe d'attribut, mais peut être associée à une ou plusieurs combinaisons d'attributs. Dans ce qui suit, nous présentons les principaux critères utilisés et leurs définitions relatives aux règles associatives. Ensuite, des interprétations relatives aux règles décisionnelles, seront fournies. 3.2 Les mesures d association La pertinence des règles associatives est mesurée sur la base de deux métriques, le «Support» et la «Confiance», définies comme suit [SAJ05] : Le Support : correspond au nombre de fois, où l association A => B est présente, rapporté au nombre de règles contenant A ou B. cette métrique permet de mesurer la fréquence d apparition d une règle. S = fréquence ( condition résultat ) (3) La Confiance : correspond au nombre de fois où l association A => B est présente, rapporté au nombre de présences de A. cette métrique permet de mesurer la force de l association. C = fréquence ( condition résultat fréquence ( condition ) ) (4) Ces deux critères sont considérés conjointement avec des seuils minimaux (minsup et minconf). Mais dans certains cas, ces mesures ne sont plus suffisantes, et ainsi, la confiance n est pas toujours un critère de jugement efficace, il doit être supérieur à la probabilité d avoir le résultat lui-même [Lem04]. Cette condition est vérifiée par le critère de l intérêt suivant. L Intérêt : appelé aussi l amélioration, est un autre critère qui permet de mesurer la notion de dépendance. I = fréquence ( condition résultat ) fréquence ( condition) fréquence ( résultat ) Lorsque la condition est totalement indépendante du résultat, on a : P(condition et résultat) = P(condition) x P(résultat), et donc l amélioration est égale à l unité. (5) Plus la condition et le résultat sont dépendants, plus cette mesure est éloignée de l unité. La Conviction : ce critère permet de résoudre le problème de symétrie de l intérêt : ( I( A B) = I( B A) ). Conv = fréquence ( condition) fréquence ( résultat ) fréquence ( condition résultat ) (6) Mais cette mesure est symétrique à son complément : ( Conv( A B) = Conv( A B) ). La Fiabilité : ce critère a été proposé par K. M. AHMED, N. M. EL-MAKKY et Y. TAHA [AE- MT00], comme solution aux problèmes précédents. Pour une règle d association A =>B, la fiabilité se mesure comme suit : F = Confiance fréquence (résultat ) (7) Cette mesure n a pas l inconvénient de la symétrie, ( F ( A B) F( B A) ). Elle mesure l effet potentiel de l information disponible de A sur la probabilité de rencontrer B. Plus cette différence absolue est grande, plus forte est l association. [Lem04] 3.3. Proposition d application des mesures d association pour le post-élagage indirect Dans cette section, nous allons essayer d interpréter chacun des critères précédents, suivant le contexte de notre cas relatif aux règles décisionnelles. La caractéristique principale et la plus importante est que ces règles soient exhaustives et mutuellement exclusives. Cela signifie que pour tout enregistrement, une et une seule règle s'applique. Ce caractère ne reste plus valable après l élagage, du fait de la suppression partielle ou complète de certaines règles. Et donc, on doit fixer un certain ordre entre les règles élaguées, suivant leurs pertinences, et ainsi définir une classe par défaut pour les exemples non couverts. Les métriques précédentes restent valides sous les contraintes suivantes : Le Support : est calculé de la même façon que pour les règles associatives, mais on remarque que la notion de fréquence n est pas très importante pour les règles décisionnelles, ayant un ensemble fini de valeurs pour cette mesure. Donc, on peut utiliser cette mesure secondairement pour définir l ordonnancement des règles élaguées. La Confiance : cette mesure est dans la plupart des cas unitaires pour la majorité des règles, mais la propriété de supériorité par rapport à la fréquence de résultat, reste valide. Pour cela, on va se baser sur le critère suivant. L Intérêt : est le critère le plus important, puisqu il permet de vérifier la propriété précédente et évaluer l intérêt de la règle. Cette mesure doit être supérieure à 1 (Si I(R) 1, la règle R sera inutile). Ce critère sera utilisé pour définir la notion de priorité selon la propriété suivante : plus la condition et le résultat sont dépendants, plus cette mesure est éloigné de l unité. La Conviction : ce critère ne sera pas pris en considération dans notre cas, puisque toutes les règles générées sont unidirectionnelles. La Fiabilité : ce critère est intéressant car il permet de mesurer la force de l association. Par conséquent, on peut l utiliser avec les autres critères pour la notion de - 4 -

5 priorité selon la propriété suivante : plus la différence absolue entre la confiance et la fréquence de résultat, est grande ; plus forte est l association Algorithme L algorithme d application de cette méthode, est très simple, il s appuie sur le même principe de base de l approche précédente. Une fois un arbre de décision est construit, on procède comme suit : 1. On génère l ensemble de règles de la même manière expliquée dans la section 2 ; 2. Pour chaque règle, on applique les mesures d association, et suivant les résultats obtenus ; une règle est élaguée (supprimée), si la mesure d intérêt associée, est inférieure à 1. sinon pour chaque règle, on applique les mêmes mesures sur chaque item de la condition ; un item est élagué, s il n améliore pas l intérêt de sa règle. 3. Ensuite, en recalculant les mêmes mesures pour les nouvelles règles obtenues après l élagage, on trie ces règles selon les valeurs descendantes en considérant les métriques : Intérêt, Fiabilité, Confiance, et Support, respectivement. Les nouvelles règles seront donc appliquées par priorité associée à cet ordre Exemple Pour bien éclaircir l algorithme défini ci-dessus, on considère l arbre de décision de la figure 1, qui explique le niveau de risque routier en fonction de l âge et du type de véhicule (tableau 2). < 25 Élevé Âge = Sport 25 Type véhicule Sport L arbre de la figure 1, nous permet de générer l ensemble des règles suivant : 1) Si Age < 25 Alors Risque = Elevé 2) Si Age 25 et Type véhicule = Sport Alors Risque = Elevé 3) Si Age 25 et Type véhicule Sport Alors Risque = Faible La deuxième étape consiste à appliquer les mesures d association pour l évaluation de chacune de ces trois règles. Les résultats obtenus sont illustrés dans le tableau 3. On remarque que toutes les règles sont utiles (Intérêt > 1) et donc, aucune règle à supprimer. On passe maintenant à l évaluation des différents items présents dans les conditions de ces règles. Les résultats obtenus, sont présentés dans le tableau 4. Une simple comparaison entre les deux tableaux ci-dessous (tableaux 3 et 4), nous permettra de remarquer que pour la deuxième règle, l item «Type véhicule = Sport» a la même valeur d amélioration que sa règle. Par conséquent, on peut enlever l autre item («Age 25») de cette règle, puisqu il n apporte aucune amélioration. L ensemble de règles devient : 1) Si Age < 25 Alors Risque = Elevé 2) Si Type véhicule = Sport Alors Risque = Elevé 3) Si Age 25 et Type véhicule Sport Alors Risque = Faible Maintenant, pour définir la notion de priorité, on utilise le tableau 5 contenant les nouvelles mesures associées aux règles obtenues après l élagage. En triant ce tableau suivant les valeurs descendantes des mesures prises dans l ordre défini dans la troisième étape de l algorithme, les règles seront considérées dans l ordre suivant : (3), (1) et (2). Ceci signifie que la troisième règle est la plus prioritaire, alors que la deuxième est la moindre. Élevé Faible Figure 1. Arbre de décision «risque routier» Âge Type véhicule Risque 23 familial Élevé 18 sport Élevé 43 sport Élevé 68 familial Faible 32 camion Faible 20 Familial Élevé Tableau 2. Données «risque routier» - 5 -

6 Règle Support Confiance Intérêt Fiabilité (1) (2) (3) Tableau 3. Evaluation des règles Règle Item Support Confiance Intérêt Fiabilité (1) Age< (2) (3) Age Type véhicule = Sport Age Type véhicule Sport Tableau 4. Evaluation des items Règle Support Confiance Intérêt Fiabilité (1) (2) (3) Tableau 5. Evaluation des règles élaguées 4. Conclusion La simplification (ou l élagage) des règles extraites d un arbre de décision, constitue une alternative puissante aux processus d élagage de cet outil. Nous avons cité quelques avantages de cette approche, dont la lisibilité peut être le critère le plus important, puisque la transformation d un arbre de décision en un ensemble de règles, se fait simplement et permet d améliorer son intelligibilité, même pour des non spécialistes. Nous avons présenté deux méthodes d élagage basées sur les règles générées à partir d un arbre de décision. La première méthode s appuie sur le test d indépendance statistique de Chi², qui a été proposée comme une modification du mécanisme d élagage (pré - élagage) de l algorithme CHAID. L application de cette méthode sur des données réelles, a donné des résultats acceptables. Cependant, plusieurs limites ont été détectées. La limite majeure réside dans l instabilité des résultats avec la variation de la taille de données d une part, et la notion de symétrie propre au test, d autre part. L autre ennui était bien sûr le choix du seuil d erreur α requis pour ce type de tes t. La deuxième méthode est proposée comme une alternative de la méthode précédente, elle s appuie sur le même principe mais avec des tests différents inspirés de la technique de règles d association. Cette approche n a pas les limites de la méthode précédente et en plus, elle permet de définir la notion de priorité entre les règles, ce qui permet d appliquer les règles suivant un ordre qui empêche toute confusion résultant de la perte de disjonction de règles, après l élagage. Un autre problème qui persiste, concerne la perte de la notion d exhaustivité associée aux règles de l arbre de décision, cette notion ne reste plus valide après l élagage, ce qui permet d avoir un ensemble de cas non couverts par les règles obtenues. Une solution simple consiste à définir une classe par défaut pour cet ensemble, comme c est le cas pour la plupart des algorithmes d induction de règles. L introduction de ce type d élagage sur les arbres de décision, permet davantage d améliorer leur lisibilité à travers leur conversion en un ensemble de règles équivalent sans perte d information, et l amélioration de leur capacité de traitement des valeurs manquantes : par l élagage de quelques items, il sera possible de classifier facilement des exemples dont les valeurs correspondantes à ces items, étaient absentes. Un autre avantage est la capacité d intégrer facilement ces outils (règles de décision) dans des systèmes de raisonnement ou d interrogation avancés ; la base de règles d un système expert, est un exemple pragmatique. REFERENCES [AS94] R. AGRAWAL et R. SKIRANT (1994). Fast algorithms for mining association rules. In Proceedings of the 20th Int'l Conference on VLDB, pages

7 [AE-MT00] K.M. AHMED, N.M. EL-MAKKY et Y. TAHA (2000). A Note on Beyond Market Baskets: Generalizing Association Rules to Correlations. SIGKDD Explorations, 1, pp [BFOS84] L. BREIMAN, J.H. FRIEDMAN, R.A. OLSHEN, et C.J. STONE (1984). Classification and Regression Trees. Wadsworth, Belmont. [BL04] MICHAEL J.A. BERRY and GORDON LINOFF (2004). Data Mining Techniques for Marketing, Sales, and Customer Relationship Management. Second Edition, Wiley Publishing, Inc. [Bro05] YVES BROSTAUX (2005). Etude du classement par forêts aléatoires d échantillons perturbés à forte structure d interaction. Thèse de doctorat, Faculté Universitaire des Sciences agronomiques de Gembloux - Belgique. [Kas80] G. KASS (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29(2), [Lem04] A. LEMMENS (2004). Le Data Mining comme outil de «customer relationship management» en marketing. Mémoire d ingéniorat, Université libre de Bruxelles. [Min87] J. MINGERS (1987). Experts systems - rule induction with statistical data. Journal of the Operational Research Society, 38(1), [NB87] T. NIBLETT et I. BRATKO (1987). Learning Decision Rules in Noisy Domains. Expert Systems 86, Cambridge University Press. [Qui87] J.R. QUINLAN (1987). Simplifying decision trees. Int. J. Man-Machine Studies, 27, [Qui93] J.R. QUINLAN (1993). C4.5: Programs for Machine Learning. Morgan Kaufman, San Mateo, CA. [SAJ05] Y. SLIMANI, K. AROUR et M. JEMNI (2005). Informatique répartie, Chapitre 8 : Découverte parallèle de règles associatives. Edition : Hermès - Lavoisier, ISBN : [Win92] P. WINSTON (1992). Artificial Intelligence. Addison Wesley

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Arbres de Décision. 1 Introduction

Arbres de Décision. 1 Introduction Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Fast and furious decision tree induction

Fast and furious decision tree induction Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

CURRICULUM VITAE. Informations Personnelles

CURRICULUM VITAE. Informations Personnelles CURRICULUM VITAE Informations Personnelles NOM: BOURAS PRENOM : Zine-Eddine STRUCTURE DE RATTACHEMENT: Département de Mathématiques et d Informatique Ecole Préparatoire aux Sciences et Techniques Annaba

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués International Journal of Engineering Research and Development e-issn: 2278-067X, p-issn: 2278-800X, www.ijerd.com Volume 7, Issue 5 (June 2013), PP.99-103 Solution A La Gestion Des Objets Java Pour Des

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

TP N 57. Déploiement et renouvellement d une constellation de satellites

TP N 57. Déploiement et renouvellement d une constellation de satellites TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004

Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004 Questionnaire d'examen final INF1101 Sigle du cours Nom : Signature : Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004 Professeur(s)

Plus en détail

Les structures de données. Rajae El Ouazzani

Les structures de données. Rajae El Ouazzani Les structures de données Rajae El Ouazzani Les arbres 2 1- Définition de l arborescence Une arborescence est une collection de nœuds reliés entre eux par des arcs. La collection peut être vide, cad l

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Arbres binaires de recherche

Arbres binaires de recherche 1 arbre des comparaisons 2 recherche dichotomique l'arbre est recalculé à chaque recherche 2 5 3 4 7 9 1 6 1 2 3 4 5 6 7 9 10 conserver la structure d'arbre au lieu de la reconstruire arbre binaire de

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1 Exemples de problèmes et d applications INF6953 Exemples de problèmes Sommaire Quelques domaines d application Quelques problèmes réels Allocation de fréquences dans les réseaux radio-mobiles Affectation

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Améliorer la Performance des Fournisseurs

Améliorer la Performance des Fournisseurs Les Solutions SQA de Solumina L Assurance Qualité Fournisseur Figure 1 Influence sur les affaires de nos clients actuels. Réduire des Stocks lors des Inspections Le Système de Contrôle Qualité Fournisseurs

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES) Annexe B : Exemples Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES) Ce document fournit des exemples sur la façon de déterminer

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES CHELGHOUM Nadjim *, ZEITOUNI * Karine * Institut Français de Recherche pour l Exploitation de la Mer (IFREMER) Laboratoire Environnement- Ressources

Plus en détail

EXCEL TUTORIEL 2012/2013

EXCEL TUTORIEL 2012/2013 EXCEL TUTORIEL 2012/2013 Excel est un tableur, c est-à-dire un logiciel de gestion de tableaux. Il permet de réaliser des calculs avec des valeurs numériques, mais aussi avec des dates et des textes. Ainsi

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

Etude Benchmarking 2010 sur les formations existantes apparentées au métier de Business Developer en Innovation

Etude Benchmarking 2010 sur les formations existantes apparentées au métier de Business Developer en Innovation Un programme animé par Systematic et copiloté par Systematic, Opticsvalley et le réseau des Chambres de Commerce et d Industrie Paris-Ile-de-France Etude Benchmarking 2010 sur les formations existantes

Plus en détail

NF26 Data warehouse et Outils Décisionnels Printemps 2010

NF26 Data warehouse et Outils Décisionnels Printemps 2010 NF26 Data warehouse et Outils Décisionnels Printemps 2010 Rapport Modélisation Datamart VU Xuan Truong LAURENS Francis Analyse des données Avant de proposer un modèle dimensionnel, une analyse exhaustive

Plus en détail

Utilisation du backtrack intelligent dans un branch-and-bound Application au problème d Open-Shop

Utilisation du backtrack intelligent dans un branch-and-bound Application au problème d Open-Shop Utilisation du backtrack intelligent dans un branch-and-bound Application au problème d Open-Shop Narendra Jussien et Christelle Guéret École des Mines de Nantes 4 rue Alfred Kastler BP 20722 F-44300 Nantes

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1

Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1 Faculté des Sciences économiques et sociales de l Université de Fribourg Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1 Séminaire présenté auprès de

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK - 65384

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK - 65384 Professeur : Raoul Graf FSA-Université Laval Pavillon Palasis Prince Bureau 2413 Tél. : 418 656 2131 ext. 2688 Courriel : Raoul.Graf@mrk.ulaval.ca HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Système de management H.A.C.C.P.

Système de management H.A.C.C.P. NM 08.0.002 Norme Marocaine 2003 Système de management H.A.C.C.P. Exigences Norme Marocaine homologuée par arrêté du Ministre de l'industrie, du Commerce et des Télécommunications N 386-03 du 21 Février

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

sentée e et soutenue publiquement pour le Doctorat de l Universitl

sentée e et soutenue publiquement pour le Doctorat de l Universitl Du rôle des signaux faibles sur la reconfiguration des processus de la chaîne de valeur de l organisation : l exemple d une centrale d achats de la grande distribution française Thèse présent sentée e

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF 10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

EXCEL PERFECTIONNEMENT CALCULS AVANCES

EXCEL PERFECTIONNEMENT CALCULS AVANCES TABLE DES MATIÈRES FORMATS... 2 Formats personnalisés... 2 ADRESSAGE DE CELLULES... 3 relatif & absolu Rappel... 3 Adressage par nom... 4 Valider avec la touche Entrée... 4 FONCTIONS SI-ET-OU... 6 LA FONCTION

Plus en détail

ARBRES BINAIRES DE RECHERCHE

ARBRES BINAIRES DE RECHERCHE ARBRES BINAIRES DE RECHERCHE Table de symboles Recherche : opération fondamentale données : éléments avec clés Type abstrait d une table de symboles (symbol table) ou dictionnaire Objets : ensembles d

Plus en détail

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source : http://amcubat.be/docpmb/import-de-lecteurs

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source : http://amcubat.be/docpmb/import-de-lecteurs A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Diverses méthodes d import de lecteurs Les données (noms, prénoms, adresses. des lecteurs) proviennent en général du secrétariat, et se trouvent

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

FORMATION À LA GESTION DES ARCHIVES

FORMATION À LA GESTION DES ARCHIVES FORMATION À LA GESTION DES ARCHIVES Conserver des documents numériques CONSERVER DES DOCUMENTS NUMÉRIQUES Conseils pratiques pour la gestion et la conservation de votre information numérique Méthodes de

Plus en détail

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9

Plus en détail