DESS ID JUIN Tinseaux Benoit

Transcription

1 DESS ID JUIN 2004 Tinseaux Benoit

2 Concept Données Data «Ce qui est donné, connu, déterminé à l avance dans l énoncé d un problème, et qui sert à découvrir ce qui est inconnu» «Ce qui est admis, connu ou reconnu et qui sert de base à un raisonnement, de point de départ pour une recherche, une étude» Source : Le Petit Robert Le concept de datamining est né de la nécessité de rechercher dans des bases de données toujours plus importante, des informations pertinentes mais aussi non triviales. Le datamining n est ni une technologie, ni un outil informatique, il s agit véritablement d un concept. L émergence de l informatique au sein des entreprises ainsi que la chute du prix des modules de stockage ont convaincu les sociétés de se constituer des bases de données clientes. Ces bases de données se révèlent être de véritables mines d or pour peu qu on sache les exploiter convenablement, c est de ce besoin qu est né le concept de datamining. Présentation Introduction Le datamining ou «fouille de données» est une étape de l ECD (Extraction de Connaissances à partir de données) ou KDD (Knowledge Discovery in Databases), l ECD est un processus qui inclut des étapes préalables à la fouille elle même : - Accès aux données, souvent disséminées dans plusieurs bases de données, - Nettoyage pour corriger les erreurs, les doublons, - Mise en forme et codage des données souvent diverses : numériques, symboliques, images, textes, sons, - Sélection, ou construction, d attributs (variables) et d instances. L ECD inclut aussi des étapes ultérieures de valorisation et de communication des résultats, telles que la visualisation. La fouille elle même (le datamining) opère sur des tableaux bi-dimensionnels ad hoc, souvent appelés datamarts.

3 Le datamining est un sujet qui dépasse aujourd hui le cercle restreint de la communauté scientifique pour susciter un vif intérêt dans le monde des affaires. Plusieurs définitions du datamining sont désormais employées : - «L extraction d informations originales, auparavant inconnues, potentiellement utiles à partir de données» - «La découverte de nouvelles corrélations, tendances et modèles par le tamisage d un large volume de données» - «Un processus d aide à la décision où les utilisateurs cherchent des modèles d interprétation dans les données» - ou bien encore des choses plus poétiques mais poins explicites du style «torturer l information disponible jusqu à ce qu elle avoue» Le processus du datamining Plus précisément, le datamining peut se décomposer en 8 étapes : 1. Poser le problème 2. Rechercher des données 3. Sélectionner les données pertinentes 4. Nettoyer des données 5. Transformer les variables 6. Rechercher le modèle 7. Evaluer le résultat 8. Intégrer la connaissance Les principaux algorithmes du datamining On dénombre sept techniques principales dans le domaine du datamining : 1. Apprentissage fondé sur l explication (EBL ou Explanation Based Learning) : Apprentissage formé sur des explications dérivées d une théorie (généralement incomplète) fournie en entrée. Cette forme d apprentissage repose sur des déductions pour expliquer les données à partir de la théorie et sur des arbres de décision pour générer de la nouvelle connaissance. 2. Apprentissage statistique (STL pour Statistical Learning) : Cet apprentissage repose sur des opérations statistiques telles que la classification bayésienne ou la régression pour apprendre à partir de données.

4 3. Apprentissage par réseaux neuronaux (NNL pour Neural Network Learning) : Un réseau de neurones est défini par un ensemble d unités de traitement qui peuvent être des unités soit d entrée, soit de sortie, soit cachées. L apprentissage s effectue par l injection de cas en entrée et par la mesure des conclusions en sortie. 4. Apprentissage algorithme génétique (GAL pour Genetic Algorithm Learning) : Les algorithmes génétiques sont des procédures de recherche fondées sur la dynamique de la génétique biologique. Ils comportent trois opérateurs, la sélection, la combinaison et la mutation, qui sont appliqués à des générations successives d ensemble de données. Les meilleures combinaisons survivent et produisent, par exemple, des plannings, des règles 5. Apprentissage par similarité (SBL pour Similarity Based Learning) : Ces techniques utilisent des indicateurs de similarité pour regrouper des données ou des observations et pour définir des règles. 6. Apprentissage symbolique empirique (SEL pour Symbolic Empirical Learning) : Cette forme d apprentissage extrait des règles symboliques compréhensibles par l utilisateur à partir de données. On retrouve dans cette catégorie les algorithmes ID3/C4.5 et CN2 notamment. 7. Apprentissage par analogie (ANL pour Analogy Learning) : L apprentissage s appuie sur l analogie entre un nouveau cas et des cas ressemblants soumis préalablement. Les domaines d application Voici un liste non exhaustive des applications possibles du datamining par secteur d activités : - Grande distribution et VPC : Analyse des comportements des consommateurs, recherche des similarités des consommateurs en fonction de critères géographiques ou socio-démographiques, prédiction des taux de réponse en marketing direct, vente croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des réapprovisionnements. - Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de médications ou de visites, optimisation des plans d action des visiteurs médicaux pour le lancement de nouvelles molécules, identification des meilleures thérapies pour différentes maladies. - Banques : Modélisation prédictive des clients partants, détermination de pré-autorisations de crédit. - Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche des critères explicatifs du risque ou de la fraude, prévision d appel sur les plates-formes d assurance directe.

5 - Aéronautique, automobile et industries : Contrôle qualité et anticipation des défauts, prévision des ventes, dépouillement d enquêtes de satisfaction. - Transport et voyagistes : Optimisation des tournées, prédiction de carnets de commande, marketing relationnel dans le cadre de programmes de fidélité. - Télécommunications, eau, énergie : Simulation de tarifs, détection de formes de consommation frauduleuses, classification des clients selon la forme de l utilisation des services, prévision de ventes. Comme on peut le voir, le datamining peut s appliquer à tous les domaines. Enjeux En préambule, les résultats du datamining doivent, s ils veulent prouver leur rentabilité, être intégrés selon les cas, soit dans l informatique de l entreprise, soit dans ses procédures. Ainsi, après avoir, par exemple, élaboré un modèle prédictif du départ d un client à la concurrence, il faudra soit mettre en place des programmes pour calculer le risque de départ, de chaque client, soit diffuser une procédure pour que les commerciaux appliquent manuellement ces règles et prennent les mesures adaptées. Cela étant posé, les opérations de datamining se soldent généralement par des gains significatifs tant en termes absolus (les gains) qu en termes relatifs (les retours sur investissement). A titre indicatif, il n est pas rare que les premières applications de datamining génèrent plus de 10 fois l investissement qu elles auront nécessité, soit un retour sur investissement de l ordre du mois! Afin d illustrer ce potentiel, voici deux cas concrets : - Une banque veut améliorer son taux de transformation de rendez vous commerciaux en vente de produits financiers : 60 millions de retour pour un investissement de 2 millions, soit une durée de retour sur investissement de l opération de datamining en 12 jours - Une entreprise de vente par correspondance (VPC) cherche à améliorer le taux de rendement sur l envoi de catalogue spécialisé : 1 millions de retour sur un investissement de francs soit une durée de retour sur investissement d environ 30 jours.

6 Comme on peut le voir le datamining permet de générer des gains important avec finalement peu de moyens. De plus, le datamining qui traite sur des grands volumes de données permet de découvrir des pépites impossibles à dénicher par d autres moyens, il est donc devenu un outil indispensable aux entreprises. Du datamining à l analyse de données symboliques Présentation de l analyse de données symboliques L augmentation de la taille des bases de données, la diversité de formats des données ainsi que la précision de celles ci dans tous les domaines d activité sont de véritables gisements dans lesquelles les entreprises ont la possibilité de puiser pour en retirer de la connaissance. Ces connaissances sont disponibles mais ne sont pas toujours évidentes à extraire et à représenter. Résumer ces données grâce à des concepts sous jacents comme des pays, des marques, des catégorie socioprofessionnelles etc ) représente un enjeu très important pour les industrie. En effet, ces concepts, contrairement à des données individuelles, peuvent être décrits par des données plus complexes que celle utilisées dans l analyse de données classique. Ces données sont dites symboliques car elles expriment la variation interne inéluctable des concepts et sont structurées. L analyse de données symbolique est basée sur la vision du monde telle qu il est réellement, ainsi, le monde est constitué d individus (par exemple des produits, ou bien encore des employés ou des clients) et de concepts (par exemple, les concepts correspondant aux individus précédents pourraient être des catégorie de produit (boissons gazeuses, eau minérales plates, ), des statuts d employés (cadres, techniciens, ouvriers, ) ou bien encore des localisations géographiques des clients (pays, département, ). "L'extension" d'un concept est l'ensemble des individus qui satisfont ses propriétés caractéristiques appelées "intention". Par exemple, l extension du concept «eau minérale plate» décrit l ensemble des individus possédant les caractéristiques du concept (un certain taux de minéraux, pas de nitrates, pas de bulles, ). Tous les individus possèdent un certain nombre d attributs qui les décrivent, par exemple, dans le cas de personnes, la taille, le poids, le sexe, la catégorie socioprofessionnelle etc Une description est constituée d'un ou plusieurs produits cartésiens exprimant ces propriétés par leur domaine de variation pour l'individu considéré. Une classe d'individus est modélisée dans l'espace des descriptions à l'aide d'un opérateur utilisant les descriptions des individus qui la constituent (l'intervalle de variation ou l'histogramme de leur âge, de leur taille, etc.). Chaque individu est considéré comme un cas particulier de classe d'individus et donc aussi bien les classes que les individus peuvent être modélisés dans le même espace de description. Les concepts sont modélisés dans un espace dit des "objets symboliques". Ainsi, chaque concept est modélisé par "un objet symbolique" qui représente son intention et se définit par un triplet: la "description" d'une classe d'individus appartenant à l'extension du concept, un "opérateur de comparaison" entre deux descriptions, une "fonction de reconnaissance". Comme les concepts, les objets symboliques ont une extension qui se calcule à l'aide de leur fonction de reconnaissance.

7 Le premier grand principe de l'ads consiste à analyser un ensemble d'individus tout en prenant en compte la statistique propre, les données répétées, la variation interne de chacun d'entre eux, considéré d'abord comme un cas unique. Ainsi, quand cette variation n'est pas prise en compte on se trouve dans le cas de l'analyse des Données (AD) classique. Il en résulte, que toute méthode d'ads doit avoir comme cas particulier une méthode d'ad classique. Le second grand principe qui dérive naturellement du premier est que les résultats obtenus doivent eux-mêmes s'interpréter en termes de données symboliques ou d'objets symboliques, autrement dit, dans des termes plus riches que ceux utilisés en AD classique mais aussi intelligibles par l'expert puisque ce sont ceux qu'il a utilisé en entrée. Le premier principe conduit à utiliser en entrée d'une ADS la définition de données dites "symboliques" (i.e. "non purement numériques") qui prennent en compte la variation interne aux individus et leur complexité. Ainsi, un "tableau de données symboliques" autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies. On peut montrer que de telles données ne sont pas réductibles, sans perte d'informations, à des données standard. Plusieurs grandes sources d'unités statistiques (i.e. "individus de second ordre") munies de variation interne sont évoquées comme les bases de données, les données stochastiques, les séries chronologiques, les données confidentielles. En sortie d'une ADS on peut obtenir des objets symboliques. On les définit, on introduit les trois opérateurs de généralisation, de comparaison et d'agrégation qui permettent de les construire. Apports de l analyse de données symboliques L analyse de données symboliques est intéressante à plus d un titre : - Les objets symboliques permettent la description d objets plus complexes que la structure standard de tableau de données, et d y ajouter de la connaissance a priori sur les données (par exemple en définissant des hiérarchies sur les domaines de valeurs des caractéristiques décrites). - La structure proposée n est pas trop complexe, et permet d étendre sans problème les méthodes standard d analyse statistique des données. - Les objets symboliques constituent en eux mêmes des résumés d un tableau de données, puisqu ils décrivent des groupes d individus au lieu d individus élémentaires. Le logiciel d analyse de données symboliques SODAS Présentation générale

8 La méthodologie proposée est basée sur les principes suivants : Chaque objet symbolique permettant de décrire un groupe d individus, hypothèse est faite que la base de données contient à la fois la description des individus élémentaires, leur appartenance aux groupes définissant les objets symboliques, ainsi que les connaissances a priori sur les données (hiérarchies sur les domaines des attributs). La présence d un schéma conceptuel (par exemple en entité-relation) aurait grandement facilité la spécification de l extraction des objets symboliques à partir d une base de données relationnelle. Cependant, ce schéma conceptuel n étant que rarement disponible (et les outils de rétro-engineering étant lourds à mettre en œuvre), le choix s est porté sur la spécification de requêtes type, associées à une sémantique particulière, que l utilisateur doit écrire en fonction de sa connaissance du schéma relationnel de la base de données. Un exemple de requête type est la requête où la première colonne représente l identifiant des individus, la seconde l identifiant des groupes, et les autres colonnes représentent des caractéristiques des individus. Ainsi, la spécification de la sémantique des données est reportée sur les connaissances de l utilisateur. Exemples d objets symboliques générés à partir de cette base de données

9 Une fois les différentes requêtes spécifiées par l utilisateur, des fonctions de généralisation sont appliquées pour construire les descriptions des groupes d individus à partir des descriptions des individus extraits de la base de donnée. Les objets symboliques générés par généralisation sont ensuite simplifiés en éliminant les individus atypiques qui conduisent à des descriptions peu interprétables. Cette méthodologie a été mise en oeuvre sous la forme d un module (DB2SO) du logiciel SODAS, qui s est avéré essentiel. Une attention particulière a été portée aux performances de ce module en terme de temps de réponse. En particulier, les objets symboliques peuvent être construits à partir d un échantillon des individus extraits de la base au lieu de l ensemble des individus, si la taille du résultat de la requête est importante. Ces travaux contribuent à valoriser les informations stockées dans les bases de données relationnelles pour les raisons suivantes : Les objets symboliques construits constituent des résumés des bases de données, en supprimant les informations individuelles qui sont souvent sensibles et difficiles à diffuser. Ils sont donc des objets de diffusion de la connaissance contenue dans les systèmes d information des entreprises. Les objets symboliques peuvent être analysés par les méthodes d analyse statistique de données étendues aux objets symboliques dans le projet SODAS. Par leurs capacités de synthèse et de prédiction de comportements, ces méthodes permettent de donner une valeur aux données de l entreprise. Présentation DB2SO DB2SO est le module d importation et de transformation de base de données de SODAS, il est accessible par le menu «SODAS File» -> «Import» -> «Importation (DB2SO)» Vue générale :

10 Dans ce menu, il faut choisir la source de données, pour en créer une nouvelle, il faut continuer en cliquant sur le bouton «Nouveau», s ouvre alors une 2 ème fenêtre dans laquelle il faut choisir le type de base de données que l on souhaite importer dans DB2SO. Dans le cas présent, il s agira d une base Access.

11 Il faut ensuite indiquer le nom dans laquelle la nouvelle base de données sera sauvée, ici elle sera sauvée sous le nom «Tennis1.mdb.dsn»

12

13 Il faut ensuite choisir la base de données à partir de laquelle DB2SO va créer la nouvelle base de données. Il ne reste alors plus qu à faire la requête SQL pour récupérer les données voulues à partir de la base de données, ici on récupérera toutes les données de la table tennis dans la base de données. DB2SO nous donnes alors quelques infos sur les données qu il a importé, ici il a récupéré 50 individus ayant chacun 23 attributs : 9 qualitatifs et 14 quantitatifs.

14 Ajout d une variable à expliquer Pour ajouter une variable à expliquer, il existe une fonction spéciale dans DB2SO appelée «Add Single», cette fonction va permettre de créer une requête SQL et ainsi d importer la variable à expliquer. Analyse d une base de données à l aide de SODAS Présentation de la base de données à étudier Nous allons faire une étude à l aide du logiciel SODAS afin de mieux appréhender le concept d objet symbolique. La base de données étudiée a été constituée entièrement à la main sous access, à partir de site donnant des statistiques sur les joueurs de tennis, les principaux sites utilisés ont été ceux de la fédération internationale de tennis et le site de l ATP. Cette base de données contient des informations sur les 50 premiers joueurs au classement «the race» de décembre On pourra noter que par souci de simplicité pour les requêtes, seul la table «tennis» qui contient toutes informations nécessaires est utilisée dans ce rapport, ainsi que la table pays pour l ajout d une variable «add single» ; de même on pourra remarquer que certains attributs présents dans la table ne sont pas utilisés, ils ont néanmoins servi a nombreux tests même s ils ne sont pas présents dans cette étude. Les requêtes ne sont pas données car elles sont très simples, le choix des variables se faisant principalement au niveau de SODAS lui-même, ce qui permet une plus grande flexibilité dans ce même choix des variables, ainsi que de faire de plus nombreuses analyses sans avoir a recharger une base de données. Utilisation des différentes méthodes présentes dans SODAS SOE La méthode SOE ( Symbolic Object Editor) permet de voir les objets symboliques crées, et cela sous forme de tableau ou bien d étoile, les étoiles permettent notamment de voir et de comparer des répartitions entre différents objet symboliques.

15 Un exemple de tableau, on y voit notamment que les concepts sont les pays et les écarts de quelques variables sur ces différents concepts comme la taille, le poids etc

16

17 Voici quelques exemples d étoiles et qui nous donnent des informations intéressantes : On voit par exemple sur ces 2 étoiles qui nous permettent de comparer le poids, la taille, le nombre de titres, les gains et la surface de prédilection des joueurs Américains faces aux joueurs Espagnols. Il en ressort tout de suite que les joueurs Américains sont globalement plus grands et surtout plus lourds que les Espagnols, le nombre de titres gagnés est a peu près similaire puisqu il va de 0 à 5 chez les Américains et de 0 à 4 chez les Espagnols, de la même manière, les gains sont à peu près similaires. Par contre on voit que chez 100% des Espagnols la surface de prédilection est terre battue alors que les Américains privilégient plutôt les surfaces dites «rapides» que sont l herbe et le dur. On peut donc trouver une corrélation entre la surface de prédilection et le rapport poids/taille : les surfaces rapides sont plutôt destinées aux joueurs puissants que sont les «frappeurs» alors que la terre battue qui est la surface la plus lente privilégie plutôt les joueurs techniques et moins puissants.

18

19 Sur ces étoiles on peu tout de suite faire une comparaison de la taille, du poids, du classement et de l age des joueurs des pays qui ont le plus de joueurs classés dans le top 50. Concernant l age, on voit tout de suite que l Argentine est le pays qui a le plus de jeunes talents, vient ensuite la Russie alors que les américains et les Espagnols sont beaucoup plus âgés, la France est le pays où l âge des joueurs est le plus réparti. Concernant la taille, les russes, les espagnols et surtout les américains sont les plus grands, la France est le pays où les joueurs sont les plus petits. Ensuite, il est intéressant de noter que malgré une répartition de taille assez similaire chez les russes, les espagnols et les américains, les espagnols sont beaucoup plus légers que les américains et les russes. Concernant le classement ATP, bien que la répartition soit à peu près la même partout, on peut noter que seul l Argentine et la France ne possèdent pas de joueur dans le top 10. STAT La méthode STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. C est un composant de SODAS et donc il fonctionne dans SODAS avec les bases de données de SODAS. Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la méthode de travail : - fréquences relatives pour variables multimodales (a) - fréquences relatives pour variables intervalles (b) - capacités et min/max/mean pour variables multimodales probabilistes - biplot pour variables intervalles (d) - objet central.

20 On voit par exemple sur ce graphique que la plupart des joueurs remportent entre 1 et 2 titres, les joueurs remportant plus de 2 titre ne représentent que 22% des joueurs, et seuls 5 % des joueurs ont remportés plus de 4 titres.

21 Concernant la date de professionnalisation des joueurs, on remarque que presque 60% des joueurs classés au top 50 on commencé leur carrière professionnelle entre 1992 et 1996, ce qui veut dire qu ils ont entre 6 et 10 ans de carrière professionnelle, l expérience semble donc être in facteur essentiel de la réussite au tennis. Par contre on voit que au delà de 11 années de carrière, le nombre de joueurs bien classés diminue très fortement, et de la même manière, le nombre de joueurs bien classés ayant moins de 2 ans de carrière est très faible, on peut donc considérer que le tennis est un sport dans lequel l apogée de la carrière se fait au bout de 6 à 10 ans mais que ce succès est très éphémère et ne dure pas plus de 4-5 ans.

22 sur ce biplot on voit que les espagnols sont un peu moins grands mais ont un pourcentage de victoire sur herbe beaucoup plus faible que les anglais, on peut supposer que cela est du au fait la majorité des courts de tennis en Angleterre est en herbe alors qu en Espagne, le climat ne favorise pas ce genre de terrain dont l entretien serait très couteux.

23 DIV La méthode DIv (Divisive Clustering) est une méthode de classification hiérarchique qui effectue des division successives sur tous les objets d une classe. A chaque nœud, les classes sont divisées en 2 nouvelles classes selon qu elles répondent ou on à la «question» du nœud.. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l utilisateur BASE=C:\SODAS\Tmp\BKEU1W01.CMD nind=24 nvar=23 nvarsel=2 METHOD=DIVISIVE CLUSTERING VARIANCE OF THE SELECTED VARIABLES : Taille : Poids : PARTITION IN 2 CLUSTERS : : Cluster 1 (n=14) : "Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "France" "Chili" "Thailande" "Belgique" "Bresil" "Finlande" "Autriche" Cluster 2 (n=10) : "USA" "Rep. Tcheque" "Royaume-Uni" "Pays Bas" "Maroc" "Roumanie" "Equateur" "Afrique du sud" "Bielorussie" "Croatie" Explicated inertia : PARTITION IN 3 CLUSTERS :

24 : Cluster 1 (n=2) : "France" "Autriche" Cluster 2 (n=10) : "USA" "Rep. Tcheque" "Royaume-Uni" "Pays Bas" "Maroc" "Roumanie" "Equateur" "Afrique du sud" "Bielorussie" "Croatie" Cluster 3 (n=12) : "Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "Chili" "Thailande" "Belgique" "Bresil" "Finlande" Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=2) : "France" "Autriche" Cluster 2 (n=5) : "USA" "Royaume-Uni" "Roumanie" "Equateur" "Afrique du sud" Cluster 3 (n=12) : "Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "Chili" "Thailande" "Belgique" "Bresil" "Finlande" Cluster 4 (n=5) :

25 "Rep. Tcheque" "Pays Bas" "Maroc" "Bielorussie" "Croatie" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=2)!! [Poids <= ]!!! Classe 3 (Nd=12)!! [Poids <= ]!! Classe 2 (Ng=5)!!! [Taille <= ]! Classe 4 (Nd=5) Les variables utilisées sont la taille et le poids, on voit que 14 pays ont des joueurs dont le poids moyen est inférieur à 81,25 kilos et parmis ces pays, seuls 2 ont des joueurs dont le poids moyen est inférieur à 71 kilos. Parmis les autres pays (ceux dont les joueurs font plus de 81 kilos) on voit que la moitié de ceux-ci ont des joueurs très grands, dont la taille dépasse 190. Pour cet exemple, peu de partition (4) a été sélectionné, car le fichier résultat devient vite très grand.

26 PCM La méthode PCM (Principal Component Analisys), c est une extension de la méthode d analyse en composante principale classique Dans cette analyse, la variable choisie est le pourcentage de victoire sur terre battue, on y voit tout de suite les disparités entre les différents pays.

27 TREE La méthode TREE est une méthode qui crée un arbre de décision. Dans l exemple qui suit, la «variable class identifier» est la surface de prédilection de chaque pays et les variables prédictives sont la taille et le poids des joueurs. RESULTS BY SYMBOLIC OBJECT ==================================================================================================== No Nom Leaf Class Herbe Terre Moquet Dur criterion No true assig. ( 1) ( 2) ( 3) ( 4) ==================================================================================================== 1 "Australie" (*) "USA" (*) "Russie" (*) "Espagne" "Suisse" "Rep. Tcheque" (*) "Royaume-Uni" "Allemagne" (*) "Argentine" "Suede" "France" (*) "Chili" "Thailande" (*) "Pays Bas" (*) "Maroc" "Belgique" "Roumanie" "Equateur" "Bresil" "Afrique du sud" "Bielorussie" "Finlande" "Croatie" "Autriche" ====================================================================================================

28 ================================== EDITION OF DECISION TREE ================================== PARAMETERS : Learning Set : 24 Number of variables : 3 Max. number of nodes: 15 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down)

29 +---- [ 8 ]Terre Battue ( )!!----4[ Taille <= ]!!! [ 9 ]Terre Battue ( )!!----2[ Poids <= ]!!! [ 5 ]Moquette ( )!!----1[ Age <= ]!! [ 6 ]Dur ( )!!!----3[ Taille <= ]!! [ 56 ]Terre Battue ( )!!!!---28[ Age <= ]!!!!! [ 57 ]Herbe ( )!!!!---14[ Age <= ]!!!!! [ 29 ]Terre Battue ( )!!!----7[ Poids <= ]! [ 15 ]Herbe ( ) Conclusion