Classification dans des bases de données par des méthodes de datamining

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Classification dans des bases de données par des méthodes de datamining"

Transcription

1 Classification dans des bases de données par des méthodes de datamining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

2 Introduction L utilisation généralisée de l informatique ces dernières dizaines d années a conduit à la constitution d énormes bases de données, les informations étant toujours plus précises, et facilement maintenables. C est dans ce contexte que se sont développées les techniques de fouilles de données, traduction française du terme anglais datamining. Au croisement des statistiques et de l intelligence artificielle, ce terme générique se compose d outils théoriques complexes, puissants, et extrêmement diversifiés ; et au travers d un véritable processus de traitement, il extrait des mégabases de données des informations surprenantes, des associations insoupçonnées, des modèles prédictifs. Appliquée depuis longtemps dans les banques pour prédire les clients à risque, la fouille de donnée s est échappée de ce carcan rigide pour envahir des domaines aussi différents que la grande distribution ou la pharmaceutique. Elle est devenue une des technologies, ou plutôt un des recueils de technologies, qui allie le mieux la recherche de pointe, un fort retour sur investissement, et une grande efficacité dans le domaine de l aide à la décision. Nous commencerons par étudier dans ce document, les trois méthodes les plus utilisées actuellement à savoir les méthodes des arbres de décision, les machines à support de vecteurs et la régression logistique.

3 Présentation théorique des méthodes Les arbres de décision Présentation La méthode des arbres de décision consiste à réaliser la classification d un objet selon un ensemble de classes prédéfinies, en effectuant une suite de tests sur les attributs décrivant cet objet. Il s agit d un apprentissage supervisé puisque les classes sont connues à l avance. Les tests sont organisés de façon à ce que la réponse à l un d eux indique à quel prochain test on doit soumettre l objet. Ils sont donc organisés sous forme d un arbre dont chaque nœud correspond à un test portant sur un ou plusieurs des attributs de l objet, et chaque feuille de cet arbre correspond à une des classes prédéfinies. Cette technique nécessite donc la construction d un arbre de décision, à partir d un ensemble d apprentissage S de m exemples, et d un ensemble de classes prédéfinies Il faut aussi trouver une mesure pour choisir, à chaque pas de test, le meilleur attribut à tester à chaque nœud de l arbre de décision. Ce choix est un critère central pour la technique des arbres de décision, car il faut choisir l attribut qui permet discrimine le mieux les exemples d apprentissage. Quelques mesures utilisées dans les algorithmes d arbres de décision sont décrites dans la section suivante. Construction d un arbre de décision Formalisation du problème Nous disposons d un ensemble d apprentissage S de m exemples ou objets. On note un de ces exemples. Cet exemple ou objet est décrit par d attributs et appartient à une classe Mesures pour la sélection du meilleur attribut La mesure servant à sélectionner le meilleur attribut à tester à un nœud test doit nous permettre de rechercher parmi les différents attributs des objets d un ensemble d apprentissage, celui qui possède la plus grande corrélation avec la répartition en classes. Nous présenterons par la suite trois mesures permettant de choisir le meilleur attribut, il s agit de : L entropie croisée

4 La métrique de Gini Le critère du Le critère de Lerman Construction récursive de l arbre de décision En possession de ces outils, il faut commencer par chercher le meilleur attribut, selon une mesure fixée, afin de construire le nœud test racine de l arbre de décision. Une fois cet attribut identifié, les m objets de l ensemble d apprentissage sont projetés selon les valeurs prises par cet attribut. Cette projection est représentée dans l arbre par les branches partant du nœud test vers les nœuds fils. Le processus est ensuite répété sur chacun des sous ensembles issus de la projection de l étape précédente : un meilleur attribut selon la même mesure que précédemment est recherché parmi les attributs n ayant pas encore servi à faire un test. Le processus s arrête lorsque tous les objets d un sous ensemble issu d une projection appartiennent à une même classe, ou lorsqu un de ces sous ensembles est vide (ce qui signifie qu aucun objet ne prend la valeur de projection de l attribut). D autre part, s il ne reste plus d attribut à tester, le processus s arrête et les objets issus de la projection sont considérés comme appartenant à la classe majoritairement représentée. Elagage d un arbre trop précis L élagage d un arbre de décision consiste à chercher une valeur optimale du nombre de nœuds tests dans l arbre afin de réduire sa complexité. En effet, une application de l algorithme de construction récursive de l arbre de décision jusqu à son terme fabrique un arbre dont les feuilles sont pures dans le meilleur cas, avec un grand nombre de nœuds tests et une faible cardinalité des ensembles d objets constituant ces feuilles. Pour simplifier cet arbre, une technique consiste à construire complètement l arbre de décision puis à l élaguer progressivement en remontant des feuilles vers la racine. On élimine en quelques sortes les tests les moins pertinents pour faire le classement des données, puisque les tests sont effectués à la suite sur les attributs par ordre de pertinence, l élagage des feuilles vers la racine se justifie. Pour arrêter l élagage, on utilise une mesure de qualité qui exprimera l erreur commise après élagage de l arbre de décision et une mesure de sa complexité. Un exemple d une telle mesure sera étudiant dans les sections suivantes. D autre part, certains problèmes inhérents à la construction d arbres de décision se posent: Jusqu à quelle profondeur construire l arbre? Comment gérer les attributs à valeurs continue (pouvant prendre un nombre infini de valeur)? Quelle mesure choisir pour la sélection des attributs? Comment gérer des objets possédant des valeurs nulles pour certains attributs?

5 L algorithme C4.5 L algorithme C4.5 est une extension de l algorithme de construction d arbres de décision de base [2]. Cet algorithme utilise comme mesure de sélection du meilleur attribut, l entropie croisée. Etant donné une classe, et un attribut a, puis et, les ensembles finis des valeurs qu elles peuvent prendre. L entropie croisée de! et a est donné par la formule : Cette formule nous vient de la théorie de l information et peut encore s écrire sous la forme d une différence d entropies : Avec, l entropie de!, et, l entropie de sachant a. C est cette quantité qui est la plus pertinente car elle permet de voir la probabilité conditionnelle par rapport à la valeur de la classe. signifie Probabilité. Dans la pratique, ces probabilités sont estimées par des pourcentages calculés à partir de l ensemble d apprentissage. L algorithme d élagage consiste à construire une séquence d arbres par suppression successive des nœuds tests en remontant des feuilles vers la racine ; on élimine ainsi les tests les moins pertinents pour effectuer la classification. Notons cette séquence. est l arbre constitué d une seule feuille avec tous les objets de l ensemble d apprentissage. Pour passer d un arbre Tk àt k + 1, il faut supprimer un nœud test et fusionner toutes les feuilles filles de ce nœud. Le critère choisi pour supprimer un nœud consiste à choisir le nœud! qui minimise sur l ensemble des nœuds Tk la valeur suivante : Où : est le nombre d objets de l ensemble d apprentissage mal classés par le nœud de dans l arbre élagué à. est le nombre d objets mal classés dans l arbre non élagué. est le nombre de feuille de. est le nombre de feuilles du sous-arbre de situés sous le nœud.

6 On obtiendra donc que la séquence possède un élément qui donne un bon compromis entre la taille de l arbre et la bonne classification des objets de l ensemble d apprentissage.

7 Les Machines à Vecteur de Support (SVM) Présentation L algorithme SVM est une technique d apprentissage permettant de classer un ensemble d éléments dans deux classes distinctes. Cette méthode diffère de celle vue précédemment car elle procède au classement des éléments, non pas en recherchant des attributs discriminants, mais en recherchant un hyperplan séparateur dans l espace de représentation de ces éléments, qui servira de frontière entre ces deux classes. Nous disposons toujours d un ensemble d apprentissage, où chaque exemple ou objet est décrit par d attributs et appartient à une classe. Etant donné que l on utilisera un produit scalaire pour mesurer la similitude entre deux éléments [1], ces éléments seront représentés dans un espace Hilbertien (ceci implique un travail de prétraitement des données qualitatives dont nous reparlerons plus loin). Recherche d un séparateur linéaire Supposons dans un premier temps que l ensemble d apprentissage est séparable, c'est-à-dire qu il existe un hyperplan, séparateur linéaire, permettant de distinguer les exemples positifs des exemples négatifs. La recherche d un tel hyperplan dans un espace Hilbertien de dimension d consiste à trouver une fonction qui correspond à l équation de l hyperplan tel que : De plus, grâce à l hypothèse de séparabilité de l ensemble d apprentissage, nous avons la relation : Notons qu il existe en générale une infinité d hyperplans séparateurs. Le critère d optimalité retenu pour choisir un hyperplan parmi cette infinité est la suivante : On choisi parmi les hyperplans, celle qui maximise la distance minimale aux exemples d apprentissage. Cet hyperplan optimal est défini par :

8 Figure 1: Recherche de l'hyperplan optimal dans un espace à deux dimensions. Il s agit de l hyperplan qui sépare les éléments tout en se donnant la plus grande marge possible afin de toujours pouvoir bien classer les futurs objets soumis à la classification. Au vu de ce critère, certains ouvrages tels que [1] préfèrent le terme de Séparateurs à Vastes Marges à celui de machines à vecteurs de support, qui est la traduction littérale des Support Vector Machines (SVM). Figure 2: Hyperplan optimal maximisant la marge L hyperplan optimal est perpendiculaire au segment de droite le plus court joignant un exemple d apprentissage à cet hyperplan. Ce segment à pour longueur (rappelons que la distance d un point y à un hyperplan d équation est :. Lorsque l on normalise cette distance minimale en prenant, par exemple,. On obtient ainsi une marge qui vaut. Pour maximiser cette marge, il faut donc minimiser.voir [1] et [3]. Les éléments se trouvant sur les bords de la marge sont appelés vecteurs de support. Trouver l hyperplan optimal reviens dons à résoudre le problème d optimisation suivant : On ne peut envisager de résoudre tel quel cette première écriture appelée formulation primale du problème d optimisation, lorsque la dimension de l espace devient grande [1]. Le problème d optimisation est donc résolu en introduisant les multiplicateurs de

9 Lagrange. Nous obtenons ainsi une formulation duale du problème, équivalente à la première, et beaucoup plus simple et rapide à résoudre : L hyperplan solution est donné par: Où les sont solution du problème dual. Remarque : Il est intéressant de constater que, le problème d optimisation primal est constitué d une fonction objective strictement convexe et de contraintes affines, donc convexes. D après la théorie de l optimisation, ce problème admet une solution globale qui se traduit dans notre cas par l unicité de l hyperplan optimal. Ce résultat n a été possible que parce qu au préalable, nous nous sommes intéressés à des séparateurs linéaires. D autres types de séparateurs non linéaires auraient certes pu fournir une bonne séparation des deux classes, mais auraient menés à des problèmes d optimisation beaucoup plus complexes et ne possédant pas forcément une formulation duale traitable en temps raisonnable dans la pratique. Cette unicité est l un des avantages majeurs des SVM. Nous verrons dans les sections suivantes comment trouver des séparateurs linéaires même si il n y en a pas dans l espace de représentation des données. Cette remarque montre l importance de rechercher une séparation appartenant à la classe des séparateurs linéaires. Il est d autre part montré que seuls les vecteurs de support jouent un rôle dans le calcul de l hyperplan optimal (conditions de Karush-Kuhn-Tucker les vecteurs de support sont les points dont les multiplicateurs de Lagrange sont non nuls) [1]. Cette remarque est intuitive puisque ce sont uniquement les éléments les plus «ambigus», les plus difficiles à classer qui permettront de définir une frontière entre les deux classes. Cas des ensembles d apprentissage non linéairement séparables La méthode des SVM peut être modifiée pour traiter les cas où l ensemble d apprentissage S n est pas linéairement séparable. Pour ce faire, on utilise une technique dite des variables ressort (slack variables). Elle consiste à accorder un

10 relâchement à chaque élément de l ensemble d apprentissage S. Ces éléments seront désormais soumis aux contraintes assouplies suivantes : On minimise dans ce cas, la fonction : Où est une pondération sur la somme totale des variables de relâchement. Elle est à fixer par l utilisateur, et aura une valeur d autant plus élevée que l ensemble d apprentissage tendra à être séparable (Le cas limite parfait étant un ensemble S séparable, dans ce cas tous les vaudraient 0). Recherche d un séparateur linéaire par passage dans un espace de redescription. Il arrive souvent que l on n ait pas une séparation linéaire des données dans l espace de représentation des données. La technique utilisée dans la méthode des SVM consiste à appliquer une transformation non linéaire de l espace d entrée X en un espace de redescription. En effet, plus la dimension de l espace de description est grande, plus la probabilité de pouvoir trouver un hyperplan séparateur entre les deux classes est élevée. En transformant l espace d origine en un espace de redescription de grande dimension, on pourra à nouveau appliquer la méthode des SVM. Figure 3: Passage d'un espace de description de dimension 2 à un espace de redescription de dimension 3 permettant une séparation linéaire.

11 Le problème d optimisation conduit au résultat analogue suivant pour l équation de l hyperplan : Il y a cependant deux inconvénients majeurs dans le passage à des dimensions très grandes : Le premier est d ordre pratique. En effet, le calcul de ces produits scalaires devient rapidement impossible dans des espaces à très grande dimension, ceci d autant plus que l on utilise une transformation non linéaire. Le second est que le passage dans des grandes dimensions rend l espace d hypothèses trop riche. On peut aboutir à un lissage trop important des données. Cet aspect ne sera pas étudié dans ce document, mais on pourra consulter [4] qui traite du problème. Les fonctions noyau Le premier inconvénient est heureusement contourné grâce à l utilisation de fonctions noyau. Ces fonctions, plus faciles à calculer, et dont on montre qu elles correspondent à un produit scalaire dans un espace de dimension supérieure (Théorème de Mercer voir [1] et [4]), permettent de trouver l hyperplan optimal sans même avoir à chercher de façon explicite la fonction de transformation. Ce «court-circuitage» constitue une autre particularité intéressante des méthodes de séparateurs à vastes marges. L hyperplan séparateur à ainsi pour équation : Où K est la fonction noyau. Il n est cependant pas facile de trouver de façon implicite, la fonction noyau qui permet la meilleure séparation des données. En pratique, on effectue des tests avec des fonctions noyau connues puis on règle ensuite les paramètres correspondants. Les fonctions noyau les plus connues sont : Le noyau polynomial, à base radiale et sigmoïdale. De plus, il est possible de construire ses propres fonctions noyau en effectuant certaines combinaisons entre des fonctions noyau connues. Toutes les équations de l hyperplan optimal trouvées ci-dessus ne font apparaitre les données que dans les produits scalaires. De plus, remarquons que lors de la résolution de la forme duale, seuls les vecteurs de support ont des multiplicateurs de Lagrange différents de zéro. Ceci a une justification intuitive car pour classer un nouvel élément, l algorithme SVM se contente de calculer la similitude du nouvel élément avec les vecteurs de support, éléments définissant la frontière entre les deux classes. Cette similitude est calculée grâce au produit scalaire (rappelons qu un produit scalaire entre deux vecteurs d un espace vectoriel consiste, sous de bonnes contraintes

12 de normalisation de ces vecteurs, au calcul du cosinus de l angle entre ces deux vecteurs ; ce cosinus tend vers 1 si ces deux vecteurs sont très proches, et vers 0 si ils sont perpendiculaires), et le classement du nouvel élément est fait en conséquence.

13 Régression logistique La méthode de régression logistique peut être vue comme une généralisation de la méthode de régression linéaire simple. La différence réside cependant dans le fait que l on souhaite analyser une variable dépendante qualitative, souvent binaire, en fonction d une ou plusieurs variables explicatives quantitatives. Dans ce document, nous étudierons essentiellement le cas où la variable à expliquer, notée Y, est binaire. Une observation de la variable à expliquer peut donc être vue comme un succès ou un échec, que l on représente par si il ya succès et si il y a échec. Cette variable peut donc être modélisée comme suivant une loi de Bernoulli de paramètre p. Lorsque la variable dépendante peut prendre un nombre de valeurs dénombrable et supérieur à deux, on peut la modéliser par une distribution multinomiale. Modélisation d une variable dépendante binaire Cas pratique : Afin d illustrer les différences fondamentales entre une variable dépendante qualitative et une variable dépendante quantitative, observons un cas pratique. Nous considérons d abord le cas d une seule variable explicative quantitative. Cet exemple concerne un échantillon de 100 personnes pour lesquels la présence ou l absence d une maladie a été observée. On souhaite étudier la relation entre cette variable et l âge des personnes. La figure 5 (sur laquelle la variable Y est notée CHD maladie cardiovasculaire) montre que lorsque la variable dépendante est qualitative, elle n admet pas d échelle de mesure naturelle. En effet, ce diagramme ne nous permet pas de prédire selon l âge si une personne à ou non la maladie. Figure 4: Relation inexploitable entre l'âge et la maladie.

14 Nous pouvons cependant décrire la relation entre la probabilité d avoir la maladie et l âge. Il s agit de la représentation de la probabilité conditionnelle. Pour ce faire, on regroupe les données selon l âge en catégories, puis on calcule le pourcentage cumulé de personnes atteintes par la maladie dans chaque catégorie. On obtient le diagramme de la figure 5. Figure 5: Pourcentage de personnes ayant la maladie selon l'âge. Il s agit d une fonction de répartition. Il faut maintenant formaliser la relation entre la variable explicative AGE et CHD (que nous noterons respectivement X et Y). Nous désirons modéliser par une fonction des variables explicatives. Puisqu il s agit d une fonction de probabilité, cette fonction doit être bornée par 0 et 1. On ne peut donc pas modéliser cette probabilité conditionnelle par une fonction linéaire. Cette relation est donc non linéaire. La figure 5 nous suggère une courbe sigmoïdale pour représenter cette fonction. Pour la méthode de régression logistique, nous utiliserons le modèle :. Il s agit d un modèle linéaire généralisé (Generalized Linear Model GLM), qui s écrit encore, et par lequel, on souhaite prédire la probabilité conditionnelle de Y sachant X. La fonction utilisée est la fonction de répartition de la distribution logistique, qui s écrit :

15 Et Ce modèle peut facilement être étendu l analyse d une variable Y par un vecteur aléatoire. La relation s écrit : Ou plus souvent : Où. C est donc ce modèle que l on appelle modèle logit ou logistique. En pratique, les composantes du vecteur sont déterminées par des méthodes numériques (surtout si les données sont représentées dans un espace de grande dimension) à partir des données par la méthode du maximum de vraisemblance (voir conditions) qui donne en général un estimateur à faible variance suivant une loi normale. Il est à noter que le poids d une composante influe directement sur l importance de l attribut dans la régression. Ainsi, une valeur de proche de zéro implique que l attribut n est pas utile pour la régression. Pour bien régler les valeurs des, ces estimations sont souvent associées à des tests d hypothèses du type : Avec Ces tests sont très importants en pratique et servent à éliminer certains attributs qui ne sont pas utiles pour expliquer la probabilité conditionnelle de succès de Y, sachant les autres attributs de X, ce qui simplifie les calculs.

16 Prétraitement des données Importance du prétraitement Lorsqu on travaille sur un grand nombre de données, leur prétraitement est essentiel, les calculs inutiles pouvant augmenter exponentiellement le temps d exécution de l algorithme ; les «petites» erreurs de biais se répercutant démesurément sur le modèle final. La connaissance de l algorithme permet une réflexion théorique avancée sur le formatage des données ; de même un peu de sens pratique peut se révéler très utile. Méthodologie Tout d abord, il faut analyser les données avec bon sens. Il s agit d éliminer la redondance d informations au sein des données mêmes. Dans un exemple étudié, un attribut décrit le nombre d année d étude des clients ; un autre attribut décrit de manière qualitative le titre du dernier diplôme obtenu. Ces deux attributs correspondent exactement, sont en bijection ; l un des deux doit être éliminé pour éviter la redondance qui pondérerait la même information d un poids injustement doublé. De même, toujours dans ce même exemple, les clients sont décrits selon leur genre ; or, au sein d un autre attribut, le statut de personne mariée est divisée en deux valeurs : «mari» et «femme». Cette distinction implique une redondance qui peut être éliminé en remplaçant ces deux valeurs par la même valeur «marié». Une fois les données nettoyées de leurs redondances, de tous leurs défauts corrigibles avec un peu de sens pratique, on s attache à la théorie pour réfléchir à l adéquation du formatage des données avec l algorithme. On utilise ici l algorithme SVM (Support Vector Machine), qui partage à l aide d un hyperplan les données projetées dans un espace où chaque attribut est une coordonnée. Comment gérer dans ce cas les coordonnées manquantes? Leur choisir une valeur arbitraire serait rajouter de l information et fausserait le modèle ; il vaut donc mieux les éliminer systématiquement. Une fois ces «nettoyages» des données réalisés, il faut approfondir la réflexion. Traitement des données qualitatives Problème L algorithme utilisé, des séparateurs à vastes marges (SVM, de l anglais Support Vector Machine), nécessite exclusivement des données numériques. Les données qualitatives doivent donc être transformées, mais sous quelles formes? Plusieurs solutions sont envisageables, mais il faut veiller à respecter le principe de l algorithme, qui est de séparer les points de données entre eux.

17 Il faut également préserver l information. Une conversion directe utilisant la convention d un nombre par valeur qualitative possible ne satisfait pas cette contrainte ; en effet la conversion «rajoute» de l information aux données, arbitrairement et sans justification. Notamment, les nombres peuvent être ordonnés ; et il existe une distance entre eux. Ces deux informations seront prises en compte par l algorithme, alors qu elle ne corresponde pas à de la véritable information, mais à des choix arbitraires ; biaisant ainsi le résultat final. Solution mise en œuvre La conversion choisie consiste à «éclater» chaque dimension qualitative en n dimensions, n étant le nombre des valeurs possibles qu elle peut prendre. Chaque dimension correspond donc à une de ses valeurs. Pour une donnée particulière, la dimension correspondant à la valeur prise par cette donnée contiendra la valeur numérique un, et toutes les autres contiendront le chiffre zéro. Traitement des données quantitatives Problème Lors de la projection dans un espace à d dimensions, d étant le nombre d attributs des données, les données numériques deviennent des coordonnées dans l espace. Ces valeurs peuvent ne pas être à la même échelle, mais disproportionnées ; tant au niveau de leur ordre de grandeur en lui-même, qu au niveau de l ordre de grandeur des écarts entre les différentes valeurs. Ce problème complexifie lourdement le calcul, pour des résultats imprécis. Il implique une pondération liée aux différences d ordre de grandeur, favorisant les données les plus grandes et les plus dispersées ; cette préférence ne correspond pas à une importance moindre des données les plus «petites», ou les plus «groupées». Une normalisation s impose alors afin de contourner ce problème en ramenant toutes les données numériques à une même échelle. Solution mise en œuvre La normalisation choisie consiste à, dans un premier temps, calculer la variance d un attribut sur les données d apprentissage ; puis dans un deuxième temps de diviser chaque attribut par la variance trouvée. Une fois la «fonction» de transformation des attributs numériques calculée, à partir des données d apprentissage, cette fonction est sauvegardée afin de l appliquer à une nouvelle donnée dont on voudrait prévoir la classe. Justifications théoriques

18 Lorsqu'un nouvel exemple est soumis au modèle calculé à partir des données d'apprentissage, celui ci est d'abord normalisé: les valeurs de chacun de ses attribut soumis à la même normalisation. Cette méthode est valide formellement si l'on vérifie que l'ensemble d'apprentissage est représentatif de la population étudiée, c'est à dire qu'on a la même proportion de chaque classe. On considèrera donc que la variance et la moyenne calculées pour effectuer la normalisation sont des estimateurs sans biais de variances minimales de ces paramètres, ont peut ainsi les utiliser pour normaliser d'autres exemples.

19 Mise en application Arbres de décision La première méthode de classification de données étudiée est celle des arbres de décision. L avantage de cette méthode est qu'elle n'impose pas de prétraitement des données. Plusieurs algorithmes étaient à notre disposition pour générer des arbres de décisions dont ceux que nous avons choisi : l'algorithme C4.5 (lui-même amélioration de l'algorithme ID3 qui n'effectue aucun élagage de l'arbre) dont une implémentation nous était fournie. l'algorithme CART (Classification And Regression Trees) que l'on pouvait tester sous R. Algorithme C4.5 Nous allons maintenant appliquer l algorithme C4.5 pour construire un arbre de décision à partir d un grand nombre de données, environ exemples. Nous allons utiliser un programme informatique, nommé C4.5, qui dispose de différentes options. Nous allons essayer chacune d entre elles, afin de déterminer quelles sont les plus pertinentes à utiliser dans cet exemple et pourquoi. Observons tout d abord le résultat de l algorithme sans utiliser d options. L arbre construit est très complexe : c est parfaitement normal sur un jeu de exemples, chacun caractérisé par 14 attributs. L arbre est composé de nœuds avant élagage, et 653 après l élagage. Un grand nombre de nœuds est donc éliminé, de l ordre de 11 nœuds éliminés sur 12. Le pourcentage d exemples mal classés n augmente pourtant que de 3% ; il était de 9% avant l élagage, et de 12,2% après. L algorithme C4.5 autorise plusieurs branches pour chaque nœud ; lorsque le nœud correspond au test sur un type énuméré, toutes les valeurs possibles de la réponse vont correspondre à une branche. Dans le cas de grand nombre de données, parfois il n est pas pertinent de considérer toutes les valeurs ; dans ce cas il faut en regrouper certaines en sous-ensembles, ce qui simplifie considérablement la complexité de l arbre. On peut obliger le programme à regrouper en sous-ensembles grâce à une option : -s. L arbre est bien sûr beaucoup moins complexe avant élagage, avec seulement nœuds. Par contre, après élagage, il reste 822 nœuds, contre seulement 653 sans regroupement en sous-ensembles! On obtient donc un arbre plus complexe, mais contenant également moins d erreurs, avec seulement 10,7% d erreurs après élagage. Pour les attributs dont le type est continu, ils peuvent être considérés comme des attributs de type énuméré : en effet, leurs valeurs sont limités aux valeurs prises par les exemples. Cependant, ces valeurs appartiennent à un ensemble ordonné ; on peut donc, au lieu de faire des sous-ensembles, déterminer un seuil, et tester si la

20 valeur est supérieure ou inférieure à ce seuil. Ceci est réalisé de façon automatique par l algorithme, ou peut être forcé par l option p. Il est important de pouvoir tester l arbre que l on construit. C est pourquoi il est conseillé de séparer les données en deux parties, une partie servant à construire l arbre et l autre à le tester. On obtient ainsi des mesures de probabilité d erreurs plus précises, et plus sûres. Séparons les données dont nous disposons en deux parties, arbitrairement : un jeu d exemples d apprentissage, et jeu de tests. L arbre obtenu est sensiblement différent en terme de complexité, ce qui paraît normal ; par contre, il est équivalent en terme de proportion du nombre d erreurs sur le nombre total. Le jeu de test nous permet alors de s apercevoir que l estimation globale de la probabilité de commettre une erreur, à savoir : 0,143 est plutôt bonne ; en effet, la probabilité déduite des tests est de 0,138, sur l arbre élagué. Si on groupe en sous-ensembles les types énumérés, on obtient des estimations de probabilité plus faible : la probabilité de mal classer une donnée est estimé à 0,131 ; alors qu elle est de 0,137 lorsqu on la déduit des tests, c'est-à-dire la même valeur que celle précédemment trouvée. Sur les deux résultats, on peut constater que les erreurs se situent principalement dans la classification d une des deux classes, où 896 données sont mal classés pour 1565 bien classés, dans le cas regroupé ; et sensiblement les mêmes valeurs dans l autre cas ; alors que seulement 473 données sont mal classés sur bien classés dans l autre classe. La probabilité d erreur dépend donc très fortement de la classe trouvée par l algorithme : Sans -s Avec s Probabilité d erreur lorsque l algorithme classe >50K 0,239 0,232 Probabilité d erreur lorsque l algorithme classe <=50K 0,11 0,112 Évaluation de l'arbre sur les données d'apprentissage (22560 individus) qui ont permis de construire l'arbre : Avant élagage Après élagage Taille de l'arbre Erreurs 1779 (7.9%) 2441 (13.1%) Évaluation de l'arbre sur les données de test (10001 individus): Avant élagage Après élagage Taille de l'arbre Erreurs 1571 (15.7%) 1369 (13.7%)

21 Algorithme CART Rappelons les spécificités de l algorithme CART (Classification And Regression Tree) : - Il génère 2 nœuds fils par nœud parent. - Il accepte tout type de variables. - La mesure servant à sélectionner le meilleur attribut à tester est ici la métrique de Gini : où a est : un attribut binaire oméga est : une classe L'avantage de l'implémentation sous R de cet algorithme était la possibilité de pouvoir afficher un aperçu de l'arbre généré, ce qui en permet une lecture plus aisée. Voici l'arbre que l'on a obtenu (complété en rouge par la pureté de chacun des noeuds de l'arbre) : pureté d'un noeud : proportion d'individus appartenant à la classe majoritaire au sein d'un même noeud. taux d'erreur = 1 pureté de noeud (feuille de l'arbre) On peut remarquer que globalement, plus l'on s'approche des feuilles, plus la pureté des noeuds augmente. Certaines feuilles dépassent même les 95%.

22 Mais il est plus probant d'observer les résultats (pourcentages d'erreur) sur les données d'apprentissage et de test (adult-test). Voici ce que l'on obtient : Données d'apprentissage (réel) >50K (réel) <=50K précisions (prédiction) >50K a=4025 b=1247 a/(a+b)=79.35% (prédiction) <=50K c=3816 d=23473 d/(c+d)=86.01% rappels a/(a+c)=51.33% d/(b+d)=94.95% (a+d)/(a+b+c+d)=84.45% Données de test (réel) >50K (réel) <=50K précisions (prédiction) >50K a=1945 b=630 a/(a+b)=75.53% (prédiction) <=50K c=1901 d=11805 d/(c+d)=86.13% rappels a/(a+c)=50.57% d/(b+d)=94.93% (a+d)/(a+b+c+d)=84.45% précision : probabilité que le modèle ne se trompe pas sachant la réponse qu'il renvoie. (ex : ici, si le modèle prédit qu'un individu est de la classe «>50K», on pourra en être sur à 79.35%) rappel : probabilité que le modèle ne se trompe pas sachant la classe réelle de l'individu qu'il tente de classifier. (ex : ici, on peut voir que le modèle sait classifier beaucoup mieux les individus qui sont réellement de la classe «<=50K» (rappel de 94.95%) que ceux qui sont réellement de la classe «>50K» (rappel de 51.33%)) On peut remarquer que les précisions (globales ou propres à une classe) ainsi que les rappels sont sensiblement identiques pour les données d'apprentissage et pour les données de test, ce qui laisse à penser que le modèle obtenu était de qualité dans le sens où il n'y avait ni «sur-apprentissage» (i.e. que le modèle collait trop aux données d'apprentissage mais inadapté à de nouvelles données) ni «sousapprentissage» (le modèle donne des résultats aléatoirement différents sur différents jeux de données). Conclusions sur les arbres de décision :

23 Au vu des résultats obtenus sur nos jeux de données, l'algorithme C4.5 (83.7% de précision) semble meilleur que l'algorithme CART (84.45% de précision).

24 Séparateurs à Vastes Marges (SVM) Introduction, choix du noyau Méthodologie Les données initiales adult ont été découpées selon un partage 2/3 (pour l apprentissage) 1/3 (pour la validation) tandis que les données adult-test ont été réservées aux tests. La méthode employée pour établir une classification optimale : On construit plusieurs modèles (différents noyaux, différents paramètres pour chaque noyau) à l aide des données d apprentissage. On sélectionne parmi ces différents modèles celui qui donne le meilleur résultat sur les données de validation. On effectue une prédiction à l aide de ce modèle sur les données de tests. Choix du noyau Après un premier survol des différents noyaux utilisés par SVM Light et R dont on rappelle la liste : Noyau gaussien Noyau linéaire Noyau polynomial Noyau sigmoïdale, il est apparu que sur le jeu de données qui nous étaient fournis (données d une banque adult et adult-test) le noyau gaussien était le plus adapté. Par exemple, si l on se base sur les options par défaut (i.e. sans spécifier les valeurs de gamma, ou autres paramètres de noyau ) de la fonction svm du paquetage e1071 de R, les résultats obtenus étaient : Type de noyau Précision (données d apprentissage) Précision (données de validation) Précision (données de test) Gaussien 84.04% 82.93% 83.20% Linéaire 76.32% 75.70% 76.30% Polynomial (degré 83.91% 81.84% 82.08% 3) Polynomial (degré 80.15% 77.45% 77.83% 5) Sigmoïde 53.92% 53.70% 54.17% Une première étape de la validation a donc consisté à se limiter au noyau gaussien. Le reste de la validation était donc réduit à la recherche du paramètre gamma optimal, quoique SVM Light permettait également de moduler les paramètres c (constantes majorant les variables ressort) et j (paramètre permettant de pondérer une des deux classes (ici la classe correspondant à -1) d autant qu elle est sous-représentée dans le jeu de données).

25 Le noyau qui s'est avéré être le meilleur sur nos jeux de données (adult et adulttest) dès le début est le noyau gaussien. Cela est très certainement dû au fait que de nombreux phénomènes mis en jeu dans ces données font apparaître des phénomènes suivant des lois normales (âge, niveau d'études, revenus, etc...). Noyau gaussien : u_ v_2 K _u,v_=e Résultats donnés par SVMLight Voici les graphiques que les utilitaires svm_learn et svm_classify ont permis d établir : c=1000 & j= ,05 0,1 0, Le paramètre C est le même que celui introduit lors de l étude des variables ressort. Sa valeur augmente si l on possède un ensemble d apprentissage quasiment séparable linéairement. Cette valeur à été fixée à 1000, pour amplifier le poids des variables ressort. Le paramètre j quant à lui permet d équilibrer en proportion, la quantité d exemples dans les deux classes. Cette valeur est mise à 3 car il y a trois fois plus de variables négatives dans l échantillon d apprentissage.

26 0,86 variation gamma de 0,83 0,81 0,8 0,79 0,78 0,77 0 0,01 0,02 0,04 0,06 0,08 0,1 0, Ces deux graphiques montrent déjà une première tendance sur l influence de gamma. En faisant varier gamma, qui correspond à l inverse de la variance dans le noyau gaussien, nous constatons qu une valeur de gamma inférieure à 1 semble donner les meilleurs résultats tandis qu au-delà, la précision semble décroître sensiblement. Résultats donnés par R

27 Influence de gamme (noyau gaussien) 1,2 1 précision 0,8 0,6 0,4 Données d'apprentissage Données de validation Données de test 0,2 0 0,005 0,011 0,02 0,04 0,1 0,2 0, gamma On peut remarquer que : Plus on augmente le paramètre gamma, plus la classification des données initiales s améliore, le modèle «collant» à ces données d apprentissage. Mais cela ne signifie pas pour autant que le modèle est d autant meilleur que gamma est grand. En effet, le modèle, «collant» trop aux données d apprentissage devient biaisé dès lors que l on lui applique d autres données (validation ou test) Si l on devait choisir un modèle de classification pour un client souhaitant analyser de futures données, on retiendrait le modèle optimal pour les données de validation. Il correspond ici à une valeur de gamma = 0,04. Classification polytomique des données d'astrophysique par SVM (text mining) : Après de nombreux pré-traitements, voici les résultats que nous avons obtenus avec SVMLight grâce à un calcul de 7 modèles (1 modèle par prédiction de classe), sur la classification des thèmes d'articles selon les mots qui les composent : Classes Précisions de la classificatio n Vie extraterrestre Eclipses Planètes extrasolaires Analyse Numérique Mécanique quantique Physique mathématiq ue Rhéologie 86.30% 94.52% 98.63% 98.63% 60.27% 75.34% 94.52%

28 On peut remarquer que plusieurs classes ont des précisions au delà de la valeur que l'on pouvait avoir concernant de simples prédictions (2 classes) qui n'était que de 85%.

29 Régression logistique Voici les résultats que la classification des données adult par régression logistique nous a donnés : Données de test (réel) >50K (réel) <=50K précisions (prédiction) >50K a=6805 b=95 a/(a+b)=98.62% (prédiction) <=50K c=1550 d=808 d/(c+d)=34.26% rappels a/(a+c)=81.44% d/(b+d)=89.48% (a+d)/(a+b+c+d)=82.23% Ces résultats montrent que cette méthode est la moins précise des trois (arbres de décision, SVMs, régression logistique).

30 Des idées pour aller plus loin Afin d améliorer les performances, une idée serait de combiner certaines méthodes entre elles. Par exemple, pour des données de faible dimension (un nombre réduit d attributs), la méthode des arbres de décision permet d avoir de très bons résultats. De plus cette méthode, contrairement à la régression linéaire et aux SVM, fourni une «explication» claire de la répartition des exemples. Elle permet, en effet, d exhiber les attributs les plus discriminants, et, par là de comprendre les causes de la répartition. Cette méthode devient cependant moins performante lorsque l on analyse des données de grande dimension (cas du text mining avec des dimensions de l ordre du cardinal du vocabulaire utilisé). D un autre coté, la méthode du SVM permet de traiter des exemples de très grande dimension. Le principal problème consiste souvent à pondérer convenablement les attributs des éléments, ou a complètement en supprimer certains qui sont insignifiants dans le but d alléger les calculs. Une technique pourrait consister à combiner ces deux méthodes en construisant d abord un arbre de décision jusqu à une certaine profondeur afin d obtenir les attributs ou axes les plus discriminants, puis à effectuer une SVM uniquement sur ces attributs. On peut aussi préalablement traiter les données avec des méthodes d analyse statistique multidimensionnelle telles que les ACP pour dégager les axes principaux de l analyse.

31 Conclusion Ce projet nous a amené à expérimenter la fouille de données dans tous ses aspects, à la fois divers et complémentaires. Nous avons ainsi pu dérouler plusieurs cycles de traitement, allant de la lecture pure et simple des données afin de se les approprier, jusqu à la production de grandeurs statistiques pour estimer les modèles construits, en passant par le prétraitement des données et le réglage des paramètres de construction du modèle. D un autre côté, l exploration théorique des techniques déployées nous a conduit à travers des notions extrêmement différentes, de la théorie de l information jusqu aux fonctions logistiques, en passant par des espaces à très grandes dimensions. Le lien entre la mise en pratique et la théorie était très fort ; et les questions de l unes trouvant souvent une réponse dans l autre. Nous avons ainsi pu découvrir un travail pratique et efficace, nécessitant complémentairement du sens pratique et une profonde compréhension abstraite. A la fois processus industriel et secteur de recherche, le data mining dans son ensemble nous est apparu comme un domaine extrêmement vivant, répondant à une forte attente, maximisant les ressources disponibles, tout en combinant des technologies de pointe.

32 Références [1] A. Cornuejols et L. Miclet. Apprentissage Artificiel : Concepts et Algorithmes. Eyrolles, [2] T. Mitchell, Machine Learning, McGraw Hill, [3] B. Schölkopf. Statistical Learning And Kernel Methods. MSR-TR , Microsoft Research, [4] V. Vapnik. The Nature Of Statistical Learning Theory. Springer, N.Y., 1995.

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

2B La résolution de modèles linéaires par Excel 2010

2B La résolution de modèles linéaires par Excel 2010 2B La résolution de modèles linéaires par Excel 2010 Nous reprenons ici, de façon plus détaillée, la section où est indiqué comment utiliser le solveur d'excel 2010 pour résoudre un modèle linéaire (voir

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

5. Validité de la méta-analyse

5. Validité de la méta-analyse 5. Validité de la méta-analyse 5.1. Poids de la preuve d une méta-analyse Le poids de la preuve d un résultat scientifique quantifie le degré avec lequel ce résultat s approche de la réalité. Il ne s agit

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Systèmes linéaires. 1. Introduction aux systèmes d équations linéaires. Exo7. 1.1. Exemple : deux droites dans le plan

Systèmes linéaires. 1. Introduction aux systèmes d équations linéaires. Exo7. 1.1. Exemple : deux droites dans le plan Exo7 Systèmes linéaires Vidéo partie 1. Introduction aux systèmes d'équations linéaires Vidéo partie 2. Théorie des systèmes linéaires Vidéo partie 3. Résolution par la méthode du pivot de Gauss 1. Introduction

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB PAR : MAROOF ASIM DAN BENTOLILA WISSAM ESSID GROUPE 1 LM206 Lundi 10H45 INTRODUCTION : ( Ce rapport est un compte

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Cours de Mathématiques Seconde. Généralités sur les fonctions

Cours de Mathématiques Seconde. Généralités sur les fonctions Cours de Mathématiques Seconde Frédéric Demoulin 1 Dernière révision : 16 avril 007 Document diffusé via le site www.bacamaths.net de Gilles Costantini 1 frederic.demoulin (chez) voila.fr gilles.costantini

Plus en détail

Exercices théoriques

Exercices théoriques École normale supérieure 2008-2009 Département d informatique Algorithmique et Programmation TD n 9 : Programmation Linéaire Avec Solutions Exercices théoriques Rappel : Dual d un programme linéaire cf.

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

LE PROBLEME DU FLOT MAXIMAL

LE PROBLEME DU FLOT MAXIMAL LE PROBLEME DU FLOT MAXIMAL I Exemple d introduction Deux châteaux d'eau alimentent 3 villes à travers un réseau de canalisations au sein duquel se trouvent également des stations de pompage. Les châteaux

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Recherche opérationnelle. Programmation linéaire et recherche opérationnelle. Programmation linéaire. Des problèmes de RO que vous savez résoudre

Recherche opérationnelle. Programmation linéaire et recherche opérationnelle. Programmation linéaire. Des problèmes de RO que vous savez résoudre Recherche opérationnelle Programmation linéaire et recherche opérationnelle Ioan Todinca Ioan.Todinca@univ-orleans.fr tél. 0 38 41 7 93 bureau : en bas à gauche Tentative de définition Ensemble de méthodes

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Option Informatique Arbres binaires équilibrés

Option Informatique Arbres binaires équilibrés Option Informatique Arbres binaires équilibrés Sujet novembre 2 Partie II : Algorithmique et programmation en CaML Cette partie doit être traitée par les étudiants qui ont utilisé le langage CaML dans

Plus en détail

A propos du calcul des rentabilités des actions et des rentabilités moyennes

A propos du calcul des rentabilités des actions et des rentabilités moyennes A propos du calcul des rentabilités des actions et des rentabilités moyennes On peut calculer les rentabilités de différentes façons, sous différentes hypothèses. Cette note n a d autre prétention que

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand

Plus en détail

ORDRE DE RÉACTION : MÉTHODES DE

ORDRE DE RÉACTION : MÉTHODES DE ORDRE DE RÉACTION : MÉTHODES DE RÉSOLUTION Table des matières 1 Méthodes expérimentales 2 1.1 Position du problème..................................... 2 1.2 Dégénérescence de l ordre...................................

Plus en détail

INF-130 Travail Pratique #2

INF-130 Travail Pratique #2 École de technologie supérieure INF-30 Travail Pratique #2 Travail individuel Tracé d un métro Francis Bourdeau, Frédérick Henri et Patrick Salois Remise à la 0 e semaine. Objectifs - Amener l étudiant

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges

SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges Mohamadally Hasan Fomani Boris BD Web, ISTY3 Versailles St Quentin, France hmohamad@isty-info.uvsq.fr bfomanik@isty-info.uvsq.fr 16 janvier

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

CAC, DAX ou DJ : lequel choisir?

CAC, DAX ou DJ : lequel choisir? CAC, DAX ou DJ : lequel choisir? 1. Pourquoi cette question Tout trader «travaillant 1» sur les indices s est, à un moment ou un autre, posé cette question : «je sais que la tendance est bien haussière

Plus en détail

Restauration d images

Restauration d images Restauration d images Plan Présentation du problème. Premières solutions naïves (moindre carrés, inverse généralisée). Méthodes de régularisation. Panorama des méthodes récentes. Problème général Un système

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Fonctions homographiques

Fonctions homographiques Fonctions homographiques On donne ci-dessous deux définitions des fonctions homographiques, et on montre que ces deux définitions sont équivalentes. On décrit la courbe représentative d une fonction homographique.

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Le corps R des nombres réels

Le corps R des nombres réels Le corps R des nombres réels. Construction de R à l aide des suites de Cauchy de nombres rationnels On explique brièvement dans ce paragraphe comment construire le corps R des nombres réels à partir du

Plus en détail

Programme de Première

Programme de Première BAC TECHNO STAV 66 I. Algèbre Programme de Première Objectif 1 - Effectuer de manière autonome des calculs numériques ou algébriques, résoudre des équations ou inéquations en vue de résoudre des problèmes

Plus en détail

Ch.12 : Loi binomiale

Ch.12 : Loi binomiale 4 e - programme 2007 - mathématiques ch.12 - cours Page 1 sur 5 1 RÉPÉTITION D'EXPÉRIENCES INDÉPENDANTES Lancer plusieurs fois un dé et noter les résultats successifs. Ch.12 : Loi binomiale Prélever des

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Mesurer l efficacité de la formation

Mesurer l efficacité de la formation Pascaline MALASSINGNE Mesurer l efficacité de la formation Évaluer le résultat et la rentabilité, 2007 ISBN : 978-2-212-53794-9 Chapitre 5 Les trois cartes de l efficacité en formation La démarche finalisée

Plus en détail

Théorie des Langages Formels Chapitre 5 : Automates minimaux

Théorie des Langages Formels Chapitre 5 : Automates minimaux Théorie des Langages Formels Chapitre 5 : Automates minimaux Florence Levé Florence.Leve@u-picardie.fr Année 2015-2016 1/29 Introduction Les algorithmes vus précédemment peuvent mener à des automates relativement

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles

Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles Frédéric Messine Introduction Dans ce chapitre, nous allons étudier une application de la dérivation des fonctions de plusieurs variables

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Chapitre 1 : Évolution COURS

Chapitre 1 : Évolution COURS Chapitre 1 : Évolution COURS OBJECTIFS DU CHAPITRE Savoir déterminer le taux d évolution, le coefficient multiplicateur et l indice en base d une évolution. Connaître les liens entre ces notions et savoir

Plus en détail

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION Dans les leçons précédentes, nous avons modélisé des problèmes en utilisant des graphes. Nous abordons dans cette leçon un autre type de modélisation.

Plus en détail

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI Chapitre 6 Modélisation en P.L.I. 6.1 Lien entre PL et PLI (P) problème de PL. On restreint les variables à être entières : on a un problème de PLI (ILP en anglais). On restreint certaines variables à

Plus en détail

TECHNIQUES D ENQUETE

TECHNIQUES D ENQUETE TECHNIQUES D ENQUETE Le Système d Information Marketing L étude de marché Les différentes sources d informations Méthodologie d enquête BENSGHIR AFAF ESTO 1 Plan d'apprentissage du cours " Méthodologie

Plus en détail