Conservatoire National des Arts et Métiers Centre régional de Montpellier. Examen probatoire

Dimension: px
Commencer à balayer dès la page:

Download "Conservatoire National des Arts et Métiers Centre régional de Montpellier. Examen probatoire"

Transcription

1 Cnam Conservatoire National des Arts et Métiers Centre régional de Montpellier Examen probatoire L apport de la fouille de données dans l analyse de texte. Sujet proposé par : Mme Maguelonne Teisseire Présenté par Jean-Michel Delorme le 24 avril 2002 Président du jury M. Jean Ranchin Professeur correspondant du centre M. Marc Nanard 1

2 L apport de la fouille de données dans l analyse de texte Table des matières 2 Introduction : 3 - Définition de la fouille de donnée. 3 - Les enjeux économiques 3 - Les moyens techniques et technologiques 4 - Problématique de l analyse de texte. 4 Techniques de fouille : 5 - Objectifs 5 - Les méthodes utilisées 6 Typologie 6 Description de méthodes 7 - Synthèses 16 Techniques de l analyse de texte 18 - Comment obtenir les mesures de similarité 18 Pré-traitements 19 Représentation et mesures de similarité 20 - Les traitements sur les textes 23 Regroupements 23 Règles d association 24 Classification 24 - Synthèses 24 Conclusion : 26 - Les apports de la fouille de données dans l analyse de texte 26 - Une adaptation possible des pré-traitements 26 Annexes : 27 - Glossaire 27 - Bibliographie 31 2

3 Introduction : - Définition de la fouille de données 3 - Les enjeux économiques 3 - Les moyens techniques et technologiques 4 - Problématique de l analyse de texte 4 Définition de la fouille de donnée La fouille de donnée (souvent appelée «data mining») est l exploration et l analyse de grandes quantités de données afin d y découvrir de l information implicite. Cette information peut être de différente nature, par exemple on recherchera des règles d association, une classification ou une segmentation de population. On pourra en faire des représentations différentes pour en faciliter l usage et mettre en œuvre nombre de techniques souvent complémentaires sans qu aucune ne surpasse l autre. On retrouve notamment dans ce domaine les arbres de décision ou les réseaux de neurones parmi les techniques les plus sophistiquées. Il existe également une branche spécialisée de la fouille de données qui prend part à l analyse de textes libres : la fouille de données textuelles ou «text mining». Les enjeux économiques Les domaines d utilisations du «data mining» sont nombreux : médecine, génétique, astronomie, processus industriels, agriculture ou encore la gestion de la relation client (G.R.C.). Les entreprises ont mis en œuvre ces outils pour améliorer leur connaissance des clients et ainsi augmenter leur rentabilité. Elles entendent exploiter les grandes quantités d information qu elles détiennent et les tourner en avantages compétitifs. Les principaux secteurs économiques utilisant ces techniques sont le secteur financier (banques et assurance), les télécommunications ainsi que les entreprises de la grande distribution. Dans ces secteurs, massivement informatisés depuis longtemps, les données sont disponibles au sein d entrepôts de données. Par exemple : Chaque banque conserve l historique des relevés de comptes de ses clients donc de toutes leurs dépenses ou revenus et peut donc calculer une «note» en fonction des risques financiers encourus, Les entreprises de télécommunication connaissent l ensemble les appels ainsi que leurs dates, heures, destination et durées. Ils peuvent donc prévoir, grâce à ces informations, si un client est susceptible de passer à la concurrence, Les entreprises de la grande distribution utilisent les lecteurs de code barre et les caisses enregistreuses pour centraliser les achats conservées sous forme de tickets de caisse électroniques. Il leur est donc facile de cibler leurs actions commerciales sur les propensions de la clientèle à acheter tel ou tel produit. Toutes ces informations sont généralement enrichies par les données socio-démographiques (professions, âge, statut marital, nombre d enfants) et géographiques (adresse personnelle, lieu de travail, etc ), qui permettent d améliorer la connaissance des clients. Pour la grande distribution, l éloignement géographique du magasin par rapport au domicile est souvent un critère important. Dans le cadre de concurrence exacerbée que connaissent ces entreprises, la maîtrise de l analyse et de la compréhension des comportements des clients et des prospects est devenue une arme commerciale. Les directions commerciales et mercatiques de ces entreprises espèrent ainsi prévoir l évolution de comportements d achat et ainsi personnaliser la relation entre l entreprise et le consommateur. La fouille fait donc partie de la gamme de techniques utilisées pour améliorer leur G.R.C.. 3

4 Les moyens techniques et technologiques Régulièrement, la puissance des ordinateurs augmente fortement pendant que leur prix diminue. Les bases de données sont capables de gérer des volumes très importants avec une grande efficacité. De nombreux logiciels de fouille de données sont également disponibles sur le marché. Ils intègrent efficacement les algorithmes et les méthodes d analyse numérique les plus sophistiqués. Les sciences mathématiques et statistiques sont en perpétuelle évolution, par conséquent les outils de fouille le sont aussi. Cette évolution a été continue :. Dans les années 50, les techniques de régression multi-variées apparaissent et connaissent toujours un succès important,. Dans les années 60, c est la théorie de l Analyse en Composantes Principales qui émerge,. Puis, dans les années 70 les Arbres de Décision, toujours très utilisés,. Les années 1980 voient l apparition des Réseaux de Neurones, puis des Algorithmes Génétiques. Toutes ces techniques visent le même but : construire un modèle descriptif ou prédictif. On recherche donc les relations entre les données d entrées dont on dispose et les constats d un phénomène que l on veut étudier. Par exemple : Quelles sont les personnes qui achètent un produit «P»? Quelles sont leurs caractéristiques? Ce modèle sera ensuite appliqué sur de nouvelles données pour prédire des catégories ou des valeurs, et segmenter une population. Par exemple : Quelle est la probabilité que telle personne achète le produit «P»? Problématique de l analyse de texte Si les trente dernières années ont produit une masse colossale de données structurées issues de bases de données relationnelles, les dix dernières années ont engendré une surabondance d informations textuelles, notamment publiées et facilement accessibles sur le réseau mondial. La fouille de données textuelles est l extraction d information utile à partir de formes non manifestes dans de grand corpus de textes (Feldman et al. 1998). Certaines techniques de la fouille de donnée sont appliquées dans cet objectif, mais d autres branches de l intelligence artificielle ou des mathématiques y trouvent une place importante. Ce sont par exemple les domaines du traitement automatisé des langages naturels, des statistiques ou encore la gestion de connaissance. Évaluer des similarités entre entités textuelles est un des problèmes centraux dans plusieurs disciplines traitant de documents, comme l'analyse de données textuelles, la recherche documentaire ou l'extraction de connaissances à partir de données textuelles. Dans chacun de ces domaines, des notions de similarités sont en effet utilisées pour une large variété de traitements : - En analyse de données textuelles (ADT), les similarités sont utilisées pour la description et l'exploration de données, pour l'identification de structures cachées et pour la prédiction, - En recherche documentaire (RD), l'évaluation des similarités entre documents et requêtes est utilisée pour identifier les documents pertinents par rapport à des besoins d'information exprimés par les utilisateurs, - En «text mining» (TM), les similarités sont utilisées pour produire des représentations synthétiques de vastes collections de documents, dans le cadre de procédures d'extraction d'information à partir de données textuelles. 4

5 Techniques de fouille : - Objectifs 5 Classification 5 Estimation 5 Prédiction 5 Associations 6 Segmentation 6 - Les méthodes utilisées 6 Typologie 6 Méthodes classiques 6 Méthodes sophistiquées 6 Description de quelques méthodes 7 Algorithmes de segmentation 7 Règles d association 9 Algorithmes de classification, estimation et prédiction 11 - Synthèses 17 Objectifs On se situe dans un environnement d'aide à la décision à partir de données. On dispose de données structurées. Les objets sont représentés par des enregistrements (ou descriptions) qui sont constitués d'un ensemble de champs (ou attributs) prenant leurs valeurs dans un domaine. On peut mettre en évidence différentes problématiques auxquelles nous associons une ou plusieurs tâches. La classification Elle consiste à examiner les caractéristiques d'un individu et lui attribuer une classe, la classe est un champ particulier à valeurs discrètes. Des exemples de tâche de classification sont :. Attribuer ou non un prêt à un client,. Établir un diagnostic,. Accepter ou refuser un retrait dans un distributeur,. Attribuer un sujet principal à un article de presse. L'estimation Elle consiste à estimer la valeur d'un champ à valeurs continues à partir des caractéristiques d'un objet. L'estimation peut être utilisée dans un but de classification. Il suffit d'attribuer une classe particulière pour un intervalle de valeurs du champ estimé. Des exemples de tâche d'estimation sont :. Noter un candidat à un prêt ; cette estimation pourra trouvera une application pour attribuer un prêt (classification), par exemple, en fixant un seuil d'attribution,. Estimer les revenus d'un client. La prédiction Cela consiste à estimer une valeur future. En général, les valeurs connues sont classées chronologiquement. On cherche à prédire la valeur future d'un champ. Cette tâche est proche des précédentes. Les méthodes de classification et d'estimation peuvent être utilisées en prédiction. Des exemples de tâche de prédiction sont :. Prédire les valeurs futures d'actions,. Prédire au vu de leurs actions passées les départs de clients. 5

6 Les règles d'association Cette tâche, plus connue comme l analyse du panier de la ménagère, consiste à déterminer les variables qui sont associées. L'exemple type est la détermination des articles (le poisson et le vin blanc ; la baguette et le camembert et le vin rouge,...) qui se retrouvent ensemble sur un même ticket de supermarché. Cette tâche peut être effectuée pour identifier des opportunités de vente croisée et concevoir des groupements attractifs de produit. La segmentation Il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements). Il appartient ensuite à un expert du domaine de déterminer l'intérêt et la signification des groupes ainsi constitués. Cette tâche est souvent effectuée avant les précédentes pour construire des groupes sur lesquels on applique des tâches de classification ou d'estimation. Les méthodes utilisées Typologie des méthodes Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l on choisira en fonction de :. La tâche à résoudre,. La nature la nature et de la disponibilité des données,. L ensemble des connaissances et des compétences disponibles,. La finalité du modèle construit,. L environnement social, technique, philosophique de l entreprise. On peut dégager deux grandes catégories de méthodes d analyse consacrées à la fouille de données. La frontière entre les deux peut être définie par la spécificité des techniques, et marque l aire proprement dite du «Data Mining». On distingue donc : Les méthodes classiques On y retrouve des outils généralistes de l informatique ou des mathématiques :. Les requêtes dans les bases de données, simples ou multi-critères, dont la représentation est une vue,. Les requêtes d analyse croisée, représentées par des tableaux croisés,. Les différents graphes, graphiques et représentations,. Les statistiques descriptives,. L analyse de données : analyse en composantes principales. Les méthodes sophistiquées Elles ont été élaborées pour résoudre des tâches bien définies. Ce sont :. Les algorithmes de segmentation,. Les règles d association,. Les algorithmes de recherche du plus proche voisin,. Les arbres de décision,. Les réseaux de neurones,. Les algorithmes génétiques. 6

7 Description de quelques méthodes Cette section n est pas une présentation exhaustive de l ensemble des techniques de la fouille de données, mais une présentation de quelques méthodes pour fournir un aperçu du domaine. Parmi les méthodes dite classique, on a cité entre autres l analyse en composante principale, qui constitue encore une technique très utilisée. En ce qui concerne les méthodes plus spécifique une présentation d algorithmes de segmentation, de définition de règles d association et des arbres de décision et réseaux de neurones va être faite. Algorithmes de segmentation Rappelons que l objectif est de réaliser une partition (division en groupes disjoints) d une population afin d effectuer plus facilement des tâches ou des expertises. Les algorithmes qui suivent ne fourniront pas forcément le même résultat, ils correspondent à des heuristiques différentes. Méthode des k-moyennes On doit choisir a priori le nombre «k» de groupes à déterminer, que l on introduit par un sousensemble de k éléments de la population «P» appelés centres. Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P et une moyenne moy de P n vers l espace de représentation de P. On choisi : C={C1,..,Ck} inclus dans P. Initialisation : Pour tout entier naturel i de{1..k}, on fixe les groupes : (Ci) 0 ={} (Ci) 1 =Ci de moyenne Ci = Ci. On pose : j=1 entier naturel (le nombre d itérations effectuées plus un) Tant que : (Ci) j est différent de (Ci) j-1, pour tout i de {1..k} Faire : pour tout i de {1..k} Fin de tant que (Ci) j=1 ={Pq de P : D(Pq, Ci) D(Pq, Ci ), pour tout q et i de {1..k} } Ci =moy (Ci) j=1 j=j+1 Méthode d agglomération : méthode ascendante Ici, on ne choisi pas de d éléments a priori, tous les individus de la population sont potentiellement candidats à la génération d un groupe. Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P. Initialisation : Pour tout entier naturel i de Card(P)=n, on fixe les groupes : Gi={Pi} et la partition P o (P)={ Gi } On pose : j=1 ( rang de l itération plus un) Tant que : j n Faire : Gn+j = Gp U Gq : D(Gp,Gq) D(Gt,Gu), pour tout Gp, Gq, Gt et Gu de (P j-1 (P))} Pour tout Gi de P j-1 (P)-{Gp,Gq} : D(Gn+j,Gi)=min(D(Gp,Gi), D(Gq,Gi)) Extension de la notion de distance effectivement basé sur la distance entre points de l espace. P j (P) = P j-1 (P) {Gp} {Gq} + { Gn+j} j=j+1 Fin de tant que 7

8 Méthode dichotomique : méthode descendante ou arbres de décision Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P. Initialisation : Go =P et jo :=0 n=card(p) Pour tout : jo < j Abs(n+1/2) On définit une partition P j (P) = {Gj,k ; 1 k 2 j : Div (P j-1 (P))} Où Div est une fonction de diversité définie par : Div (P j-1 (P))={ div (Gj,k) }tel que pour tout j, k : div (Gj,k) = {G j+1, 2k-1 ; G j+1, 2k : Gj,k = G j+1, 2k-1 G j+1, 2k } et vérifiant pour tout Gj,k : i) La dispersion dans chaque Gj,k (distance intra groupe) est minimisée : Disp (Gj,k) = 1 / q(q-1) D(g, g ) est minimum, où q = Card(Gj,k). g, g (Gj,k) ii) La distance entre les sous ensembles Gj,2 j et Gj,2 j-1 est maximisée : Dx (Gj,2 j, Gj,2 j-1 ) est maximum. On peut définir Dx d au moins trois manières :. D1 : le rattachement simple où la distance entre deux groupes est la plus petite distance entre les éléments les plus proches,. D2 : le rattachement complet où la distance entre deux groupes est donnée par la distance entre les membres les plus éloignés,. D3 : le rattachement moyen où la distance entre deux groupes est donnée par la distance entre les centres. Finalisation de la segmentation : Choisir la segmentation «optimale», dans chacune des méthodes, équivaut à déterminer le nombre de sous parties de l ensemble initial P. Dans la première méthode, on itère l algorithme avec différentes valeurs de k comprises entre 1 et n. On choira la solution qui minimise les distances intra groupe et maximise les distances inter groupes calculées à chaque itération. Dans les deux dernières méthodes présentées, on ne choisi pas a priori le nombre de segments souhaité. On sélectionnera le rang qui discrimine le mieux les sous-parties grâce aux propriétés d une fonction de diversité. Critiques de la méthode Les atouts : + Apprentissage non supervisé : la méthode des k-moyennes et ses variantes résolvent une tâche dite non supervisée, c'est-à-dire qu'elle ne nécessite aucune information sur les données. La segmentation peut être utile pour découvrir une structure cachée qui permettra d'améliorer les résultats de méthodes d'apprentissage supervisé (classification, estimation, prédiction). + Applicable à tous type de données : en choisissant une bonne notion de distance, la méthode peut s'appliquer à tout type de données (mêmes textuelles). + Facile à implanter : la méthode ne nécessite que peu de transformations sur les données (excepté les normalisations de valeurs numériques), il n'y a pas de champ particulier à identifier, les algorithmes sont faciles à implanter et sont, en règle générale, disponibles dans les environnements de «data mining». 8

9 Les désavantages : - Problème du choix de la distance : les performances de la méthode (la qualité des groupes constitués) sont dépendantes du choix d'une bonne mesure de similarité ce qui est une tâche délicate surtout lorsque les données sont de types différents. - Le choix des bons paramètres : la méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. - L'interprétation des résultats : il est difficile d'interpréter les résultats produits, en d autres termes, d'attribuer une signification aux groupes constitués. Ceci est général pour les méthodes de segmentation. Règles d association Rappelons que l application principale est «l analyse du panier de la ménagère», c est à dire la recherche d associations entre produits sur les tickets de caisse. Les domaines applicables sont tous les secteurs pour lesquels il est intéressant de rechercher des groupements potentiels de produits. Par exemple en médecine, pour rechercher des complications dues à des associations de médicaments. Méthode Première étape : Etablissement de la matrice «Achats /Produits» Cette Matrice représentée sous forme de tableau, stigmatise l apparition d un produit lors d un achat. Soit A={Ai,..,An} la liste des achats et P={P1,..,Pq} la liste des produits considérés. Alors la matrice de dimension (n,q) : M=[Mij] tel que pour tout i {1,..,n}et pour tout j {1,..,q} : Mij=1 si le produit Pj appartient à l achat Ai Mij=0 sinon est la matrice booléenne d apparition d un produit dans les achats. Généralisation : Etablissement de la matrice «Achats / k-produits» Soit : M(k)= [Mij 1,..,j k ] tel que pour tout i {1,..,n}et pour tout j 1,..,j k Mij 1,..,j k =1 si les produits Pj 1,..,Pj k appartienent à l achat Ai Mij 1,..,j k =0 sinon la matrice booléenne d apparition de k produits dans les achats. {1,..,q} Deuxième étape : Etablissement de la matrice des co-occurrence pour k éléménts, représentant l effectif d apparition simultané de k produits de P lors des achats. Si on construit la matrice de co-occurrence à 2 éléments, le résultat obtenu sera un tableau avec la liste des produits en ligne et en colonne. L effectif de simultanéité, pour 2 produits lors des achats, apparaît à l intersection d une ligne et d une colonne du tableau. Les valeurs trouvées sont celles du produit matriciel des matrices «Produits /Achats» et «Achats /Produits». Soit : M (2) = t M.M où t M est la matrice transposée dem. Il s agit donc d une matrice symétrique, dont tout élément Mii de la diagonale principale donne le nombre d apparitions d un produit Pi lors des achats. 9

10 Généralisation : Si on dispose de la matrice «Achats / (k-1)-produits» notée M(k-1), alors le produit matriciel : M (k) = t M.M(k-1) est la matrice de co-occurrence de k produits de P lors des achats. Remarques : - Toutes les matrices de rang k se déduisent algorithmiquement de la matrice «Achats /Produits». - La pratique montre que l on calcule uniquement les matrices de rang inférieur ou égal à trois. Détection de règles d association Une règle est une forme d induction logique : <condition> <résultat>. On s intéresse généralement aux règles de la forme X Y et X Y Z, où X,Yet Z sont des produits et le connecteur logique de conjonction. Toute règle <condition> <résultat> se dériverait par la logiquement pure en la forme totologique : <condition> <résultat> Vrai. Dans cette étude, on ne recherchera pas forcément une vérité absolue mais une fréquence forte de réalisation appelée support. Ce ratio S se calcule grâce à l effectif d = M i représentant la règle r=<condition> <résultat> dans la matrice M (k). Précisons que est le numéro de la colonne du tableau correspondant à la condition (par exemple X Y). On a : S (r) = d(r) / n où n est le nombre d achats. Ce critère permet de pré-sélectionner des règles à support intéressant. Cependant, on observe que les règles <condition> <résultat> et< résultat > < condition > ont le même support. Laquelle sera la plus intéressante à étudier? Pour déterminer ceci, on introduit la notion de confiance d une condition pour une règle : C(<condition >, r) = S (r) / S (<condition >) = d(r) / d(<condition >) Rappelons que <cond> est considéré comme une règle représentée dans M (k-1). Si une règle <condition> <résultat> affiche une meilleure confiance que les autres règles de même support, on ignore si la fréquence de <résultat> ne serait pas meilleure (plus intéressante à étudier) avec une condition moins stricte ou différente. On étudie alors l amélioration : A (r) = C(<condition>, r) / S (<résultat>) = n. d(r) / d(<condition >) d(<résultat >) Une règle est intéressante lorsque l'amélioration est supérieure à 1. Critiques de la méthode Les atouts : + Méthode non supervisée à l exception de la classification de différents articles en produits, + Clarté des résultats : les règles faciles à interpréter, + Traite des données de taille variables : le nombre de produits dans un achat n est pas défini, + Simplicité de programmation : même avec un tableur, + Méthode adaptable : on peut faire intervenir des produits virtuels (date, jour, saison) afin de «temporaliser» les données à analyser. 10

11 Les désavantages : - Pertinence des résultats : ils peuvent être triviaux ou inutiles, - Efficacité faible dans certains cas : pour les produits rares, - Traitement préalable des données : classement les articles en produits, - Le coût calculatoire de la méthode est important : Pour n et k 2 donnés, la taille des tableaux de co-occurrence est : n! /(n-k)!. k! Amélioration : en fixant a priori un seuil minimum des supports à traiter, un effectue pour chaque k un élagage qui diminue le nombre de cas à traiter. Algorithmes de classification, estimation et prédiction Rappelons que ces trois tâches sont fonctionnellement liées. Elles s appuient sur le principe de détermination d une variable particulière d un individu connaissant le comportement d un échantillon donné. Méthode des plus proches voisins Cette méthode est dédiée à la classification et peut être étendue à des tâches d'estimation. Elle part de l'idée de prendre des décisions en recherchant un ou des cas similaires déjà résolus en mémoire. Cependant, il n'y a pas d'étape d'apprentissage consistant en la construction d'un modèle à partir d'un échantillon. C'est une fonction de distance et une fonction de choix de la classe qui constitue le modèle. On doit choisir a priori le nombre «k» de voisins d un individu. On définira préalablement des distances sur chaque champ et une distance entre enregistrements. Données : un échantillon de m éléments : E={(x i,c(x i )} ; un entier i élément de {1,..,m} On fournit en entrée un nouvel enregistrement y, dont il faut déterminer : 1) les k plus proches voisins, soit une application : {1,..,k} {1,..,m} 2) la classe de y, qui est une fonction combinée des k éléments trouvés : c(y) = [c(x (j))] pour tout j {1,..,k} Choix des distances Définition des distances sur les champs : elle s effectue en fonction du type des champs. Les type de champ numérique : on peut établir des distances basées sur la valeur absolue - d(x,y)= x-y - d(x,y)= x-y /dmax avec dmax = Max( u-v ) pour toutes les valeurs u,v de la variable. Cette forme réduite est préférable pour l homogénéité des échelles. Les types de champs discrets : ils sont subdivisés en trois catégories. Les champs binaires, ils ont une structure isomorphe à {0,1}. Si le champ prend ses valeurs dans {A,B} alors il existe une application bijective : {A,B} {0,1} t elle que : (, ) = ( )- ( Les champs énumératifs, pour lesquels on introduit une «distance relative» en considérant la fonction de distance suivante : (, ) = 0 si et 1 sinon. On remarquera la similitude avec la distance des champs booléens. Les champs énumératifs ordonnés, définis dans E={ei} i {1,..,n} isomorphe à{1,..,n}. On détermine la distance par : ( ei, ej) = 1 / i-j 11

12 Définition des distances entre enregistrements : si (di) i {1,..,n} sont les distances respectives pour chaque champ xi, on défini la distance entre enregistrements par des fonctions du type : n - Distance Euclidienne : D(x,y)= di (xi, yi) 2 i=1 Elle favorise la proximité des champs. n - Sommation : D(x,y)= di (xi, yi) i=1 Elle accepte des écarts importants sur les champs au profit d une proximité globale. Sélection de la classe L'idée de la méthode est la recherche de cas similaires au cas à résoudre et d'utiliser les classifications des cas proches pour prendre une décision. La méthode la plus simple est de rechercher le cas le plus proche et de prendre la même décision. C'est la méthode 1-PPV (1-NN) du plus proche voisin. Si cette méthode peut fournir de bons résultats sur des problèmes simples pour lesquels les points (les enregistrements) sont bien répartis en groupes denses d'enregistrements de même classe, en règle générale, il faut considérer un nombre de voisins plus important pour obtenir de bons résultats. La décision par combinaison des k classes peut se faire de deux manières en considérant différentes définitions de la fonction présentée précédemment. Soit la répartition des k voisins {Vi}, i {1,..k} i dans j classes {C1,.., Cj}, j k : 1 ) Le vote majoritaire : La classe de y est : c(y)=max(card(c )) pour variant de 1 à j 2 ) Le vote majoritaire pondéré : Pour tous les voisins Vi, on définit le pondération i = D(Vi, y ) -1 puis, pour chaque C, {1,..j}, la pondération W = i : Vi C. Soit donc (W ) {1,..,j}, l ensemble des poids de vote pour chaque classes. La classe de y est : c(y) = C telle que W =Max (W ) pour variant de 1 à j. Dans les deux cas précédents, il est possible de définir une confiance dans la classe attribuée égale au rapport entre les votes gagnants et le total des votes : Conf(c(y) )= Card(C ) / k Lorsque la technique est appliquée à une tâche d'estimation, donc à prédire la valeur d'un attribut continu, la notion de vote perd tout son sens. Une première solution pour combiner les réponses est l'interpolation, c'est-à-dire de calculer une moyenne pondérée des réponses. Un défaut de cette solution est de «lisser» les données. Une deuxième solution est de considérer les k enregistrements avec la valeur prédite correspondante et d'utiliser les techniques de régression linéaire pour estimer la valeur pour y. 12

13 Critiques de la méthode Les atouts : + Absence d'apprentissage : c'est l'échantillon qui constitue le modèle. L'introduction de nouvelles données permet d'améliorer la qualité de la méthode sans nécessiter la reconstruction d'un modèle. C'est une différence majeure avec des méthodes telles que les arbres de décision et les réseaux de neurones. + Clarté des résultats : bien que la méthode ne produise pas de règle explicite, la classe attribuée à un exemple peut être expliquée en exhibant les plus proches voisins qui ont amené à ce choix. + Données hétérogènes : la méthode peut s'appliquer dès qu'il est possible de définir une distance sur les champs. Or, il est possible de définir des distances sur des champs complexes, tels que des informations géographiques, des textes, des images ou du son. C'est parfois un critère de choix de la méthode PPV car les autres méthodes traitent difficilement les données complexes. On peut noter, également, que la méthode est robuste au bruit. + Grand nombre d'attributs : la méthode permet de traiter des problèmes avec un grand nombre d'attributs. Cependant, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand. Les désavantages : - Sélection des attributs pertinents : pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l'espace et soient suffisamment proches les uns des autres. Si le nombre d'attributs pertinents est faible relativement au nombre total d'attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur les attributs non pertinents. Il est donc parfois utile de sélectionner tout d'abord les attributs pertinents. - Le temps de classification : si la méthode ne nécessite pas d'apprentissage, tous les calculs doivent être effectués lors de la classification. Ceci est la contrepartie à payer par rapport aux méthodes qui nécessite un apprentissage (éventuellement long) mais qui sont rapides en classification (le modèle est créé, il suffit de l'appliquer à l'exemple à classifier). Certaines méthodes permettent de diminuer la taille de l'échantillon en ne conservant que les exemples pertinents pour la méthode PPV, mais il faut, de toute façon, un nombre d'exemple suffisamment grand relativement au nombre d'attributs. - Stocker le modèle : le modèle est l'échantillon, il faut donc un espace de mémoire important pour le stocker ainsi que des méthodes d'accès rapides pour accélérer les calculs. - Définir les distance et nombre de voisins : les performances de la méthode dépendent du choix de la distance, du nombre de voisins et du mode de combinaison des réponses des voisins. En règle générale, les distances simples fonctionnent bien. Si les distances simples ne fonctionnent pour aucune valeur de k, il faut envisager le changement de distance, ou le changement de méthode. Les arbres de décision Il s agit de générer des représentations graphiques de classifications à partir de données. Les nœuds internes de l'arbre sont des tests sur les champs, les feuilles sont les classes. Les deux algorithmes les plus connus et utilisés sont CART (Classification And Regression Trees [BFOS84]) et C5 (version la plus récente après ID3 et C4.5 [Qui93]). Ces algorithmes sont performants et génèrent des procédures de classification exprimables sous forme de règles. Pour utiliser un arbre de décision, c est-à-dire classer un enregistrement, il suffit de descendre dans l'arbre selon les réponses aux différents tests pour l'enregistrement considéré. Les règles des systèmes construits sont exhaustives et mutuellement exclusives. Cela signifie que pour tout enregistrement une et une seule règle s'applique. 13

14 La première étape : Apprentissage des arbres de décision. Algorithme d'apprentissage Donnée : un échantillon S de m enregistrements classés (x, c(x)) Initialisation : A :=arbre vide ; nœud_courant := racine ; échantillon_courant := S Répéter Décider si le nœud courant est terminal Si ( nœud_courant est terminal ) Étiqueter le nœud courant par une feuille Sinon Sélectionner un test : Créér les fils Définir les échantillons sortants du nœud Fin de si nœud_courant := un nœud non encore étudié de A échantillon_courant : échantillon atteignant nœud_courant Jusque (nœud_courant = ) Élaguer l'arbre de décision A obtenu Sortie : l arbre A élagué Explication des différents points mis en relief de cet algorithme Décider si le nœud courant est terminal : Le nœud courant est terminal si : il n'y a plus d'attributs disponibles, c'est-à-dire que sur le chemin menant de la racine au nœud courant tous les tests disponibles ont été utilisés, tous les enregistrements de l'échantillon courant sont dans une même classe. Les critères précédents sont indiscutables, les autres critères sont spécifiques aux différents algorithmes et sont souvent paramétrables. Des exemples de critères sont : la proportion d'exemples d'une classe est supérieure à un seuil prédéfini. Par exemple, on décide de l'arrêt si une des classes contient plus de 95 % des exemples. C5 utilise le critère suivant : s il n'existe pas de test ayant au moins k éléments sur deux branches alors le nœud est terminal. L'objectif de ce critère est d'éviter une croissance trop grande de l'arbre par l'exploration de branches comprenant trop peu d'exemples. La valeur de k est, par défaut, égale à 2, elle peut être modifiée par l'utilisateur. Étiqueter le nœud courant par une feuille : On étiquette le nœud courant par la classe majoritaire. Par exemple, si le nœud courant est terminal et s il y a 5 exemples de classe Co et 20 exemples de classe C1, on étiquette par C1. Cependant, pour certains problèmes, il se peut que les erreurs de classification, d'une classe vers l'autre, aient des conséquences différentes. C'est le cas, par exemple, d un diagnostic médical pour lequel classer un individu malade comme sain ou classer un individu sain comme malade n'a pas les mêmes conséquences. Dans ce cas, il est possible de définir des coûts de mauvaise classification et la classe choisie le sera en fonction des coûts attribués. Sélectionner un test : Un test un moyen de diviser l échantillon d un nœud en fixant la valeur d un des attributs non encore testé. Il en découle une descendance (n sous-échantillons composés d exemples classés) de l échantillon courant en fonction la réponse obtenue pour le test. L objectif est de déterminer le test qui discrimine le mieux l échantillon. Pour ce faire, on suppose que le nœud courant n'est pas terminal. Soit S l'échantillon 14

15 associé au nœud courant. Pour introduire les possibles critères de sélection du test, considérons l'exemple suivant : S contient 100 exemples, 60 de classe Co et 40 de classe C1. Le nœud courant sera étiqueté par le couple (60,40). Supposons que deux tests soient disponibles, et que ces deux tests déterminent les répartitions suivantes : (60,40) A (30,10) (30,5) (0,25) et (60,40) B (40,20) (20,20) Pour choisir le test, on utilise des fonctions qui mesurent le «degré de mélange» des différentes classes. Pour les problèmes à deux classes, on peut utiliser une des fonctions suivantes : - la fonction de Gini : Gini(x) = 4x(1-x) - la fonction entropie : Entropie(x) = -x log x - (1-x) log (1-x) où x désigne la proportion d'éléments dans l'une des deux classes. Ces deux fonctions sont à valeurs dans l'intervalle réel [0,1], prennent leur minimum pour x=0 ou x=1 (tous les exemples sont dans une même classe) et leur maximum lorsque x=1/2 (les exemples sont également répartis entre les deux classes). Choisissons, par exemple, la fonction de Gini. Pour le nœud courant, x=60/100 et Gini(x)=4 x 60/100 x 40/100 = Si on choisit le test A, pour le premier fils (le plus à gauche), x=3/4 et Gini(x)=0.75, pour le second fils x=6/7 et Gini(x)=0.49, pour le troisième fils, Gini(x)=0. Pour comparer les trois tests, on estime le «degré de mélange espéré» en pondérant les degrés de mélange des fils par la proportion des exemples allant sur ce fils, on obtient : - pour A : 40/100 x /100 x /100 x 0 = pour B : 60/100 x /100 x 1 = 0.93 On choisit alors le test qui fournit de degré de mélange espéré minimum, soit le test B. Souvent, on introduit le Gain, qui est égal au degré de mélange du nœud courant diminué du degré de mélange espéré par l'introduction du test, on choisit alors le test qui apporte le gain maximal. Élaguer l'arbre de décision obtenu : Il est possible de poursuivre la croissance de l'arbre jusqu'à obtention d'un arbre d'erreur nulle (si c'est possible : s il n'existe pas d'exemples ayant la même description mais des classes différentes) ou d'un arbre d'erreur mesurée sur l'ensemble d'apprentissage la plus petite possible. Cependant, l'objectif d'une procédure de classification est de bien classer des exemples non encore rencontrés, on parle de pouvoir de généralisation. Si l'algorithme fournit en sortie un arbre très grand qui classe bien l'échantillon d'apprentissage, on se trouve confronté au problème de sur-spécialisation : on a appris << par cœur >> l'ensemble d'apprentissage, mais on n'est pas capable de généraliser. L'objectif de la phase d'élagage est d'obtenir un arbre plus petit (on élague des branches, c'est-à-dire que l'on détruit des sous-arbres) dans le but d'obtenir un arbre ayant un meilleur pouvoir de généralisation (même si on fait augmenter l'erreur sur l'ensemble d'apprentissage). Principales caractéristiques des algorithmes d'apprentissage considérés CART A l'origine, l'algorithme ne considérait que des tests binaires. La fonction qui mesure le degré de mélange et le gain est par défaut la fonction de Gini (les versions diffusées proposent d'autres choix). Pour l'élagage, on effectue un parcours ascendant de l'arbre construit. Pour décider si un sous-arbre peut être élagué, on compare l'erreur réelle estimée de l'arbre courant avec l'arbre élagué. L'estimation de l'erreur réelle est mesurée sur un ensemble test ou par validation croisée. C5 C5 est la version la plus récente d'un algorithme ID3 développé par R. Quinlan en L'algorithme peut prendre en compte des attributs d'arité quelconque. La fonction qui mesure le degré de mélange et le gain est la fonction entropie. Cette fonction a tendance à privilégier les attributs possédant un grand nombre de valeurs. Pour éviter ce biais, une fonction gain d'information est également disponible. L'élagage est effectué avec l'ensemble d'apprentissage par une évaluation pessimiste de l'erreur. Bien que cette technique puisse sembler inadaptée, elle donne de bons résultats en pratique. 15

16 Critiques de la méthode Les atouts : + Adaptabilité aux attributs de valeurs continus : par exemple, dans C5, si A est un attribut continu, pour sélectionner un test, l'algorithme fait participer à la compétition tous les tests de la forme A>a où a est une valeur prise par l'attribut A dans l'ensemble d'apprentissage. + Adaptabilité aux attributs de valeurs manquantes : les algorithmes peuvent traiter les valeurs manquantes (descriptions contenant des champs non renseignés) pour l'apprentissage, mais aussi pour la classification. + Génération de règles : C5 propose également de générer un système de règles à partir de l'arbre de décision. Le système obtenu n'est pas une simple réécriture de l'arbre car des transformations et simplifications sont effectuées. + Bonne lisibilité du résultat : un arbre de décision est facile à interpréter et est la représentation graphique d'un ensemble de règles. Si la taille de l'arbre est importante, il est difficile d'appréhender l'arbre dans sa globalité. Cependant, les outils actuels permettent une navigation aisée dans l'arbre (parcourir une branche, développer un nœud, élaguer une branche) et, le plus important, est certainement de pouvoir expliquer comment est classé un exemple par l'arbre, ce qui peut être fait en montrant le chemin de la racine à la feuille pour l'exemple courant. + Traitement de tout type de données : l'algorithme peut prendre en compte tous les types d'attributs et les valeurs manquantes. Il est robuste au bruit. + Sélectionne des variables pertinentes : l'arbre contient les attributs utiles pour la classification. L'algorithme peut donc être utilisé comme pré-traitement qui permet de sélectionner l'ensemble des variables pertinentes pour ensuite appliquer une autre méthode. + Donne une classification efficace : l'attribution d'une classe à un exemple à l'aide d'un arbre de décision est un processus très efficace (parcours d'un chemin dans un arbre). + Disponibilité des outils : les algorithmes de génération d'arbres de décision sont disponibles dans tous les environnements de fouille de données. + Méthode extensible et modifiable : la méthode peut être adaptée pour résoudre des tâches d'estimation et de prédiction. Des améliorations des performances des algorithmes de base sont possibles grâce des techniques qui génèrent un ensemble d'arbres votant pour attribuer la classe. Les désavantages : - Méthode sensible au nombre de classes : les performances tendent à se dégrader lorsque le nombre de classes devient trop important. - Manque d évolutivité dans le temps : l'algorithme n'est pas incrémental, c'est-à-dire, que si les données évoluent avec le temps, il est nécessaire de relancer une phase d'apprentissage sur l'échantillon complet (anciens exemples et nouveaux exemples). 16

17 Synthèses Dans le but de résumer ce qu apporte la fouille de données, le tableau suivant met en relation les tâches définies avec l utilisation possible des algorithmes que nous avons parcourus. Méthode des k-voisins (D) Arbres de décision Réseaux de neurones (A) Algorithmes spécifiques Segmentation Non Oui : méthode dichotomique descendante (D) Oui - Méthode des k-moyennes (D) - Méthode d agglomération (D) Classification Estimation Oui Oui Oui : CART, C5 (A) Oui - Oui : CART, C5 (A) Oui - Prédiction Oui Oui : CART, C5 (A) Oui - Règles d association Non Non Non - Tables de co-occurrence (D) (D) Méthodes dynamiques ou incrémentales, ne nécessitant pas d apprentissage. (A) Méthodes nécessitant une phase d apprentissage sur un échantillon exemple. 17

18 La technique de l analyse de texte - Comment obtenir les mesures de similarité 18 Pré-traitements 19 Approche classiques : analyses de surface 19 Approche sophistiquées : vecteurs conceptuels 19 Les résultats 20 Représentation et mesure mesures de similarité 20 Mesure du Chi-deux 20 Mesure à base de produits scalaires et de cosinus 21 Mesure de l entropie relative 22 Distance angulaire : vecteurs conceptuels 22 - Les traitements sur les textes 23 Regroupements 23 Règles d association 24 Classification 24 - Synthèses 23 Comment obtenir les mesures de similarité Lorsqu on dispose de données textuelles, quelles que soient les différentes utilisations que l on envisage, une des priorités est de se donner une représentation du contenu de ces textes. Bien entendu, une analyse sémantique complète des documents n est rentable que dans un cas réduit d exploitation et devient inenvisageable dans le cadre de grand corpus de textes. Des représentations plus synthétiques sont opérées grâce à une analyse dite de «surface», qui nécessite tout de même des outils d analyse morphosyntaxiques. Les techniques mises en oeuvre pour calculer les similarités varient bien évidemment selon les disciplines, mais elles s'intègrent cependant le plus souvent dans une même approche générale en deux temps :. Lors de la première phase, les entités textuelles sont tout d'abord associées à des représentations spécifiques qui vont servir de base au calcul des similarités. En ADT, on utilise souvent les profils lexicaux alors qu'en RD et TM des distributions (éventuellement pondérées) de mots-clés ou des vecteurs contextuels de co-occurrences sont mis en oeuvre. Il est important de remarquer que dans tous les cas, les structures associées sont représentées sous la forme d'éléments d'un espace vectoriel de grande dimension appelé «l'espace de représentation».. Par la suite, un modèle mathématique est choisi pour mesurer, dans l'espace de représentation, les proximités qui seront utilisées pour estimer les similarités entre entités textuelles. En ADT, la distance du chi-deux ( 2 ) est un choix fréquent. En RD, des similarités dérivées de mesures à base de cosinus sont utilisées, alors qu'en TM on préfère souvent des mesures d'entropie relative. 18

19 Pré-traitements Afin de produire les structures qui vont être utilisées pour représenter les textes lors du calcul des similarités, les données textuelles doivent tout d'abord être décomposées en unités lexicales plus simples. Plusieurs choix sont possibles et les différentes unités retenues auront des degrés de pertinence variables selon le domaine d'application particulier choisi. Approche classique Une approche classique pour définir les unités textuelles dans un corpus est d'utiliser les formes de surface («mots») pouvant être produites par des techniques simples de fragmentation automatique. On notera l existence de différents niveaux de découpages : suite de mots, phrases, paragraphes ou encore unités logiques (Lallich & Ouerfelli 98). Cependant, ces unités élémentaires peuvent également faire l'objet de traitements additionnels permettant l'intégration de connaissances linguistiques plus sophistiquées dans les représentations : L'étiquetage morphosyntaxique : affectation automatique aux mots d'étiquettes grammaticales, ou La lemmatisation : réduction automatique des formes déclinées à une représentation canonique (infinitif pour les verbes, singulier pour les noms,...). De plus, on observe que le sens des mots est fortement lié à la manière dont ils apparaissent en combinaison. Par exemple, des expressions composées comme «sécurité sociale» ou «niveau de vie» ont des significations qui ne peuvent être simplement dérivées du sens de leurs constituants. Il peut également être utile de prendre en compte des unités plus larges constituées de plusieurs mots. L'utilisation des «segments répétés» (Salem, 1987) ou des «quasi-segments»( Becue, 1993), reposent sur la détection automatique des séquences répétitives, constituant ou non des formes ou expressions composées. Parallèlement, on trouve aujourd hui des approches combinant des connaissances linguistiques et statistiques pour identifier de façon automatique les formes composées (ou termes) (Daille, 1994). D autres complexités du langage naturel viennent perturber l analyse, ce sont par exemple des problèmes de polysémie ou de synonymie. Pour obtenir des résultats pertinents lors de l analyse de textes, il devient indispensable de s appuyer sur des dictionnaires et des environnements contextuels pour définir le sens précis d un terme dans une phrase. Approche sophistiquées Lorsqu on fait le bilan de toutes les informations qu il serait nécessaire de posséder pour affiner une analyse de document, on observe que la notion d analyse de surface est rapidement insuffisante. Ainsi le TALN a étudié la possibilité d établir une représentation sémantique d unités textuelles à travers l idée de que tout terme, dans son contexte, peut être défini par un vecteurs, reposant dans espace de grande dimension (873), dont chaque composante active plus ou moins (positivement ou négativement) un concept issu de l ontologie générale basée sur le thésaurus Larousse (Lafourcade, Prince, Schwab 2001). Cette technique d analyse sémantique contextuelle est appelée représentation par vecteurs conceptuels. 19

20 Le résultat des pré-traitements L objectif de cette phase est d établir des représentations formelles de textes. Ainsi, lors d une analyse de surface, le résultat produira un tableau mettant en relation les sources avec des termes présentant les propriétés de :. Corrélation, c est-à-dire apparaissant souvent ensemble dans un texte,. Fréquence, dont les apparitions sont importantes dans un texte. À partir de ce résultat, l analyse de données textuelles se propose de fournir différents traitements. Par exemple :. le regroupement des documents présentant des similitudes dans les fréquences d apparition terminologiques,. la mise en évidences e règles d association de termes,. la définition de distances sémantiques pour des tâches spécifiques. L analyse par vecteurs conceptuels produit des distances sémantiques plus riches encore que les mesure de similarités observées dans les approches classiques. Représentation et mesure de similarité Dans les différents domaines de l analyse de texte, les tuples ou vecteurs obtenus donnent une représentation possible d un document. Ces vecteurs vont être à l origine de recherches de similarité ou dissimilarité basée sur différentes mesures, qui nes dont pas forcément des distances. Distance du Chi-deux L'analyse de données textuelles s'intéresse essentiellement à l'évaluation de similarités entre documents. Usuellement, chaque document est représenté par son profil lexical : un tuple Di qui contient les fréquences des unités textuelles dans le document. Le corpus est alors représenté par une matrice T dont la i-ème ligne est la représentation du i-ème document. La similarité entre les documents est mesurée par une distance, appelée la distance du chi-deux, très proche de la distance euclidienne (somme des carrés des différences entre les composantes des profils) mais avec une pondération (1/f.j) associée à chacun des termes de la somme. Si on refond la matrice pour intégrer les pondérations, on obtient pour chaque ligne : Di=(w i,j ) j, avec w i,,j = f i,j /( f i. x f. j ) Alors la distance s exprime par : Notons que le rapport f i,j / f i. noté p i,j est la fréquence relative du j-ème terme dans le i-ème document. L une de ses propriétés importantes est que les distances entre les lignes (resp. colonnes) restent inchangées lors de la fusion de deux colonnes (resp. lignes) de même profil. Cette propriété d'invariance induit une certaine stabilité des résultats pour les analyses textuelles : en effet, deux textes ayant le même profil lexical pourront être indifféremment considérés comme une seule entité ou deux entités distinctes sans que cela n'affecte les autres distances. 20

21 L autre propriété est que la distance du chi-deux est une mesure de proximité particulièrement sensible aux «différences hors intersection» (pour les termes n apparaissant pas dans l un des textes). La sensibilité aux différences n'a bien sûr rien de surprenant puisqu'une distance est, par définition, une dissimilarité et est de ce fait une fonction qui croît lorsque les différences entre les entités comparées augmentent. En revanche, il est notable est que les «différences hors intersection» jouent un rôle important dans le calcul de la valeur de la dissimilarité. La conséquence de cette propriété est que la distance du chi-deux est a priori peu adaptée aux situations où les tailles des entités textuelles comparées sont fortement différentes. Ceci est par exemple souvent le cas en recherche documentaire lors de l'évaluation de similarités entre courtes requêtes et longs documents. Similarités à base de cosinus En recherche documentaire, le problème principal est d'évaluer les similarités entre les éléments stockés dans une base documentaire et des requêtes représentant les besoins d'information exprimés par les utilisateurs. Dans le cadre du modèle vectoriel classique, les approches utilisant des métriques à base de cosinus sont les plus fréquentes ( Salton and Buckley, 1990). Différentes variations de cette approche ont été implémentées dans le système SMART, bien connu dans le domaine ( Salton and Buckley, 1988). On définit une matrice T dont les lignes sont : Di=(w i,j ) j, avec w i,,j = 0,5(1+ p i,j /max l (p i,j )). log ( N /n j ) si p i,j > 0 Et w i,,j = 0 sinon w i,j, est le poids du terme T j dans le document Di, p i,j, est la fréquence relative de T j dans Di, N représente le nombre total de documents dans la base documentaire et n j le nombre de documents contenant le terme T j. Les mesures utilisées dans cette application portent en réalité sur la dissimilarité. Ce sont : 1) atn (Di, Di ) = Di Di, où est le produit scalaire. 2) atc (Di, Di ) = cos (Di, O, Di ), où O est l origine de l espace de représentation. Les propriétés du produit scalaire font que sous les conditions : Max(Di \ Di ) < Max(Di / Di ) et Max(Di / Di) < Max(Di \ Di) où Di \ Di est la restriction de Di aux parties nulles de Di et Di / Di est la restriction de Di aux parties non nulles de Di la dissimilarité atn n'est sensible qu'aux parties partageant les profils lexicaux des entités textuelles comparées. Elle est de ce fait bien adaptée pour le calcul de similarités dans les cas où les similarités entre parties de documents sont suffisantes pour entraîner les similarités entre les documents pris dans leur ensemble. En simplifiant, la mesur atn est sensible au «nombre» de mots communs entre les documents comparés. Dans le domaine de la recherche documentaire, la dissimilarité atn peut être utilisée pour rechercher de l'information «à l'intérieur» des documents, par exemple : dans une partie ou une phrase de ces derniers. Pour comparer des textes de manière plus générale, la dissimilarité atc, plus sensible à la «proportion» de termes communs, est mieux adaptée. 21

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Contrôle interne et organisation comptable de l'entreprise

Contrôle interne et organisation comptable de l'entreprise Source : "Comptable 2000 : Les textes de base du droit comptable", Les Éditions Raouf Yaïch. Contrôle interne et organisation comptable de l'entreprise Le nouveau système comptable consacre d'importants

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

chapitre 4 Nombres de Catalan

chapitre 4 Nombres de Catalan chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Algorithmes de recherche

Algorithmes de recherche Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Journal officiel de l'union européenne

Journal officiel de l'union européenne 20.5.2014 L 148/29 RÈGLEMENT DÉLÉGUÉ (UE) N o 528/2014 DE LA COMMISSION du 12 mars 2014 complétant le règlement (UE) n o 575/2013 du Parlement européen et du Conseil en ce qui concerne les normes techniques

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée O b s e r v a t o i r e E V A P M É q u i p e d e R e c h e r c h e a s s o c i é e à l ' I N R P Taxonomie R. Gras - développée Grille d'analyse des objectifs du domaine mathématique et de leurs relations

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1 Chap 4: Analyse syntaxique 1 III- L'analyse syntaxique: 1- Le rôle d'un analyseur syntaxique 2- Grammaires non contextuelles 3- Ecriture d'une grammaire 4- Les méthodes d'analyse 5- L'analyse LL(1) 6-

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Types de REA produites dans le cadre de la séquence pédagogique

Types de REA produites dans le cadre de la séquence pédagogique Scénario pédagogique APPRENDRE À ENSEIGNER AUTREMENT Description générale du scénario Titre Les bases de données relationnelles Résumé Dans le cadre d'un cours à distance, la visioconférence est une REA

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Chapitre 10. Architectures des systèmes de gestion de bases de données

Chapitre 10. Architectures des systèmes de gestion de bases de données Chapitre 10 Architectures des systèmes de gestion de bases de données Introduction Les technologies des dernières années ont amené la notion d environnement distribué (dispersions des données). Pour reliér

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Les dessous des moteurs de recommandation

Les dessous des moteurs de recommandation Les dessous des moteurs de recommandation La personnalisation est un enjeu majeur du e-commerce aujourd hui. Elle réveille l esprit commerçant dans les boutiques en ligne en remettant le visiteur au cœur

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j )) La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA glorenne@irisa.fr C. Hérault Hydrostop christophe@hydrostop.fr V. Hulin Hydrostop vincent@hydrostop.fr

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF 10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail