MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M."

Transcription

1 DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES PAR APPRENTISSAGE AUTOMATIQUE Soutenu le : /../2012 Devant les membres du jury : Président : B. Beldjilalii Professeur Départementt d Informatique, Université d Oran Encadreur : B. Atmani MCA Départementt d Informatique, Université d Oran Co-encadreur : F. Barigou MAA Départementt d Informatique, Université d Oran Examinatrice : S. Nait Bahloul MCA Départementt d Informatique, Université d Oran Examinateur : M. Abdi MCA Départementt d Informatique, Université d Oran

2 Je dédie ce travail de magister à mes parents et à mon adorable nièce Imène i

3 Remerciements ii Tout d abord, je remercie Monsieur Bouziane Beldjilali, Professeur au département d informatique de l université d Oran, et chef du laboratoire d informatique d Oran «LIO», qui m a fait le grand honneur de présider ce jury. Merci pour vos conseils avisés, vos remarques constructives, pendant la première année de post-graduation. Qu il trouve ici l expression de ma reconnaissance. J éprouve un grand respect pour son personnage, ainsi que pour ses grandes qualités humaines. Je remercie vivement Docteur Naït Behloul Nacera, Maître de conférences au département d informatique à l université d Oran et Docteur Abdi Mustapha, maître de conférences au département d informatique à l université d Oran, d avoir accepté d examiner et d évaluer ce travail. Mes remerciements vont ensuite à mes encadreurs Docteur Atmani Baghdad, Maître de conférences au département d informatique à l université d Oran, pour avoir accepté d'encadrer ce travail en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu'il a su me communiquer m'ont permis de mener à bien ce travail. Qu'il trouve ici l'expression de ma profonde gratitude. Ma sœur Fatiha, Maitre assistante au département d informatique à l université d Oran, pour l'intérêt qu'elle a porté à ce travail depuis qu'elle m a introduit dans le monde de la recherche scientifique et pour avoir suivi ce travail. J'aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu'elle m'a accordée. Je tiens à exprimer mes sincères remerciements à mon beau frère Belalem Ghalem pour son soutien dans des moments difficiles et ses encouragements tout au long mes études universitaires. J aimerai aussi remercier du fond du cœur mes parents pour leur soutien moral et matériel, et bien sûr mes frères qui ont toujours porté un intérêt à ce que je faisais. Enfin, merci à toutes les personnes qui ont contribué de près ou de loin à l aboutissement de ce travail.

4 Résumé i Le courrier électronique rend vraiment service aux usagers, c est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. Le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d apprentissage automatique. Dans un premier temps, nous proposons une nouvelle approche d induction symbolique à base de graphe d induction et machine cellulaire pour le filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage automatique et supervisé pour la construction d un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf (NB) que nous nommons 3CA&1NB. La diversité entre ces différents classifieurs est assurée par l utilisation (a) des sous-ensembles différents de termes d apprentissage et (b) des algorithmes d apprentissage différents. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Par un vote, Les décisions de ces trois systèmes sont combinées avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Mots-clés : catégorisation de textes, représentation vectorielle des données textuelles, sélection des attributs, apprentissage automatique, apprentissage supervisé, machine cellulaire, combinaison de classifieurs.

5 Abstract ii Today, has become a fast and economical way to exchange information. However, the problem of undesired electronic messages is nowadays a serious issue. To address this growing burden of such s, several detection techniques have emerged. In this paper, we focus on techniques based on machine learning. Firstly, we propose a new symbolic induction approach based on induction graph and cellular machine for spam filtering that we called SPAMAUT. Methodological point of view, we explore all the phases of the process namely, the linguistic preprocessing and attributes selection for textual data representation, supervised learning to build a classifier for spam detection. We examine by experiments on the corpus LingSpam, the impact of stemming, term weighting and attributes selection on the performance of SPAMAUT. In a second step, and to improve SPAMAUT performance, we propose a parallel combination of several versions of that system with the Naïve Bayes classifier (NB); we named this combination 3CA&1NB. The diversity between these classifiers is ensured by the use of (a) different learning terms subsets and (b) different learning algorithms. The proposed combination uses three different SPAMAUT; each one is trained with a subset of different terms. By voting, the decisions of these three systems are combined with that of the NB classifier to classify a new . Experiments indicate an improvement in the quality prediction versus SPAMAUT. And finally in a third time we compare our best results obtained with SPAMAUT and 3CA&1NB with those published in the literature. Keywords: text categorization, space vector representation, attribute selection, machine learning, supervised learning, cellular machine, classifier combination.

6 i Table des matières Introduction Générale.1 Contexte de l étude... 1 Objectifs de l étude... 2 Structure du mémoire Une introduction à la Catégorisation de Textes Notations Catégorisation de textes Définition Processus de catégorisation Conclusion Représentation de Textes Représentation des données textuelles Sac de mots Groupe de mots Racine ou lemme N-grammes de caractères Pondération des termes Pondération booléenne Pondération fréquentielle Pondération TFIDF: Réduction des dimensions Sélection des termes Conclusion Apprentissage automatique supervisé... 25

7 ii 3.1 Techniques d apprentissage automatique Apprentissage non supervisé Apprentissage supervisé : Algorithmes d apprentissage supervisé L algorithme de Rocchio L algorithme Naïve Bayes Les K voisins les plus proches Les machines à support vectoriels Les arbres de décision Les règles de décision Les réseaux de neurones Remarques sur les algorithmes d apprentissages supervisé Combinaison de classifieurs Combinaison parallèle Fusion de classifieurs Conclusion Filtrage de Spam Définition du spam Impact du Spam sur les utilisateurs et les fournisseurs Techniques de lutte contre le spam Filtrage d enveloppe Filtrage du contenu Travaux publiés sur le filtrage de spam Utilisation de classifieur individuel Combinaison de classifieurs Conclusion Détection de spam avec la machine Cellulaire CASI Les Automates cellulaires... 58

8 iii Définition Présentation de la machine CASI Quelques travaux sur la machine CASI Architecture du système SPAMAUT Vectorisation Apprentissage par induction symbolique Classification Synthèse sur le système SPAMAUT Combinaison de classifieurs : 3CA&1NB Architecture du système de combinaison Conclusion Étude expérimentale Corpus et mesures d évaluation Résultats expérimentaux du système SPAMAUT Impact du traitement linguistique Impact de la fonction de sélection Impact de la pondération des termes Comparaison de SPAMAUT avec les algorithmes de WEKA Comparaison de SPAMAUT avec d autres travaux similaires Résultats expérimentaux du système 3CA&1NB Comparaison avec les algorithmes de WEKA Comparaison avec des travaux publiés Discussion et conclusion Conclusion générale et perspectives Bibliographie... 99

9 Liste des tableaux iv Tableau 2.1-Exemple d'une représentation vectorielle booléenne Tableau 2.2-Exemple d'une représentation vectorielle fréquentielle Tableau 2.3-Exemple d'une représentation TFIDF Tableau 2.4-Table de contingence pour un terme t et une classe c Tableau 4.1-Avantages du courrier électronique Tableau 5.1- Règles générées à partir du graphe d'induction de la Figure Tableau 5.2-Configuration initiale de l'automate : contenu de CelFact et CelRule Tableau 5.3- Configuration initiale : état des matrices d'incidence entrée/sortie Tableau 5.4-Modèle cellulaire correspondant au graphe d induction de la Figure Tableau 6.1-Paramètres du système SPAMAUT Tableau 6.2-Comparaison de SPAMAUT avec les meilleurs résultats publiés et utilisant le corpus LingSpam Tableau 6.3-les membres de 3CA&1NB et leurs configurations Tableau 6.4-Performance de classification de 3CA&1NB comparé avec d autres travaux publiés

10 Liste des figures v Figure 1.1-Un exemple d'un système de routage de courriels Figure 1.2-Processus de catégorisation de textes Figure 2.1-Représentation vectorielle des données textuelles Figure 3.1-Principe de l'apprentissage supervisé Figure 3.2-Filtrage de spam à base d'apprentissage supervisé Figure 3.3-K-ppv dans un espace à deux dimensions Figure 3.4-Exemple de deux classes linéairement séparables et non linéairement séparables Figure 3.5-Structure typique d'un perceptron multi-couches Figure 3.6-Méthodes d'apprentissage sur l'axe de compréhensibilité du modèle construit. 38 Figure 3.7-Différentes combinaisons parallèles des classifieurs Figure 4.1-Répartition des spam par contenu. (Gastellier-Prevost, 2009) Figure 5.1-Les différents composants de CASI Figure 5.2-Architecture de SPAMAUT Figure 5.3-Diagramme de flux de l'étape vectorisation Figure 5.4-Processus de sélection des termes Figure 5.5-Diagramme d activités du processus de représentation des données textuelles. 67 Figure 5.6 Extrait d'un graphe d'induction Figure 5.7-Processus de classification d un nouvel Figure 6.1-Évaluation de SPAMAUT Figure 6.2-Impact de la racinisation et élimination des mots vides sur la précision Figure 6.3-Impact de la racinisation et élimination de mots vides sur le rappel Figure 6.4-Impact de la sélection des termes

11 vi Figure 6.5-Impact de la pondération des termes Figure 6.6- Comparaison de la précision de SPAMAUT avec celles des algorithmes de WEKA Figure 6.7-Comparaison du rappel de SPAMAUT avec ceux des algorithmes de WEKA. 86 Figure 6.8-Comparaison de la F1-mesure de SPAMAUT avec celles des algorithmes de WEKA Figure 6.9-Comparaison de l'éxactitude de SPAMAUT avec celles des algorithmes de WEKA Figure 6.10-Performance de classification des différents classifieurs Figure 6.11-Taux d'erreur obtenus par les différents classifieurs Figure 6.12-Comparaison de la précision et du rappel de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA Figure 6.13-Comparaison de F1mesure et l'exactitude de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA

12 GLOSSAIRE AA TC SMTP DNS ISP IP URL CASI i Apprentissage Automatique Text Categorization, en français catégorisation de textes (CT). Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard permettant de transférer le courrier entre deux serveurs de messagerie - celui de l'expéditeur et celui du destinataire. le système de noms de domaine (Domain Name System) est un service permettant d'établir une correspondance entre une adresse IP et un nom de domaine et, plus généralement, de trouver une information à partir d'un nom de domaine Internet Service Provider est un fournisseur d accès à Internet (FAI). C est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion au réseau informatique Internet. Internet Protocol (abrégé en IP) est une famille de protocoles de communication de réseau informatique conçus pour et utilisés par Interne. les adresses web sont appelées Uniform Resource Locator (URL). Elles indiquent «comment» (par quel chemin sur le réseau) accéder à une ressource. Cellular Automata for System Induction : il s agit d un automate cellulaire à base d induction

13 Introduction Générale Contexte de l étude Le courrier électronique (ou courriel) est aujourd'hui l'une des applications les plus utilisées sur internet et sur les réseaux d entreprises. Utilisé pour des applications très variées (personnelles, professionnelles, associatives, etc.) celui-ci tend à prendre une place de plus en plus importante par rapport aux moyens de communication traditionnels. Outre son faible coût, la messagerie électronique a l'avantage d'optimiser la communication et la diffusion d'informations. Il est impossible de donner une liste exhaustive de ces avantages, mais il est évident que le courrier électronique: - permet une économie de temps et de moyens, - c est un moyen de communication rapide et relativement moins cher (comparé au courrier par avion ou au fax), - il permet d'envoyer un message à plusieurs destinataires simultanément, - et échanger des messages à n'importe quelle heure, en dépit des différences des fuseaux horaires, - et enfin, il permet de transmettre des documents de données audio et vidéo, etc. Cependant, ces dernières années, l utilisation des courriers électroniques a conduit à une nouvelle escalade de problèmes causés par le volume des messages non sollicités connus sous le nom de spam. Le problème des courriers électroniques non désirés est aujourd'hui un problème sérieux, L agence européenne ENISA 1 (Agence Européenne de la Sécurité des Réseaux et de l Information) vient de sortir une nouvelle étude selon laquelle 1 consulté le 16/01/2012

14 Introduction Générale 2 95,6% des messages électroniques seraient identifiés comme étant des spam par les chaines de filtrages des fournisseurs d adresses . Les conséquences du spam aussi bien sur le plan individuel que dans les entreprises sont significatives; elles peuvent être catastrophiques pour les entreprises qui ne sont pas préparées pour faire face à ces menaces. Le spam n'est plus simplement ennuyeux ; il est coûteux pour les entreprises non seulement financièrement, mais également en termes de temps de traitement, d'utilisation de bande passante, de gestion et de consommation de ressources. Pour faire face à cette charge croissante de spam, de nombreuses solutions ont été proposées (Sanz, et al., 2008). Certaines solutions sont basées sur l en-tête du courriel et utilisent les listes noires, les listes blanches, la vérification de DNS pour détecter le spam. D autres solutions comme le filtrage à base d apprentissage automatique, se basent sur le contenu textuel du courriel (Cormack, et al., 2007b) (Guzella, et al., 2009). Dans cette étude, nous nous intéressons à l application de l apprentissage supervisé (AS) pour la détection de spam. Les solutions existantes à base d AS permettent déjà d'atteindre une très grande exactitude. Cependant, les quantités énormes de spam diffusées aujourd'hui nous encouragent à améliorer encore ces solutions ou proposer de nouvelles solutions pour atteindre une meilleure qualité de détection. Objectifs de l étude Notre objectif, dans ce mémoire, est de proposer une nouvelle approche à base d apprentissage supervisé dans le domaine de filtrage de spam (Barigou, et al., 2011a). Il s agit de la machine cellulaire CASI issue des travaux de (Atmani, et al., 2007). Nous désirons aussi situer cette nouvelle approche par rapport à d autres travaux ayant contribué dans le domaine de filtrage de spam (Barigou, et al., 2011b). En effet, nos préoccupations de départ sont : - peut-on améliorer encore les systèmes de détection de spam? - quelles sont les différentes solutions actuellement utilisées et qui donnent les meilleurs résultats?

15 Introduction Générale 3 - l approche que nous proposons peut-elle être considérée comme une solution au problème de filtrage de spam? Pour répondre à toutes ces questions nous étudions, dans un premier temps, le système que nous avons nommé SPAMAUT «SPAM detection with cellular AUTmata» et qui intègre la machine cellulaire CASI, pour le filtrage de spam (Barigou, et al., 2011c). Ce problème de filtrage est abordé dans ce travail comme un problème de catégorisation de textes ainsi point de vu méthodologique, nous explorons toutes les phases du processus de catégorisation de textes à savoir, le prétraitement linguistique (segmentation, élimination des mots vides et analyse flexionnelle) et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage supervisé pour la construction d un classifieur de détection de spam. Et enfin l évaluation où nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Cette étape d évaluation va nous permettre d analyser de plus près les points forts et faibles de ce système et d envisager les solutions pour améliorer cette première version du système de détection de spam à base de machine cellulaire. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf que nous nommons 3CA&1NB «three Cellular Automata combined with one Naive Bayes» (Barigou, et al., 2012a), (Barigou, et al., 2012b). Les recherches théoriques indiquent que la combinaison de classifieurs qui prennent les mêmes décisions n est pas intéressante (Dietrich, 2000), (Valentini, et al., 2002). La combinaison est efficace seulement s il y a un désaccord entre ces classifieurs. Par conséquent, les méthodes pour créer des ensembles de classifieurs se concentrent sur la production de classifieurs de base diversifiés. Cette diversité peut être assurée par plusieurs manières (ensembles d apprentissage différents, ensemble d attributs d apprentissage différents ou classifieurs différents). La diversité dans 3CA&1NB est assurée par l utilisation - (a) des sous-ensembles de termes d apprentissage différents et

16 Introduction Générale 4 - (b) deux algorithmes d apprentissage différents à savoir SPAMAUT à base de graphe d induction et Naïf Bayes. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Les décisions de ces trois systèmes sont combinées par un vote, avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps, nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Les comparaisons permettent d apprécier la qualité de classification de SPAMAUT et 3CA&1NB (Barigou, et al., 2012-c). Structure du mémoire Nous poursuivons cette introduction générale avec les chapitres suivants : Chapitre 1 : puisque le filtrage de spam est considéré comme une tâche de la catégorisation de textes (CT), nous présentons brièvement dans ce chapitre, la notion de catégorisation de textes, sa définition mathématique, ses applications ainsi que les composants d un processus de CT. Chapitre 2 : les données que nous manipulons dans cette étude sont des données textuelles (le contenu des courriels), mais les algorithmes d apprentissage ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire. Dans ce chapitre nous allons décrire toutes les étapes permettant de construire une représentation qui soit exploitable par un algorithme d apprentissage. Chapitre 3 : nous consacrons ce chapitre à l étude de l apprentissage automatique et tout particulièrement l apprentissage supervisé. Nous développons les différents algorithmes permettant de construire des classifieurs dans le domaine de catégorisation de textes. Nous poursuivons ce chapitre par une comparaison de ces algorithmes avant

17 Introduction Générale 5 d introduire la combinaison de classifieurs. Nous présentons les motivations de la combinaison ainsi qu une taxonomie de la combinaison parallèle. Chapitre 4 : nous introduisons le phénomène du spam ses objectifs et ses impacts. Nous poursuivons ce chapitre avec une étude des principaux travaux ayant contribué dans le filtrage de spam par apprentissage supervisé. Chapitre 5 : ce chapitre est dédié à la description détaillée de notre système de détection de spam. Tout au long de ce chapitre les différentes étapes seront illustrées par des schémas et des algorithmes. Nous étudions en première partie, une nouvelle approche de détection de spam à base d induction symbolique par automate cellulaire et que nous avons baptisé «SPAMAUT». Et en deuxième partie de ce chapitre nous étudions un système de combinaison de classifieurs que nous avons baptisé 3AC&1NB pour la détection de spam afin d améliorer les performances du système SPAMAUT. Chapitre 6 : Nous trouvons une présentation du corpus que nous avons utilisé, ainsi que les différentes mesures d évaluation appliquées pour l évaluation des performances de nos systèmes de détection de spam, SPAMAUT et 3AC&1NB. Nous présentons l étude expérimentale menée avec ce corpus où nous étudions l impact de plusieurs paramètres comme le traitement linguistique, la pondération et la sélection sur la performance du système proposé. Nous analysons aussi la combinaison proposée et nous la comparons avec d autres travaux publiés dans la littérature. Tous les résultats expérimentaux réalisés avec SPAMAUT et 3AC&1BN, sont présentés dans ce chapitre avec des figures illustratives, afin de faciliter la compréhension et la comparaison de ces résultats avec d autres méthodes de filtrage. Conclusion : nous terminons ce mémoire par une synthèse du travail effectué dans ce mémoire de magister et les différentes perspectives que nous pouvons envisager pour les travaux futurs.

18 1 Une introduction à la Catégorisation de Textes Le problème de filtrage des courriels indésirables est abordé dans ce mémoire comme un problème de catégorisation de textes à deux catégories : la catégorie spam pour les courriels indésirables, et la catégorie légitime pour les autres courriels légitimes. Il faut donc disposer d'un ensemble d'exemples pour chaque catégorie, préalablement étiquetés. Et grâce à ces deux ensembles de courriels, il est possible de construire un classifieur avec un algorithme d'apprentissage supervisé. Si ce dernier est correctement conçu, il sera capable de prédire pour chaque nouveau courriel sa propre catégorie. Jusqu'aux années 1980, l'approche dominante en CT était celle de l'ingénierie des connaissances. Il s'agissait de modéliser, sous forme de règles, les connaissances d'un expert sur les règles de classification des documents. Ces règles étaient utilisées par le système pour déduire la classe d'un nouveau document. Un exemple de système basé sur cette approche est le système Construe (Haykin, 1999). Les limites de ce type d'approche

19 Une Introduction à la Catégorisation de textes 7 sont bien connues: elle est très coûteuse en temps et en ressources humaines, elle est aussi difficilement adaptable à un autre domaine car il faut tout réécrire. Sur le plan théorique, l'approche de l'ingénierie des connaissances présente plus de difficultés. En effet, il est plus difficile de caractériser un concept en écrivant des règles qui le décrivent qu'en sélectionnant ces instances (approche par apprentissage). L'approche de l'ingénierie des connaissances fut progressivement abandonnée vers les années 1990 en faveur de l'approche par apprentissage automatique (AA). Comme l'explique Sebastiani (Sebastiani, 2002) la recherche en catégorisation de textes a été encouragée par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. En effet, la tâche de la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles. Dans ce chapitre introductif, nous présentons le concept de la catégorisation de textes, ses applications et rappelons brièvement le processus de la CT. 1.1 Notations Nous définissons les termes suivants : - Une collection D est un ensemble de n documents : D = { d, d, d } 1 2 n ; D = n; n N ; - Un ensemble T de termes (appelés aussi mots-clés ou descripteurs) qui représente le vocabulaire de la collection D

20 Une Introduction à la Catégorisation de textes 8 T = { t, t,, t } 1 2 P ; T = p; p N - Un ensemble C de catégories : C = { c, c,, c } 1 2 m ; C = m; m N 1.2 Catégorisation de textes La tâche de catégorisation de textes (appelée aussi classification de textes) est une tâche ancienne de la recherche d information (Manning, et al., 1999) qui est apparue au début des années 60 mais qui s est largement développée durant les 15 dernières années. Elle consiste à attribuer à un document une ou plusieurs catégories (ou classes) parmi un ensemble prédéfini. Cette problématique a dernièrement trouvé de nouvelles applications dans des domaines tels que le filtrage de spam, le routage des courriels (voir Figure 1.1), la veille technologique, l analyse des opinions, la détection des intrusions, etc. Dans cette section, nous nous intéressons tout d abord à la définition de cette tâche, puis nous décrivons brièvement le processus d un système de catégorisation de textes.

21 Une Introduction à la Catégorisation de textes 9 Boîte de réception Mail urgent Nouvel ? Mail du directeur général Mail à propos de l évolution du marché Mail sur les concurrents Mail personnel Figure 1.1-Un exemple d'un système de routage de courriels. Le système de la Figure 1.1 organise des s dans des boîtes aux lettres qui correspondent chacune à une classe du problème de classification (Denoyer, 2004) Définition La catégorisation de texte consiste à chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes ou classes). Cette liaison fonctionnelle que l'on appelle aussi modèle de prédiction est considérée par un apprentissage automatique. Pour ce faire, il est nécessaire de disposer d'un ensemble de textes préalablement étiquetés, appelé ensemble d'apprentissage, à partir duquel nous estimons les paramètres du modèle de prédiction le plus performant possible; et qui produit le moins d'erreur de prédiction (Sebastiani, 2002). Formellement, la catégorisation de textes consiste à associer une valeur booléenne à chaque paire: ( d j, c i ) D C. La valeur «vraie» (V) est alors associée au couple

22 Une Introduction à la Catégorisation de textes 10 ( d j, c i ) si le texte associée dans le cas contraire. d j appartient à la classe c i tandis que la valeur «faux» (F) lui sera Le but de la catégorisation est de construire un modèle (appelé aussi classifieur voir 3.2) Ω : D C { V,F} qui associe une ou plusieurs étiquettes (catégories) à un document d j tel que la décision donnée par cette procédure coïncide le plus possible avec la vrai fonction Φ: D C { V,F }, qui retourne pour chaque vecteur d j une valeur c i. Nous pouvons distinguer trois types de catégorisation de textes Catégorisation binaire : ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : «le document est pertinent ou non?», «le courriel est un spam ou non»? Catégorisation multi catégories : c est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation correspond par exemple au problème d affectation automatique des codes CIM aux comptes rendus médicaux. Catégorisation multi catégories disjointes : c est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels. Dans cette étude et dans le contexte de filtrage de spam nous nous intéressons plus particulièrement à la catégorisation binaire Processus de catégorisation D après Sahami et al. (1998) la construction d un système de catégorisation, repose sur trois principales étapes : la représentation de textes, l apprentissage par l enchaînement d un algorithme de catégorisation (élaboration d un modèle de prédiction) et enfin, l évaluation en fonction du modèle généré (Sahami, et al., 1998).

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

2 Représentation des données textuelles

2 Représentation des données textuelles Un système de vote pour la classification de textes d'opinion Michel Plantié*, Mathieu Roche**, Gérard Dray* * LGI2P, Ecole des Mines d'alès, Site EERIE (michel.plantie, gerard.dray)@ema.fr ** LIRMM, UMR

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Analyse de données symboliques et graphe de connaissances d un agent

Analyse de données symboliques et graphe de connaissances d un agent d un agent Philippe Caillou*, Edwin Diday** *LAMSADE - Université Paris Dauphine Place du maréchal de Lattre de Tassigny 7516 Paris caillou@lamsade.dauphine.fr **CEREMADE - Université Paris Dauphine Place

Plus en détail

Classification, Apprentissage, Décision

Classification, Apprentissage, Décision Classification, Apprentissage, Décision Rémi Eyraud remi.eyraud@lif.univ-mrs.fr http://www.lif.univ-mrs.fr/~reyraud/ Cours inspiré par ceux de François Denis et Laurent Miclet. Plan général du cours Introduction

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de : REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Travaux pratiques de traitement d images

Travaux pratiques de traitement d images Travaux pratiques de traitement d images EI3 année 2009-2010 TP n 1 : Segmentation d images en régions p. 3 TP n 2 : Reconnaissance des formes p. 15 Vandenbroucke Nicolas R11 TP n 1 Segmentation d images

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base)

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) 1. Généralités sur l'information et sur sa Représentation 1.1 Informations et données : a. Au sen de la vie : C

Plus en détail

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours ENSIIE - Intelligence Artificielle (RIIA) - 1er cours Benjamin PIWOWARSKI 28 septembre 2015 Benjamin PIWOWARSKI IA - 1er cours 28 septembre 2015 1 / 53 Introduction Plan 1 Introduction 2 Définitions 3

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Thèse de Doctorat en Informatique

Thèse de Doctorat en Informatique République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mouloud Mammeri de Tizi-Ouzou Faculté de Génie Electrique et de l Informatique

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Weka_S2D : Système de Surveillance de Diabétiques

Weka_S2D : Système de Surveillance de Diabétiques Weka_S2D : Système de Surveillance de Diabétiques TALEB ZOUGGAR Souad(*), ATMANI Baghdad(*) Souad.taleb@gmail.com, atmani.baghdad@univ-oran.dz (*) Equipe de recherche «Simulation, Intégration et fouille

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

IVRG Image and Visual Representation Group

IVRG Image and Visual Representation Group IVRG Image and Visual Representation Group Projet en Digital Photography Responsable : Patrick Vandewalle Sylvain PASINI Bertrand GRANDGEORGE le 2 juin 2003 Table des matières Table des matières 2 1. Introduction

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Cycle Matière Activités

Cycle Matière Activités Traitement de texte et TICE Liste des activités Cycle Matière Activités Recopie, après identification,d une lettre. Variantes : Le modèle est à l écran, puis sur une feuille de papier (afin d'expérimenter

Plus en détail

Détection de mots-clés par approches au grain caractère et au grain mot

Détection de mots-clés par approches au grain caractère et au grain mot Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune, Gaël Dias Équipe HULTECH (GREYC, Université de Caen), Bd Maréchal

Plus en détail

Calculatrice vocale basée sur les SVM

Calculatrice vocale basée sur les SVM Calculatrice vocale basée sur les SVM Zaïz Fouzi *, Djeffal Abdelhamid *, Babahenini MohamedChaouki*, Taleb Ahmed Abdelmalik**, * Laboratoire LESIA, Département d Informatique, Université Mohamed Kheider

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Application de la logique floue à un modèle de recherche d information basé sur la proximité

Application de la logique floue à un modèle de recherche d information basé sur la proximité Application de la logique floue à un modèle de recherche d information basé sur la proximité Fuzzy set theory applied to a proximity model for information retrieval Michel BEIGBEDER 1 Annabelle MERCIER

Plus en détail

Clustering par quantification en présence de censure

Clustering par quantification en présence de censure Clustering par quantification en présence de censure Svetlana Gribkova 1 Laboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie Paris 6, 4 place Jussieu, 75005 Paris Résumé.

Plus en détail

Excel Tableaux croisés dynamiques [tc]

Excel Tableaux croisés dynamiques [tc] Excel Tableaux croisés dynamiques [tc] K. Zampieri, Version 14 octobre 2013 Table des matières 1 Tableaux croisés dynamiques / tc00mcours1 3 1.1 Exemple : Réalisation d un TCD...................... 3 1.2

Plus en détail

Arbres de décisions et évaluation d un classifieur

Arbres de décisions et évaluation d un classifieur Programmation orientée objet L2 Info 211A Arbres de décisions et évaluation d un classifieur M1 option RDF janvier 2011 Ce TP comporte trois parties dont l objectif est i) d utiliser un arbre de décision

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Enquête consommation - Tableaux croisés dynamiques

Enquête consommation - Tableaux croisés dynamiques Enquête consommation Tableaux croisés dynamiques 1. Chargement des données dans Excel Souvent les données collectées sont stockées dans un fichier au format texte, dont les informations sont séparées par

Plus en détail

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

Mongi TRIKI Docteur en Informatique Université Paris Dauphine

Mongi TRIKI Docteur en Informatique Université Paris Dauphine Université Méditerranéenne Libre de Tunis Faculté Méditerranéenne Privée des Sciences Informatiques, Economiques et de Gestion de Tunis Département d Informatique LICENCE INFORMATIQUE Guide du Stagiaire

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

Outils anti-spam de MDaemon

Outils anti-spam de MDaemon Outils anti-spam de MDaemon 3 allée de la Crabette Sommaire 1. Introduction... 3 2. Filtre anti-spam... 4 Configuration par défaut... 4 Résultats constatés avec la configuration par défaut... 4 Comment

Plus en détail

Modèles références de régression multinomiale.

Modèles références de régression multinomiale. Modèles références de régression multinomiale. Propriétés et applications en classification supervisée. Jean Peyhardi 1,3, Catherine Trottier 1,2 & Yann Guédon 3 1 UM2, Institut de Mathématiques et Modélisation

Plus en détail

Se débarrasser des emails indésirables

Se débarrasser des emails indésirables Se débarrasser des emails indésirables Qui ne reçoit pas fréquemment par mail des offres d'achats de médicaments, cigarettes ou de logiciels, quand ce n'est pas pour vanter des sites Internet pour adultes?

Plus en détail

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système.

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système. Sept outils du management (Les) Introduction Diagramme des relations Diagramme des affinités Diagramme en arbre Diagramme matriciel Diagramme des décisions d'action (PDPC) Diagramme sagittal (CPM) Analyse

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

WCUM pour l analyse d un site Web

WCUM pour l analyse d un site Web WCUM pour l analyse d un site Web Malika Charrad 1 Yves Lechevallier 2 Gilbert Saporta 3 Mohamed Ben Ahmed 4 1,4 Ecole Nationale des Sciences de l Informatique, Tunis 2 INRIA Rocquencourt, Paris 1,3 Conservatoire

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

LA MESSAGERIE ÉLECTRONIQUE

LA MESSAGERIE ÉLECTRONIQUE LA MESSAGERIE ÉLECTRONIQUE OUTLOOK EXPRESS La messagerie électronique permet d envoyer et de recevoir des messages entre des correspondants identifiés par une adresse électronique avec l aide d un ordinateur

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables

RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables Laboratoire Bordelais de Recherche en Informatique Licence 3 : Informatique RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables Auteur

Plus en détail

Fonctionnement du serveur Z39.50

Fonctionnement du serveur Z39.50 Fonctionnement du serveur Z39.50 Table des matières 1 Configuration du serveur...2 1.1 Comportement du serveur...2 1.2 Configuration de la traduction z39.50 -> base de données...2 1.3 Configuration du

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

UFR STAPS Informatique de Gestion 2007/2008. Support de cours

UFR STAPS Informatique de Gestion 2007/2008. Support de cours UFR STAPS Informatique de Gestion 2007/2008 Support de cours Farah Benamara-Zitoune benamara@irit.fr Tel: 0561557705 SOMMAIRE Fenêtre principale du tableur Excel... 3 Mise en forme des données... 3 Validation

Plus en détail

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées.

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Baptiste Gregorutti 12, Bertrand Michel 2 & Philippe Saint Pierre 2 1 Safety

Plus en détail

TUTORIAL FOXMAIL. Introduction. I. Présentation de Foxmail. Installation et première utilisation de Foxmail

TUTORIAL FOXMAIL. Introduction. I. Présentation de Foxmail. Installation et première utilisation de Foxmail Introduction TUTORIAL FOXMAIL Un client de messagerie est un logiciel qui permet d écrire et d envoyer du courrier, d en recevoir et de le lire. Il permet également de diffuser des fichiers de tout types

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

L apport des concepts métiers pour la classification des questions ouvertes d enquête.

L apport des concepts métiers pour la classification des questions ouvertes d enquête. TALN 2010, Montréal, 19-23 juillet 2010 L apport des concepts métiers pour la classification des questions ouvertes d enquête. Ludivine Kuznik 1 3 Anne-Laure Guénet 1 Anne Peradotto 2 Chloé Clavel 2 (1)

Plus en détail

PARAMETRER LA MESSAGERIE SOUS THUNDERBIRD

PARAMETRER LA MESSAGERIE SOUS THUNDERBIRD PARAMETRER LA MESSAGERIE SOUS THUNDERBIRD Ref : FP. P763 V 5.0 Résumé Ce document vous indique comment paramétrer votre messagerie sous Thunderbird. Vous pourrez notamment, créer, modifier ou supprimer

Plus en détail