MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M."

Transcription

1 DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES PAR APPRENTISSAGE AUTOMATIQUE Soutenu le : /../2012 Devant les membres du jury : Président : B. Beldjilalii Professeur Départementt d Informatique, Université d Oran Encadreur : B. Atmani MCA Départementt d Informatique, Université d Oran Co-encadreur : F. Barigou MAA Départementt d Informatique, Université d Oran Examinatrice : S. Nait Bahloul MCA Départementt d Informatique, Université d Oran Examinateur : M. Abdi MCA Départementt d Informatique, Université d Oran

2 Je dédie ce travail de magister à mes parents et à mon adorable nièce Imène i

3 Remerciements ii Tout d abord, je remercie Monsieur Bouziane Beldjilali, Professeur au département d informatique de l université d Oran, et chef du laboratoire d informatique d Oran «LIO», qui m a fait le grand honneur de présider ce jury. Merci pour vos conseils avisés, vos remarques constructives, pendant la première année de post-graduation. Qu il trouve ici l expression de ma reconnaissance. J éprouve un grand respect pour son personnage, ainsi que pour ses grandes qualités humaines. Je remercie vivement Docteur Naït Behloul Nacera, Maître de conférences au département d informatique à l université d Oran et Docteur Abdi Mustapha, maître de conférences au département d informatique à l université d Oran, d avoir accepté d examiner et d évaluer ce travail. Mes remerciements vont ensuite à mes encadreurs Docteur Atmani Baghdad, Maître de conférences au département d informatique à l université d Oran, pour avoir accepté d'encadrer ce travail en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu'il a su me communiquer m'ont permis de mener à bien ce travail. Qu'il trouve ici l'expression de ma profonde gratitude. Ma sœur Fatiha, Maitre assistante au département d informatique à l université d Oran, pour l'intérêt qu'elle a porté à ce travail depuis qu'elle m a introduit dans le monde de la recherche scientifique et pour avoir suivi ce travail. J'aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu'elle m'a accordée. Je tiens à exprimer mes sincères remerciements à mon beau frère Belalem Ghalem pour son soutien dans des moments difficiles et ses encouragements tout au long mes études universitaires. J aimerai aussi remercier du fond du cœur mes parents pour leur soutien moral et matériel, et bien sûr mes frères qui ont toujours porté un intérêt à ce que je faisais. Enfin, merci à toutes les personnes qui ont contribué de près ou de loin à l aboutissement de ce travail.

4 Résumé i Le courrier électronique rend vraiment service aux usagers, c est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. Le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d apprentissage automatique. Dans un premier temps, nous proposons une nouvelle approche d induction symbolique à base de graphe d induction et machine cellulaire pour le filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage automatique et supervisé pour la construction d un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf (NB) que nous nommons 3CA&1NB. La diversité entre ces différents classifieurs est assurée par l utilisation (a) des sous-ensembles différents de termes d apprentissage et (b) des algorithmes d apprentissage différents. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Par un vote, Les décisions de ces trois systèmes sont combinées avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Mots-clés : catégorisation de textes, représentation vectorielle des données textuelles, sélection des attributs, apprentissage automatique, apprentissage supervisé, machine cellulaire, combinaison de classifieurs.

5 Abstract ii Today, has become a fast and economical way to exchange information. However, the problem of undesired electronic messages is nowadays a serious issue. To address this growing burden of such s, several detection techniques have emerged. In this paper, we focus on techniques based on machine learning. Firstly, we propose a new symbolic induction approach based on induction graph and cellular machine for spam filtering that we called SPAMAUT. Methodological point of view, we explore all the phases of the process namely, the linguistic preprocessing and attributes selection for textual data representation, supervised learning to build a classifier for spam detection. We examine by experiments on the corpus LingSpam, the impact of stemming, term weighting and attributes selection on the performance of SPAMAUT. In a second step, and to improve SPAMAUT performance, we propose a parallel combination of several versions of that system with the Naïve Bayes classifier (NB); we named this combination 3CA&1NB. The diversity between these classifiers is ensured by the use of (a) different learning terms subsets and (b) different learning algorithms. The proposed combination uses three different SPAMAUT; each one is trained with a subset of different terms. By voting, the decisions of these three systems are combined with that of the NB classifier to classify a new . Experiments indicate an improvement in the quality prediction versus SPAMAUT. And finally in a third time we compare our best results obtained with SPAMAUT and 3CA&1NB with those published in the literature. Keywords: text categorization, space vector representation, attribute selection, machine learning, supervised learning, cellular machine, classifier combination.

6 i Table des matières Introduction Générale.1 Contexte de l étude... 1 Objectifs de l étude... 2 Structure du mémoire Une introduction à la Catégorisation de Textes Notations Catégorisation de textes Définition Processus de catégorisation Conclusion Représentation de Textes Représentation des données textuelles Sac de mots Groupe de mots Racine ou lemme N-grammes de caractères Pondération des termes Pondération booléenne Pondération fréquentielle Pondération TFIDF: Réduction des dimensions Sélection des termes Conclusion Apprentissage automatique supervisé... 25

7 ii 3.1 Techniques d apprentissage automatique Apprentissage non supervisé Apprentissage supervisé : Algorithmes d apprentissage supervisé L algorithme de Rocchio L algorithme Naïve Bayes Les K voisins les plus proches Les machines à support vectoriels Les arbres de décision Les règles de décision Les réseaux de neurones Remarques sur les algorithmes d apprentissages supervisé Combinaison de classifieurs Combinaison parallèle Fusion de classifieurs Conclusion Filtrage de Spam Définition du spam Impact du Spam sur les utilisateurs et les fournisseurs Techniques de lutte contre le spam Filtrage d enveloppe Filtrage du contenu Travaux publiés sur le filtrage de spam Utilisation de classifieur individuel Combinaison de classifieurs Conclusion Détection de spam avec la machine Cellulaire CASI Les Automates cellulaires... 58

8 iii Définition Présentation de la machine CASI Quelques travaux sur la machine CASI Architecture du système SPAMAUT Vectorisation Apprentissage par induction symbolique Classification Synthèse sur le système SPAMAUT Combinaison de classifieurs : 3CA&1NB Architecture du système de combinaison Conclusion Étude expérimentale Corpus et mesures d évaluation Résultats expérimentaux du système SPAMAUT Impact du traitement linguistique Impact de la fonction de sélection Impact de la pondération des termes Comparaison de SPAMAUT avec les algorithmes de WEKA Comparaison de SPAMAUT avec d autres travaux similaires Résultats expérimentaux du système 3CA&1NB Comparaison avec les algorithmes de WEKA Comparaison avec des travaux publiés Discussion et conclusion Conclusion générale et perspectives Bibliographie... 99

9 Liste des tableaux iv Tableau 2.1-Exemple d'une représentation vectorielle booléenne Tableau 2.2-Exemple d'une représentation vectorielle fréquentielle Tableau 2.3-Exemple d'une représentation TFIDF Tableau 2.4-Table de contingence pour un terme t et une classe c Tableau 4.1-Avantages du courrier électronique Tableau 5.1- Règles générées à partir du graphe d'induction de la Figure Tableau 5.2-Configuration initiale de l'automate : contenu de CelFact et CelRule Tableau 5.3- Configuration initiale : état des matrices d'incidence entrée/sortie Tableau 5.4-Modèle cellulaire correspondant au graphe d induction de la Figure Tableau 6.1-Paramètres du système SPAMAUT Tableau 6.2-Comparaison de SPAMAUT avec les meilleurs résultats publiés et utilisant le corpus LingSpam Tableau 6.3-les membres de 3CA&1NB et leurs configurations Tableau 6.4-Performance de classification de 3CA&1NB comparé avec d autres travaux publiés

10 Liste des figures v Figure 1.1-Un exemple d'un système de routage de courriels Figure 1.2-Processus de catégorisation de textes Figure 2.1-Représentation vectorielle des données textuelles Figure 3.1-Principe de l'apprentissage supervisé Figure 3.2-Filtrage de spam à base d'apprentissage supervisé Figure 3.3-K-ppv dans un espace à deux dimensions Figure 3.4-Exemple de deux classes linéairement séparables et non linéairement séparables Figure 3.5-Structure typique d'un perceptron multi-couches Figure 3.6-Méthodes d'apprentissage sur l'axe de compréhensibilité du modèle construit. 38 Figure 3.7-Différentes combinaisons parallèles des classifieurs Figure 4.1-Répartition des spam par contenu. (Gastellier-Prevost, 2009) Figure 5.1-Les différents composants de CASI Figure 5.2-Architecture de SPAMAUT Figure 5.3-Diagramme de flux de l'étape vectorisation Figure 5.4-Processus de sélection des termes Figure 5.5-Diagramme d activités du processus de représentation des données textuelles. 67 Figure 5.6 Extrait d'un graphe d'induction Figure 5.7-Processus de classification d un nouvel Figure 6.1-Évaluation de SPAMAUT Figure 6.2-Impact de la racinisation et élimination des mots vides sur la précision Figure 6.3-Impact de la racinisation et élimination de mots vides sur le rappel Figure 6.4-Impact de la sélection des termes

11 vi Figure 6.5-Impact de la pondération des termes Figure 6.6- Comparaison de la précision de SPAMAUT avec celles des algorithmes de WEKA Figure 6.7-Comparaison du rappel de SPAMAUT avec ceux des algorithmes de WEKA. 86 Figure 6.8-Comparaison de la F1-mesure de SPAMAUT avec celles des algorithmes de WEKA Figure 6.9-Comparaison de l'éxactitude de SPAMAUT avec celles des algorithmes de WEKA Figure 6.10-Performance de classification des différents classifieurs Figure 6.11-Taux d'erreur obtenus par les différents classifieurs Figure 6.12-Comparaison de la précision et du rappel de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA Figure 6.13-Comparaison de F1mesure et l'exactitude de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA

12 GLOSSAIRE AA TC SMTP DNS ISP IP URL CASI i Apprentissage Automatique Text Categorization, en français catégorisation de textes (CT). Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard permettant de transférer le courrier entre deux serveurs de messagerie - celui de l'expéditeur et celui du destinataire. le système de noms de domaine (Domain Name System) est un service permettant d'établir une correspondance entre une adresse IP et un nom de domaine et, plus généralement, de trouver une information à partir d'un nom de domaine Internet Service Provider est un fournisseur d accès à Internet (FAI). C est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion au réseau informatique Internet. Internet Protocol (abrégé en IP) est une famille de protocoles de communication de réseau informatique conçus pour et utilisés par Interne. les adresses web sont appelées Uniform Resource Locator (URL). Elles indiquent «comment» (par quel chemin sur le réseau) accéder à une ressource. Cellular Automata for System Induction : il s agit d un automate cellulaire à base d induction

13 Introduction Générale Contexte de l étude Le courrier électronique (ou courriel) est aujourd'hui l'une des applications les plus utilisées sur internet et sur les réseaux d entreprises. Utilisé pour des applications très variées (personnelles, professionnelles, associatives, etc.) celui-ci tend à prendre une place de plus en plus importante par rapport aux moyens de communication traditionnels. Outre son faible coût, la messagerie électronique a l'avantage d'optimiser la communication et la diffusion d'informations. Il est impossible de donner une liste exhaustive de ces avantages, mais il est évident que le courrier électronique: - permet une économie de temps et de moyens, - c est un moyen de communication rapide et relativement moins cher (comparé au courrier par avion ou au fax), - il permet d'envoyer un message à plusieurs destinataires simultanément, - et échanger des messages à n'importe quelle heure, en dépit des différences des fuseaux horaires, - et enfin, il permet de transmettre des documents de données audio et vidéo, etc. Cependant, ces dernières années, l utilisation des courriers électroniques a conduit à une nouvelle escalade de problèmes causés par le volume des messages non sollicités connus sous le nom de spam. Le problème des courriers électroniques non désirés est aujourd'hui un problème sérieux, L agence européenne ENISA 1 (Agence Européenne de la Sécurité des Réseaux et de l Information) vient de sortir une nouvelle étude selon laquelle 1 consulté le 16/01/2012

14 Introduction Générale 2 95,6% des messages électroniques seraient identifiés comme étant des spam par les chaines de filtrages des fournisseurs d adresses . Les conséquences du spam aussi bien sur le plan individuel que dans les entreprises sont significatives; elles peuvent être catastrophiques pour les entreprises qui ne sont pas préparées pour faire face à ces menaces. Le spam n'est plus simplement ennuyeux ; il est coûteux pour les entreprises non seulement financièrement, mais également en termes de temps de traitement, d'utilisation de bande passante, de gestion et de consommation de ressources. Pour faire face à cette charge croissante de spam, de nombreuses solutions ont été proposées (Sanz, et al., 2008). Certaines solutions sont basées sur l en-tête du courriel et utilisent les listes noires, les listes blanches, la vérification de DNS pour détecter le spam. D autres solutions comme le filtrage à base d apprentissage automatique, se basent sur le contenu textuel du courriel (Cormack, et al., 2007b) (Guzella, et al., 2009). Dans cette étude, nous nous intéressons à l application de l apprentissage supervisé (AS) pour la détection de spam. Les solutions existantes à base d AS permettent déjà d'atteindre une très grande exactitude. Cependant, les quantités énormes de spam diffusées aujourd'hui nous encouragent à améliorer encore ces solutions ou proposer de nouvelles solutions pour atteindre une meilleure qualité de détection. Objectifs de l étude Notre objectif, dans ce mémoire, est de proposer une nouvelle approche à base d apprentissage supervisé dans le domaine de filtrage de spam (Barigou, et al., 2011a). Il s agit de la machine cellulaire CASI issue des travaux de (Atmani, et al., 2007). Nous désirons aussi situer cette nouvelle approche par rapport à d autres travaux ayant contribué dans le domaine de filtrage de spam (Barigou, et al., 2011b). En effet, nos préoccupations de départ sont : - peut-on améliorer encore les systèmes de détection de spam? - quelles sont les différentes solutions actuellement utilisées et qui donnent les meilleurs résultats?

15 Introduction Générale 3 - l approche que nous proposons peut-elle être considérée comme une solution au problème de filtrage de spam? Pour répondre à toutes ces questions nous étudions, dans un premier temps, le système que nous avons nommé SPAMAUT «SPAM detection with cellular AUTmata» et qui intègre la machine cellulaire CASI, pour le filtrage de spam (Barigou, et al., 2011c). Ce problème de filtrage est abordé dans ce travail comme un problème de catégorisation de textes ainsi point de vu méthodologique, nous explorons toutes les phases du processus de catégorisation de textes à savoir, le prétraitement linguistique (segmentation, élimination des mots vides et analyse flexionnelle) et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage supervisé pour la construction d un classifieur de détection de spam. Et enfin l évaluation où nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Cette étape d évaluation va nous permettre d analyser de plus près les points forts et faibles de ce système et d envisager les solutions pour améliorer cette première version du système de détection de spam à base de machine cellulaire. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf que nous nommons 3CA&1NB «three Cellular Automata combined with one Naive Bayes» (Barigou, et al., 2012a), (Barigou, et al., 2012b). Les recherches théoriques indiquent que la combinaison de classifieurs qui prennent les mêmes décisions n est pas intéressante (Dietrich, 2000), (Valentini, et al., 2002). La combinaison est efficace seulement s il y a un désaccord entre ces classifieurs. Par conséquent, les méthodes pour créer des ensembles de classifieurs se concentrent sur la production de classifieurs de base diversifiés. Cette diversité peut être assurée par plusieurs manières (ensembles d apprentissage différents, ensemble d attributs d apprentissage différents ou classifieurs différents). La diversité dans 3CA&1NB est assurée par l utilisation - (a) des sous-ensembles de termes d apprentissage différents et

16 Introduction Générale 4 - (b) deux algorithmes d apprentissage différents à savoir SPAMAUT à base de graphe d induction et Naïf Bayes. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Les décisions de ces trois systèmes sont combinées par un vote, avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps, nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Les comparaisons permettent d apprécier la qualité de classification de SPAMAUT et 3CA&1NB (Barigou, et al., 2012-c). Structure du mémoire Nous poursuivons cette introduction générale avec les chapitres suivants : Chapitre 1 : puisque le filtrage de spam est considéré comme une tâche de la catégorisation de textes (CT), nous présentons brièvement dans ce chapitre, la notion de catégorisation de textes, sa définition mathématique, ses applications ainsi que les composants d un processus de CT. Chapitre 2 : les données que nous manipulons dans cette étude sont des données textuelles (le contenu des courriels), mais les algorithmes d apprentissage ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire. Dans ce chapitre nous allons décrire toutes les étapes permettant de construire une représentation qui soit exploitable par un algorithme d apprentissage. Chapitre 3 : nous consacrons ce chapitre à l étude de l apprentissage automatique et tout particulièrement l apprentissage supervisé. Nous développons les différents algorithmes permettant de construire des classifieurs dans le domaine de catégorisation de textes. Nous poursuivons ce chapitre par une comparaison de ces algorithmes avant

17 Introduction Générale 5 d introduire la combinaison de classifieurs. Nous présentons les motivations de la combinaison ainsi qu une taxonomie de la combinaison parallèle. Chapitre 4 : nous introduisons le phénomène du spam ses objectifs et ses impacts. Nous poursuivons ce chapitre avec une étude des principaux travaux ayant contribué dans le filtrage de spam par apprentissage supervisé. Chapitre 5 : ce chapitre est dédié à la description détaillée de notre système de détection de spam. Tout au long de ce chapitre les différentes étapes seront illustrées par des schémas et des algorithmes. Nous étudions en première partie, une nouvelle approche de détection de spam à base d induction symbolique par automate cellulaire et que nous avons baptisé «SPAMAUT». Et en deuxième partie de ce chapitre nous étudions un système de combinaison de classifieurs que nous avons baptisé 3AC&1NB pour la détection de spam afin d améliorer les performances du système SPAMAUT. Chapitre 6 : Nous trouvons une présentation du corpus que nous avons utilisé, ainsi que les différentes mesures d évaluation appliquées pour l évaluation des performances de nos systèmes de détection de spam, SPAMAUT et 3AC&1NB. Nous présentons l étude expérimentale menée avec ce corpus où nous étudions l impact de plusieurs paramètres comme le traitement linguistique, la pondération et la sélection sur la performance du système proposé. Nous analysons aussi la combinaison proposée et nous la comparons avec d autres travaux publiés dans la littérature. Tous les résultats expérimentaux réalisés avec SPAMAUT et 3AC&1BN, sont présentés dans ce chapitre avec des figures illustratives, afin de faciliter la compréhension et la comparaison de ces résultats avec d autres méthodes de filtrage. Conclusion : nous terminons ce mémoire par une synthèse du travail effectué dans ce mémoire de magister et les différentes perspectives que nous pouvons envisager pour les travaux futurs.

18 1 Une introduction à la Catégorisation de Textes Le problème de filtrage des courriels indésirables est abordé dans ce mémoire comme un problème de catégorisation de textes à deux catégories : la catégorie spam pour les courriels indésirables, et la catégorie légitime pour les autres courriels légitimes. Il faut donc disposer d'un ensemble d'exemples pour chaque catégorie, préalablement étiquetés. Et grâce à ces deux ensembles de courriels, il est possible de construire un classifieur avec un algorithme d'apprentissage supervisé. Si ce dernier est correctement conçu, il sera capable de prédire pour chaque nouveau courriel sa propre catégorie. Jusqu'aux années 1980, l'approche dominante en CT était celle de l'ingénierie des connaissances. Il s'agissait de modéliser, sous forme de règles, les connaissances d'un expert sur les règles de classification des documents. Ces règles étaient utilisées par le système pour déduire la classe d'un nouveau document. Un exemple de système basé sur cette approche est le système Construe (Haykin, 1999). Les limites de ce type d'approche

19 Une Introduction à la Catégorisation de textes 7 sont bien connues: elle est très coûteuse en temps et en ressources humaines, elle est aussi difficilement adaptable à un autre domaine car il faut tout réécrire. Sur le plan théorique, l'approche de l'ingénierie des connaissances présente plus de difficultés. En effet, il est plus difficile de caractériser un concept en écrivant des règles qui le décrivent qu'en sélectionnant ces instances (approche par apprentissage). L'approche de l'ingénierie des connaissances fut progressivement abandonnée vers les années 1990 en faveur de l'approche par apprentissage automatique (AA). Comme l'explique Sebastiani (Sebastiani, 2002) la recherche en catégorisation de textes a été encouragée par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. En effet, la tâche de la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles. Dans ce chapitre introductif, nous présentons le concept de la catégorisation de textes, ses applications et rappelons brièvement le processus de la CT. 1.1 Notations Nous définissons les termes suivants : - Une collection D est un ensemble de n documents : D = { d, d, d } 1 2 n ; D = n; n N ; - Un ensemble T de termes (appelés aussi mots-clés ou descripteurs) qui représente le vocabulaire de la collection D

20 Une Introduction à la Catégorisation de textes 8 T = { t, t,, t } 1 2 P ; T = p; p N - Un ensemble C de catégories : C = { c, c,, c } 1 2 m ; C = m; m N 1.2 Catégorisation de textes La tâche de catégorisation de textes (appelée aussi classification de textes) est une tâche ancienne de la recherche d information (Manning, et al., 1999) qui est apparue au début des années 60 mais qui s est largement développée durant les 15 dernières années. Elle consiste à attribuer à un document une ou plusieurs catégories (ou classes) parmi un ensemble prédéfini. Cette problématique a dernièrement trouvé de nouvelles applications dans des domaines tels que le filtrage de spam, le routage des courriels (voir Figure 1.1), la veille technologique, l analyse des opinions, la détection des intrusions, etc. Dans cette section, nous nous intéressons tout d abord à la définition de cette tâche, puis nous décrivons brièvement le processus d un système de catégorisation de textes.

21 Une Introduction à la Catégorisation de textes 9 Boîte de réception Mail urgent Nouvel ? Mail du directeur général Mail à propos de l évolution du marché Mail sur les concurrents Mail personnel Figure 1.1-Un exemple d'un système de routage de courriels. Le système de la Figure 1.1 organise des s dans des boîtes aux lettres qui correspondent chacune à une classe du problème de classification (Denoyer, 2004) Définition La catégorisation de texte consiste à chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes ou classes). Cette liaison fonctionnelle que l'on appelle aussi modèle de prédiction est considérée par un apprentissage automatique. Pour ce faire, il est nécessaire de disposer d'un ensemble de textes préalablement étiquetés, appelé ensemble d'apprentissage, à partir duquel nous estimons les paramètres du modèle de prédiction le plus performant possible; et qui produit le moins d'erreur de prédiction (Sebastiani, 2002). Formellement, la catégorisation de textes consiste à associer une valeur booléenne à chaque paire: ( d j, c i ) D C. La valeur «vraie» (V) est alors associée au couple

22 Une Introduction à la Catégorisation de textes 10 ( d j, c i ) si le texte associée dans le cas contraire. d j appartient à la classe c i tandis que la valeur «faux» (F) lui sera Le but de la catégorisation est de construire un modèle (appelé aussi classifieur voir 3.2) Ω : D C { V,F} qui associe une ou plusieurs étiquettes (catégories) à un document d j tel que la décision donnée par cette procédure coïncide le plus possible avec la vrai fonction Φ: D C { V,F }, qui retourne pour chaque vecteur d j une valeur c i. Nous pouvons distinguer trois types de catégorisation de textes Catégorisation binaire : ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : «le document est pertinent ou non?», «le courriel est un spam ou non»? Catégorisation multi catégories : c est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation correspond par exemple au problème d affectation automatique des codes CIM aux comptes rendus médicaux. Catégorisation multi catégories disjointes : c est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels. Dans cette étude et dans le contexte de filtrage de spam nous nous intéressons plus particulièrement à la catégorisation binaire Processus de catégorisation D après Sahami et al. (1998) la construction d un système de catégorisation, repose sur trois principales étapes : la représentation de textes, l apprentissage par l enchaînement d un algorithme de catégorisation (élaboration d un modèle de prédiction) et enfin, l évaluation en fonction du modèle généré (Sahami, et al., 1998).

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de : REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Les organisations doivent aujourd hui s'adapter de plus en plus vite aux évolutions stratégiques, organisationnelles

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

L apport des concepts métiers pour la classification des questions ouvertes d enquête.

L apport des concepts métiers pour la classification des questions ouvertes d enquête. TALN 2010, Montréal, 19-23 juillet 2010 L apport des concepts métiers pour la classification des questions ouvertes d enquête. Ludivine Kuznik 1 3 Anne-Laure Guénet 1 Anne Peradotto 2 Chloé Clavel 2 (1)

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Apprentissage Automatique pour la détection de relations d affaire

Apprentissage Automatique pour la détection de relations d affaire Université de Montréal Apprentissage Automatique pour la détection de relations d affaire par Grâce CAPO-CHICHI Département d Informatique et de Recherche Opérationnelle Université de Montréal Mémoire

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Arbres binaires de recherche

Arbres binaires de recherche Chapitre 1 Arbres binaires de recherche 1 Les arbre sont très utilisés en informatique, d une part parce que les informations sont souvent hiérarchisées, et peuvent être représentées naturellement sous

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Diagrammes de décisions binaires

Diagrammes de décisions binaires Diagrammes de décisions binaires Épreuve pratique d'algorithmique et de programmation Concours commun des écoles normales supérieures Durée de l'épreuve: 3 heures 30 minutes Juillet 2009 ATTENTION! N oubliez

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Outils anti-spam de MDaemon

Outils anti-spam de MDaemon Outils anti-spam de MDaemon 3 allée de la Crabette Sommaire 1. Introduction... 3 2. Filtre anti-spam... 4 Configuration par défaut... 4 Résultats constatés avec la configuration par défaut... 4 Comment

Plus en détail

Calculatrice vocale basée sur les SVM

Calculatrice vocale basée sur les SVM Calculatrice vocale basée sur les SVM Zaïz Fouzi *, Djeffal Abdelhamid *, Babahenini MohamedChaouki*, Taleb Ahmed Abdelmalik**, * Laboratoire LESIA, Département d Informatique, Université Mohamed Kheider

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Approche hybride de reconstruction de facettes planes 3D

Approche hybride de reconstruction de facettes planes 3D Cari 2004 7/10/04 14:50 Page 67 Approche hybride de reconstruction de facettes planes 3D Ezzeddine ZAGROUBA F. S.T, Dept. Informatique. Lab. d Informatique, Parallélisme et Productique. Campus Universitaire.

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Le spam introduction. Sommaire

Le spam introduction. Sommaire Le spam introduction Laurent Aublet-Cuvelier Renater Laurent.Aublet-Cuvelier@renater.fr Introduction Le spam Les méthodes Principes Exemples Conclusion Sommaire Antispam : introduction 2 1 Introduction

Plus en détail

EXPRESSION ECRITE - ADMINISTRATIF/COMMERCIAL

EXPRESSION ECRITE - ADMINISTRATIF/COMMERCIAL CATALOGUE FORMATION EXPRESSION ECRITE - ADMINISTRATIF/COMMERCIAL NOS FORMATIONS 1. COMMUNICATION ECRITE-PRISE DE NOTE COMPTE RENDU DE REUNION 2. SECRETARIAT ADMINISTRATIF 3. SECRETARIAT COMMERCIAL 4. CREER

Plus en détail

18 TCP Les protocoles de domaines d applications

18 TCP Les protocoles de domaines d applications 18 TCP Les protocoles de domaines d applications Objectifs 18.1 Introduction Connaître les différentes catégories d applications et de protocoles de domaines d applications. Connaître les principaux protocoles

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

claroline classroom online

claroline classroom online de la plate-forme libre d'apprentissage en ligne Claroline 1.4 Manuel Révision du manuel: 06/2003 Créé le 07/09/2003 12:02 Page 1 Table des matières 1) INTRODUCTION...3 2) AFFICHER LA PAGE DE DEMARRAGE...3

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES...

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES... Diffusion de l information dans Internet Guide de création de documents Word accessibles 5 novembre 2009 OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT...

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Traitement numérique de l'image. Raphaël Isdant - 2009

Traitement numérique de l'image. Raphaël Isdant - 2009 Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

TUTORIAL FOXMAIL. Introduction. I. Présentation de Foxmail. Installation et première utilisation de Foxmail

TUTORIAL FOXMAIL. Introduction. I. Présentation de Foxmail. Installation et première utilisation de Foxmail Introduction TUTORIAL FOXMAIL Un client de messagerie est un logiciel qui permet d écrire et d envoyer du courrier, d en recevoir et de le lire. Il permet également de diffuser des fichiers de tout types

Plus en détail

SOMMAIRE 1.Création de la liste d'adresses de courriel...2

SOMMAIRE 1.Création de la liste d'adresses de courriel...2 Luc Mamin Courriel : mamin.luc@orange.fr Mode d'emploi destiné à effectuer un «mailing» par courriel sous OpenOffice.org. L'intérêt du mailing avec OpenOffice.org est double : le mailing s'effectue sans

Plus en détail

Apprentissage automatique et catégorisation de textes multilingues

Apprentissage automatique et catégorisation de textes multilingues UNIVERSITÉ LUMIÈRE LYON2 Année 2003 THÈSE pour obtenir le grade de DOCTEUR en INFORMATIQUE présentée et soutenue publiquement par Radwan JALAM le 4 juin 2003 Apprentissage automatique et catégorisation

Plus en détail

École d Hiver sur les applications de l informatique industrielle, réseaux et génie logiciel 09-12 Décembre 2013. Data Mining.

École d Hiver sur les applications de l informatique industrielle, réseaux et génie logiciel 09-12 Décembre 2013. Data Mining. Data Mining Abdelmalek Amine Laboratoire GeCoDe - Universté de Saida Disponibilité croissante de données données sur les clients données sur les entreprises numérisation de documents textuels, images,

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Utilisation de l AFM pour l étude d échantillons Acquisition des données et traitement d image Stage de master 1

Utilisation de l AFM pour l étude d échantillons Acquisition des données et traitement d image Stage de master 1 Utilisation de l AFM pour l étude d échantillons Acquisition des données et traitement d image Stage de master 1 Farida Bendriaa, Virginie Hoel, Henri Happy Institut d'electronique et de Microélectronique

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Se débarrasser des emails indésirables

Se débarrasser des emails indésirables Se débarrasser des emails indésirables Qui ne reçoit pas fréquemment par mail des offres d'achats de médicaments, cigarettes ou de logiciels, quand ce n'est pas pour vanter des sites Internet pour adultes?

Plus en détail

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2 Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101 Danny Dubé Hiver 2014 Version : 11 avril Questions Travail pratique #2 Traduction orientée-syntaxe

Plus en détail

1.2 Unité responsable Département d informatique, Faculté des sciences

1.2 Unité responsable Département d informatique, Faculté des sciences 1. Identification du programme 1.1 Titre du programme Maîtrise ès sciences (informatique) 1.2 Unité responsable Département d informatique, Faculté des sciences 1.3 Diplôme accordé M. Sc. (Informatique)

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Eléments pratiques de test des Hiérarchies et Frameworks

Eléments pratiques de test des Hiérarchies et Frameworks Eléments pratiques de test des Hiérarchies et Frameworks Notes de cours Christophe Dony Master Info Pro - Université Montpellier-II 1 Introduction 1.1 Définitions Génie Logiciel No 18, Mars 1990. EC2.

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

DESCRIPTION DES PRODUITS ET MÉTRIQUES

DESCRIPTION DES PRODUITS ET MÉTRIQUES DESCRIPTION DES PRODUITS ET MÉTRIQUES DPM Adobe - Adobe Analytics (2015v1) Les Produits et Services décrits dans cette DPM sont soit des Services On-demand soit des Services Gérés (comme décrits ci-dessous)

Plus en détail

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique.

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. Objectif Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. TANAGRA, ORANGE et WEKA sont trois logiciels de data mining gratuits. S ils poursuivent

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Annexe 5. Kaspersky Security For SharePoint Servers. Consulting Team

Annexe 5. Kaspersky Security For SharePoint Servers. Consulting Team Annexe 5 Kaspersky Security For SharePoint Servers Consulting Team 2015 K A S P E R S K Y L A B Immeuble l Européen 2, rue 1 Joseph Monier 92859 Rueil Malmaison Cedex Table des matières Table des matières...

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée. PRESENTATION QUI SOMMES-NOUS? La société VIEDOC, formée d ingénieurs expérimentés, conseille depuis 2004 les entreprises dans les domaines de la veille, de l intelligence économique et de l innovation.

Plus en détail