MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M."

Transcription

1 DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES PAR APPRENTISSAGE AUTOMATIQUE Soutenu le : /../2012 Devant les membres du jury : Président : B. Beldjilalii Professeur Départementt d Informatique, Université d Oran Encadreur : B. Atmani MCA Départementt d Informatique, Université d Oran Co-encadreur : F. Barigou MAA Départementt d Informatique, Université d Oran Examinatrice : S. Nait Bahloul MCA Départementt d Informatique, Université d Oran Examinateur : M. Abdi MCA Départementt d Informatique, Université d Oran

2 Je dédie ce travail de magister à mes parents et à mon adorable nièce Imène i

3 Remerciements ii Tout d abord, je remercie Monsieur Bouziane Beldjilali, Professeur au département d informatique de l université d Oran, et chef du laboratoire d informatique d Oran «LIO», qui m a fait le grand honneur de présider ce jury. Merci pour vos conseils avisés, vos remarques constructives, pendant la première année de post-graduation. Qu il trouve ici l expression de ma reconnaissance. J éprouve un grand respect pour son personnage, ainsi que pour ses grandes qualités humaines. Je remercie vivement Docteur Naït Behloul Nacera, Maître de conférences au département d informatique à l université d Oran et Docteur Abdi Mustapha, maître de conférences au département d informatique à l université d Oran, d avoir accepté d examiner et d évaluer ce travail. Mes remerciements vont ensuite à mes encadreurs Docteur Atmani Baghdad, Maître de conférences au département d informatique à l université d Oran, pour avoir accepté d'encadrer ce travail en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu'il a su me communiquer m'ont permis de mener à bien ce travail. Qu'il trouve ici l'expression de ma profonde gratitude. Ma sœur Fatiha, Maitre assistante au département d informatique à l université d Oran, pour l'intérêt qu'elle a porté à ce travail depuis qu'elle m a introduit dans le monde de la recherche scientifique et pour avoir suivi ce travail. J'aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu'elle m'a accordée. Je tiens à exprimer mes sincères remerciements à mon beau frère Belalem Ghalem pour son soutien dans des moments difficiles et ses encouragements tout au long mes études universitaires. J aimerai aussi remercier du fond du cœur mes parents pour leur soutien moral et matériel, et bien sûr mes frères qui ont toujours porté un intérêt à ce que je faisais. Enfin, merci à toutes les personnes qui ont contribué de près ou de loin à l aboutissement de ce travail.

4 Résumé i Le courrier électronique rend vraiment service aux usagers, c est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. Le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d apprentissage automatique. Dans un premier temps, nous proposons une nouvelle approche d induction symbolique à base de graphe d induction et machine cellulaire pour le filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage automatique et supervisé pour la construction d un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf (NB) que nous nommons 3CA&1NB. La diversité entre ces différents classifieurs est assurée par l utilisation (a) des sous-ensembles différents de termes d apprentissage et (b) des algorithmes d apprentissage différents. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Par un vote, Les décisions de ces trois systèmes sont combinées avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Mots-clés : catégorisation de textes, représentation vectorielle des données textuelles, sélection des attributs, apprentissage automatique, apprentissage supervisé, machine cellulaire, combinaison de classifieurs.

5 Abstract ii Today, has become a fast and economical way to exchange information. However, the problem of undesired electronic messages is nowadays a serious issue. To address this growing burden of such s, several detection techniques have emerged. In this paper, we focus on techniques based on machine learning. Firstly, we propose a new symbolic induction approach based on induction graph and cellular machine for spam filtering that we called SPAMAUT. Methodological point of view, we explore all the phases of the process namely, the linguistic preprocessing and attributes selection for textual data representation, supervised learning to build a classifier for spam detection. We examine by experiments on the corpus LingSpam, the impact of stemming, term weighting and attributes selection on the performance of SPAMAUT. In a second step, and to improve SPAMAUT performance, we propose a parallel combination of several versions of that system with the Naïve Bayes classifier (NB); we named this combination 3CA&1NB. The diversity between these classifiers is ensured by the use of (a) different learning terms subsets and (b) different learning algorithms. The proposed combination uses three different SPAMAUT; each one is trained with a subset of different terms. By voting, the decisions of these three systems are combined with that of the NB classifier to classify a new . Experiments indicate an improvement in the quality prediction versus SPAMAUT. And finally in a third time we compare our best results obtained with SPAMAUT and 3CA&1NB with those published in the literature. Keywords: text categorization, space vector representation, attribute selection, machine learning, supervised learning, cellular machine, classifier combination.

6 i Table des matières Introduction Générale.1 Contexte de l étude... 1 Objectifs de l étude... 2 Structure du mémoire Une introduction à la Catégorisation de Textes Notations Catégorisation de textes Définition Processus de catégorisation Conclusion Représentation de Textes Représentation des données textuelles Sac de mots Groupe de mots Racine ou lemme N-grammes de caractères Pondération des termes Pondération booléenne Pondération fréquentielle Pondération TFIDF: Réduction des dimensions Sélection des termes Conclusion Apprentissage automatique supervisé... 25

7 ii 3.1 Techniques d apprentissage automatique Apprentissage non supervisé Apprentissage supervisé : Algorithmes d apprentissage supervisé L algorithme de Rocchio L algorithme Naïve Bayes Les K voisins les plus proches Les machines à support vectoriels Les arbres de décision Les règles de décision Les réseaux de neurones Remarques sur les algorithmes d apprentissages supervisé Combinaison de classifieurs Combinaison parallèle Fusion de classifieurs Conclusion Filtrage de Spam Définition du spam Impact du Spam sur les utilisateurs et les fournisseurs Techniques de lutte contre le spam Filtrage d enveloppe Filtrage du contenu Travaux publiés sur le filtrage de spam Utilisation de classifieur individuel Combinaison de classifieurs Conclusion Détection de spam avec la machine Cellulaire CASI Les Automates cellulaires... 58

8 iii Définition Présentation de la machine CASI Quelques travaux sur la machine CASI Architecture du système SPAMAUT Vectorisation Apprentissage par induction symbolique Classification Synthèse sur le système SPAMAUT Combinaison de classifieurs : 3CA&1NB Architecture du système de combinaison Conclusion Étude expérimentale Corpus et mesures d évaluation Résultats expérimentaux du système SPAMAUT Impact du traitement linguistique Impact de la fonction de sélection Impact de la pondération des termes Comparaison de SPAMAUT avec les algorithmes de WEKA Comparaison de SPAMAUT avec d autres travaux similaires Résultats expérimentaux du système 3CA&1NB Comparaison avec les algorithmes de WEKA Comparaison avec des travaux publiés Discussion et conclusion Conclusion générale et perspectives Bibliographie... 99

9 Liste des tableaux iv Tableau 2.1-Exemple d'une représentation vectorielle booléenne Tableau 2.2-Exemple d'une représentation vectorielle fréquentielle Tableau 2.3-Exemple d'une représentation TFIDF Tableau 2.4-Table de contingence pour un terme t et une classe c Tableau 4.1-Avantages du courrier électronique Tableau 5.1- Règles générées à partir du graphe d'induction de la Figure Tableau 5.2-Configuration initiale de l'automate : contenu de CelFact et CelRule Tableau 5.3- Configuration initiale : état des matrices d'incidence entrée/sortie Tableau 5.4-Modèle cellulaire correspondant au graphe d induction de la Figure Tableau 6.1-Paramètres du système SPAMAUT Tableau 6.2-Comparaison de SPAMAUT avec les meilleurs résultats publiés et utilisant le corpus LingSpam Tableau 6.3-les membres de 3CA&1NB et leurs configurations Tableau 6.4-Performance de classification de 3CA&1NB comparé avec d autres travaux publiés

10 Liste des figures v Figure 1.1-Un exemple d'un système de routage de courriels Figure 1.2-Processus de catégorisation de textes Figure 2.1-Représentation vectorielle des données textuelles Figure 3.1-Principe de l'apprentissage supervisé Figure 3.2-Filtrage de spam à base d'apprentissage supervisé Figure 3.3-K-ppv dans un espace à deux dimensions Figure 3.4-Exemple de deux classes linéairement séparables et non linéairement séparables Figure 3.5-Structure typique d'un perceptron multi-couches Figure 3.6-Méthodes d'apprentissage sur l'axe de compréhensibilité du modèle construit. 38 Figure 3.7-Différentes combinaisons parallèles des classifieurs Figure 4.1-Répartition des spam par contenu. (Gastellier-Prevost, 2009) Figure 5.1-Les différents composants de CASI Figure 5.2-Architecture de SPAMAUT Figure 5.3-Diagramme de flux de l'étape vectorisation Figure 5.4-Processus de sélection des termes Figure 5.5-Diagramme d activités du processus de représentation des données textuelles. 67 Figure 5.6 Extrait d'un graphe d'induction Figure 5.7-Processus de classification d un nouvel Figure 6.1-Évaluation de SPAMAUT Figure 6.2-Impact de la racinisation et élimination des mots vides sur la précision Figure 6.3-Impact de la racinisation et élimination de mots vides sur le rappel Figure 6.4-Impact de la sélection des termes

11 vi Figure 6.5-Impact de la pondération des termes Figure 6.6- Comparaison de la précision de SPAMAUT avec celles des algorithmes de WEKA Figure 6.7-Comparaison du rappel de SPAMAUT avec ceux des algorithmes de WEKA. 86 Figure 6.8-Comparaison de la F1-mesure de SPAMAUT avec celles des algorithmes de WEKA Figure 6.9-Comparaison de l'éxactitude de SPAMAUT avec celles des algorithmes de WEKA Figure 6.10-Performance de classification des différents classifieurs Figure 6.11-Taux d'erreur obtenus par les différents classifieurs Figure 6.12-Comparaison de la précision et du rappel de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA Figure 6.13-Comparaison de F1mesure et l'exactitude de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA

12 GLOSSAIRE AA TC SMTP DNS ISP IP URL CASI i Apprentissage Automatique Text Categorization, en français catégorisation de textes (CT). Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard permettant de transférer le courrier entre deux serveurs de messagerie - celui de l'expéditeur et celui du destinataire. le système de noms de domaine (Domain Name System) est un service permettant d'établir une correspondance entre une adresse IP et un nom de domaine et, plus généralement, de trouver une information à partir d'un nom de domaine Internet Service Provider est un fournisseur d accès à Internet (FAI). C est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion au réseau informatique Internet. Internet Protocol (abrégé en IP) est une famille de protocoles de communication de réseau informatique conçus pour et utilisés par Interne. les adresses web sont appelées Uniform Resource Locator (URL). Elles indiquent «comment» (par quel chemin sur le réseau) accéder à une ressource. Cellular Automata for System Induction : il s agit d un automate cellulaire à base d induction

13 Introduction Générale Contexte de l étude Le courrier électronique (ou courriel) est aujourd'hui l'une des applications les plus utilisées sur internet et sur les réseaux d entreprises. Utilisé pour des applications très variées (personnelles, professionnelles, associatives, etc.) celui-ci tend à prendre une place de plus en plus importante par rapport aux moyens de communication traditionnels. Outre son faible coût, la messagerie électronique a l'avantage d'optimiser la communication et la diffusion d'informations. Il est impossible de donner une liste exhaustive de ces avantages, mais il est évident que le courrier électronique: - permet une économie de temps et de moyens, - c est un moyen de communication rapide et relativement moins cher (comparé au courrier par avion ou au fax), - il permet d'envoyer un message à plusieurs destinataires simultanément, - et échanger des messages à n'importe quelle heure, en dépit des différences des fuseaux horaires, - et enfin, il permet de transmettre des documents de données audio et vidéo, etc. Cependant, ces dernières années, l utilisation des courriers électroniques a conduit à une nouvelle escalade de problèmes causés par le volume des messages non sollicités connus sous le nom de spam. Le problème des courriers électroniques non désirés est aujourd'hui un problème sérieux, L agence européenne ENISA 1 (Agence Européenne de la Sécurité des Réseaux et de l Information) vient de sortir une nouvelle étude selon laquelle 1 consulté le 16/01/2012

14 Introduction Générale 2 95,6% des messages électroniques seraient identifiés comme étant des spam par les chaines de filtrages des fournisseurs d adresses . Les conséquences du spam aussi bien sur le plan individuel que dans les entreprises sont significatives; elles peuvent être catastrophiques pour les entreprises qui ne sont pas préparées pour faire face à ces menaces. Le spam n'est plus simplement ennuyeux ; il est coûteux pour les entreprises non seulement financièrement, mais également en termes de temps de traitement, d'utilisation de bande passante, de gestion et de consommation de ressources. Pour faire face à cette charge croissante de spam, de nombreuses solutions ont été proposées (Sanz, et al., 2008). Certaines solutions sont basées sur l en-tête du courriel et utilisent les listes noires, les listes blanches, la vérification de DNS pour détecter le spam. D autres solutions comme le filtrage à base d apprentissage automatique, se basent sur le contenu textuel du courriel (Cormack, et al., 2007b) (Guzella, et al., 2009). Dans cette étude, nous nous intéressons à l application de l apprentissage supervisé (AS) pour la détection de spam. Les solutions existantes à base d AS permettent déjà d'atteindre une très grande exactitude. Cependant, les quantités énormes de spam diffusées aujourd'hui nous encouragent à améliorer encore ces solutions ou proposer de nouvelles solutions pour atteindre une meilleure qualité de détection. Objectifs de l étude Notre objectif, dans ce mémoire, est de proposer une nouvelle approche à base d apprentissage supervisé dans le domaine de filtrage de spam (Barigou, et al., 2011a). Il s agit de la machine cellulaire CASI issue des travaux de (Atmani, et al., 2007). Nous désirons aussi situer cette nouvelle approche par rapport à d autres travaux ayant contribué dans le domaine de filtrage de spam (Barigou, et al., 2011b). En effet, nos préoccupations de départ sont : - peut-on améliorer encore les systèmes de détection de spam? - quelles sont les différentes solutions actuellement utilisées et qui donnent les meilleurs résultats?

15 Introduction Générale 3 - l approche que nous proposons peut-elle être considérée comme une solution au problème de filtrage de spam? Pour répondre à toutes ces questions nous étudions, dans un premier temps, le système que nous avons nommé SPAMAUT «SPAM detection with cellular AUTmata» et qui intègre la machine cellulaire CASI, pour le filtrage de spam (Barigou, et al., 2011c). Ce problème de filtrage est abordé dans ce travail comme un problème de catégorisation de textes ainsi point de vu méthodologique, nous explorons toutes les phases du processus de catégorisation de textes à savoir, le prétraitement linguistique (segmentation, élimination des mots vides et analyse flexionnelle) et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage supervisé pour la construction d un classifieur de détection de spam. Et enfin l évaluation où nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Cette étape d évaluation va nous permettre d analyser de plus près les points forts et faibles de ce système et d envisager les solutions pour améliorer cette première version du système de détection de spam à base de machine cellulaire. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf que nous nommons 3CA&1NB «three Cellular Automata combined with one Naive Bayes» (Barigou, et al., 2012a), (Barigou, et al., 2012b). Les recherches théoriques indiquent que la combinaison de classifieurs qui prennent les mêmes décisions n est pas intéressante (Dietrich, 2000), (Valentini, et al., 2002). La combinaison est efficace seulement s il y a un désaccord entre ces classifieurs. Par conséquent, les méthodes pour créer des ensembles de classifieurs se concentrent sur la production de classifieurs de base diversifiés. Cette diversité peut être assurée par plusieurs manières (ensembles d apprentissage différents, ensemble d attributs d apprentissage différents ou classifieurs différents). La diversité dans 3CA&1NB est assurée par l utilisation - (a) des sous-ensembles de termes d apprentissage différents et

16 Introduction Générale 4 - (b) deux algorithmes d apprentissage différents à savoir SPAMAUT à base de graphe d induction et Naïf Bayes. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Les décisions de ces trois systèmes sont combinées par un vote, avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps, nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Les comparaisons permettent d apprécier la qualité de classification de SPAMAUT et 3CA&1NB (Barigou, et al., 2012-c). Structure du mémoire Nous poursuivons cette introduction générale avec les chapitres suivants : Chapitre 1 : puisque le filtrage de spam est considéré comme une tâche de la catégorisation de textes (CT), nous présentons brièvement dans ce chapitre, la notion de catégorisation de textes, sa définition mathématique, ses applications ainsi que les composants d un processus de CT. Chapitre 2 : les données que nous manipulons dans cette étude sont des données textuelles (le contenu des courriels), mais les algorithmes d apprentissage ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire. Dans ce chapitre nous allons décrire toutes les étapes permettant de construire une représentation qui soit exploitable par un algorithme d apprentissage. Chapitre 3 : nous consacrons ce chapitre à l étude de l apprentissage automatique et tout particulièrement l apprentissage supervisé. Nous développons les différents algorithmes permettant de construire des classifieurs dans le domaine de catégorisation de textes. Nous poursuivons ce chapitre par une comparaison de ces algorithmes avant

17 Introduction Générale 5 d introduire la combinaison de classifieurs. Nous présentons les motivations de la combinaison ainsi qu une taxonomie de la combinaison parallèle. Chapitre 4 : nous introduisons le phénomène du spam ses objectifs et ses impacts. Nous poursuivons ce chapitre avec une étude des principaux travaux ayant contribué dans le filtrage de spam par apprentissage supervisé. Chapitre 5 : ce chapitre est dédié à la description détaillée de notre système de détection de spam. Tout au long de ce chapitre les différentes étapes seront illustrées par des schémas et des algorithmes. Nous étudions en première partie, une nouvelle approche de détection de spam à base d induction symbolique par automate cellulaire et que nous avons baptisé «SPAMAUT». Et en deuxième partie de ce chapitre nous étudions un système de combinaison de classifieurs que nous avons baptisé 3AC&1NB pour la détection de spam afin d améliorer les performances du système SPAMAUT. Chapitre 6 : Nous trouvons une présentation du corpus que nous avons utilisé, ainsi que les différentes mesures d évaluation appliquées pour l évaluation des performances de nos systèmes de détection de spam, SPAMAUT et 3AC&1NB. Nous présentons l étude expérimentale menée avec ce corpus où nous étudions l impact de plusieurs paramètres comme le traitement linguistique, la pondération et la sélection sur la performance du système proposé. Nous analysons aussi la combinaison proposée et nous la comparons avec d autres travaux publiés dans la littérature. Tous les résultats expérimentaux réalisés avec SPAMAUT et 3AC&1BN, sont présentés dans ce chapitre avec des figures illustratives, afin de faciliter la compréhension et la comparaison de ces résultats avec d autres méthodes de filtrage. Conclusion : nous terminons ce mémoire par une synthèse du travail effectué dans ce mémoire de magister et les différentes perspectives que nous pouvons envisager pour les travaux futurs.

18 1 Une introduction à la Catégorisation de Textes Le problème de filtrage des courriels indésirables est abordé dans ce mémoire comme un problème de catégorisation de textes à deux catégories : la catégorie spam pour les courriels indésirables, et la catégorie légitime pour les autres courriels légitimes. Il faut donc disposer d'un ensemble d'exemples pour chaque catégorie, préalablement étiquetés. Et grâce à ces deux ensembles de courriels, il est possible de construire un classifieur avec un algorithme d'apprentissage supervisé. Si ce dernier est correctement conçu, il sera capable de prédire pour chaque nouveau courriel sa propre catégorie. Jusqu'aux années 1980, l'approche dominante en CT était celle de l'ingénierie des connaissances. Il s'agissait de modéliser, sous forme de règles, les connaissances d'un expert sur les règles de classification des documents. Ces règles étaient utilisées par le système pour déduire la classe d'un nouveau document. Un exemple de système basé sur cette approche est le système Construe (Haykin, 1999). Les limites de ce type d'approche

19 Une Introduction à la Catégorisation de textes 7 sont bien connues: elle est très coûteuse en temps et en ressources humaines, elle est aussi difficilement adaptable à un autre domaine car il faut tout réécrire. Sur le plan théorique, l'approche de l'ingénierie des connaissances présente plus de difficultés. En effet, il est plus difficile de caractériser un concept en écrivant des règles qui le décrivent qu'en sélectionnant ces instances (approche par apprentissage). L'approche de l'ingénierie des connaissances fut progressivement abandonnée vers les années 1990 en faveur de l'approche par apprentissage automatique (AA). Comme l'explique Sebastiani (Sebastiani, 2002) la recherche en catégorisation de textes a été encouragée par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. En effet, la tâche de la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles. Dans ce chapitre introductif, nous présentons le concept de la catégorisation de textes, ses applications et rappelons brièvement le processus de la CT. 1.1 Notations Nous définissons les termes suivants : - Une collection D est un ensemble de n documents : D = { d, d, d } 1 2 n ; D = n; n N ; - Un ensemble T de termes (appelés aussi mots-clés ou descripteurs) qui représente le vocabulaire de la collection D

20 Une Introduction à la Catégorisation de textes 8 T = { t, t,, t } 1 2 P ; T = p; p N - Un ensemble C de catégories : C = { c, c,, c } 1 2 m ; C = m; m N 1.2 Catégorisation de textes La tâche de catégorisation de textes (appelée aussi classification de textes) est une tâche ancienne de la recherche d information (Manning, et al., 1999) qui est apparue au début des années 60 mais qui s est largement développée durant les 15 dernières années. Elle consiste à attribuer à un document une ou plusieurs catégories (ou classes) parmi un ensemble prédéfini. Cette problématique a dernièrement trouvé de nouvelles applications dans des domaines tels que le filtrage de spam, le routage des courriels (voir Figure 1.1), la veille technologique, l analyse des opinions, la détection des intrusions, etc. Dans cette section, nous nous intéressons tout d abord à la définition de cette tâche, puis nous décrivons brièvement le processus d un système de catégorisation de textes.

21 Une Introduction à la Catégorisation de textes 9 Boîte de réception Mail urgent Nouvel ? Mail du directeur général Mail à propos de l évolution du marché Mail sur les concurrents Mail personnel Figure 1.1-Un exemple d'un système de routage de courriels. Le système de la Figure 1.1 organise des s dans des boîtes aux lettres qui correspondent chacune à une classe du problème de classification (Denoyer, 2004) Définition La catégorisation de texte consiste à chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes ou classes). Cette liaison fonctionnelle que l'on appelle aussi modèle de prédiction est considérée par un apprentissage automatique. Pour ce faire, il est nécessaire de disposer d'un ensemble de textes préalablement étiquetés, appelé ensemble d'apprentissage, à partir duquel nous estimons les paramètres du modèle de prédiction le plus performant possible; et qui produit le moins d'erreur de prédiction (Sebastiani, 2002). Formellement, la catégorisation de textes consiste à associer une valeur booléenne à chaque paire: ( d j, c i ) D C. La valeur «vraie» (V) est alors associée au couple

22 Une Introduction à la Catégorisation de textes 10 ( d j, c i ) si le texte associée dans le cas contraire. d j appartient à la classe c i tandis que la valeur «faux» (F) lui sera Le but de la catégorisation est de construire un modèle (appelé aussi classifieur voir 3.2) Ω : D C { V,F} qui associe une ou plusieurs étiquettes (catégories) à un document d j tel que la décision donnée par cette procédure coïncide le plus possible avec la vrai fonction Φ: D C { V,F }, qui retourne pour chaque vecteur d j une valeur c i. Nous pouvons distinguer trois types de catégorisation de textes Catégorisation binaire : ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : «le document est pertinent ou non?», «le courriel est un spam ou non»? Catégorisation multi catégories : c est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation correspond par exemple au problème d affectation automatique des codes CIM aux comptes rendus médicaux. Catégorisation multi catégories disjointes : c est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels. Dans cette étude et dans le contexte de filtrage de spam nous nous intéressons plus particulièrement à la catégorisation binaire Processus de catégorisation D après Sahami et al. (1998) la construction d un système de catégorisation, repose sur trois principales étapes : la représentation de textes, l apprentissage par l enchaînement d un algorithme de catégorisation (élaboration d un modèle de prédiction) et enfin, l évaluation en fonction du modèle généré (Sahami, et al., 1998).

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Chapitre 2 : Catégorisation de textes et apprentissage numérique : état de l'art 11 Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Afin de mettre l'apport proposé dans ce

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Manuel d utilisation de Form@Greta

Manuel d utilisation de Form@Greta Manuel d utilisation de Form@Greta Février 2014 Version apprenant Auriane Busson Greta-numerique@ac-caen.fr Sommaire 1. Qu est-ce que Form@Greta?... 2 2. S identifier sur la plateforme... 3 3. Espace d

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

À propos du Programme d évaluation international des compétences des adultes, le PEICA

À propos du Programme d évaluation international des compétences des adultes, le PEICA Automne 2013 À propos du Programme d évaluation international des compétences des adultes, le PEICA Par Giselle Boisvert, conseillère pédagogique, Commission scolaire de Montréal Les données de la troisième

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

La détection automatique de l opinion : contraintes et enjeux

La détection automatique de l opinion : contraintes et enjeux La détection automatique de l opinion : contraintes et enjeux Frédéric Marcoul Responsable R&D de Spotter fmarcoul@spotter.com Ana Athayde Président Directeur Général de Spotter aathayde@spotter.com RÉSUMÉ

Plus en détail

DOCUMENT D INFORMATION D IDC

DOCUMENT D INFORMATION D IDC DOCUMENT D INFORMATION D IDC Comment Big Data transforme la protection et le stockage des données Août 2012 Écrit par Carla Arend Sponsorisé par CommVault Introduction : Comment Big Data transforme le

Plus en détail

Guide méthodologique 4

Guide méthodologique 4 N/Réf : X2 217 012 Collection Guides méthodologiques Comment réaliser un travail de recherche Guide méthodologique 4 Louis Gaudreau Conseiller en documentation Centre des médias Septembre 2007 TABLE DES

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Livret du Stagiaire en Informatique

Livret du Stagiaire en Informatique Université François-Rabelais de Tours Campus de Blois UFR Sciences et Techniques Département Informatique Livret du Stagiaire en Informatique Licence 3ème année Master 2ème année Année 2006-2007 Responsable

Plus en détail

Cours CCNA 1. Exercices

Cours CCNA 1. Exercices Cours CCNA 1 TD1 Exercices Exercice 1 : Décrivez les facteurs internes qui ont un impact sur les communications réseau. Les facteurs internes ayant un impact sur les communications sont liés à la nature

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Profil du candidat et connaissances techniques à connaître/maîtriser

Profil du candidat et connaissances techniques à connaître/maîtriser Utilisation d algorithmes de deep learning pour la reconnaissance d iris. jonathan.milgram@morpho.com Dans ce cadre, l'unité de recherche et technologie a pour but de maintenir le leadership Au sein de

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

BASE DE DONNEES CENTRALISEE PI-M

BASE DE DONNEES CENTRALISEE PI-M BASE DE DONNEES CENTRALISEE PI-M MANUEL D UTILISATION POUR LE CONSULTANT EN INTERIM WWW.PI-M.BE VERSION 2015 Prévention et Intérim info@pi-m.be www.pi-m.be Service Central de Prévention pour le Secteur

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Parlez-vous chinois? Allumer l appareil. Commencer. Le premier écran de l application

Parlez-vous chinois? Allumer l appareil. Commencer. Le premier écran de l application Parlez-vous chinois? SOMMAIRE Allumer l appareil... 1 Lancer l application... 1 Commencer... 1 Créer un compte... 1 Se connecter... 2 Consulter les messages... 2 Rédiger un message... 3 Juger un message...

Plus en détail

Arbres de décisions et évaluation d un classifieur

Arbres de décisions et évaluation d un classifieur Programmation orientée objet L2 Info 211A Arbres de décisions et évaluation d un classifieur M1 option RDF janvier 2011 Ce TP comporte trois parties dont l objectif est i) d utiliser un arbre de décision

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

UNE ANALYSE DES REQUETES D'UN MOTEUR INTRANET - VERS UNE AMELIORATION DU SYSTEME D'INFORMATION

UNE ANALYSE DES REQUETES D'UN MOTEUR INTRANET - VERS UNE AMELIORATION DU SYSTEME D'INFORMATION UNE ANALYSE DES REQUETES D'UN MOTEUR INTRANET - VERS UNE AMELIORATION DU SYSTEME D'INFORMATION Bertrand Delecroix (*) Renaud Eppstein (*) bertrand.delecroix@wanadoo.fr, eppstein@univ-mlv.fr (*) ISIS/CESD,

Plus en détail

Google Adresses. Validez la fiche de votre entreprise ou organisation sur Google Maps

Google Adresses. Validez la fiche de votre entreprise ou organisation sur Google Maps Google Adresses Validez la fiche de votre entreprise ou organisation sur Google Maps Le Réseau acadien des sites P@C de la Nouvelle Écosse Janvier 2011 Source : http://www.google.com/support/places/bin/static.py?page=guide.cs&guide=28247&topic=28292&answer=142902

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Guide d utilisation de l outil d audit de sécurité. AUDITSec. Version 3.0

Guide d utilisation de l outil d audit de sécurité. AUDITSec. Version 3.0 Guide d utilisation de l outil d audit de sécurité AUDITSec Version 3.0 Mai 2011 Historique du document Version Date Auteur Description 1.0 6 novembre 2010 Éric Clairvoyant http://ca.linkedin.com/pub/ericclairvoyant/7/ba/227

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Principes généraux de codage entropique d'une source Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Table des matières Objectifs 5 Introduction 7 I - Entropie d'une source 9 II -

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Leçon 5 ... La photographie numérique, ou comment partager des photos avec la famille et les amis. Tous connectés, de 9 à 99 ans.

Leçon 5 ... La photographie numérique, ou comment partager des photos avec la famille et les amis. Tous connectés, de 9 à 99 ans. 5... La photographie numérique, ou comment partager des photos avec la famille et les amis Ces icônes indiquent pour qui est le document Professeurs WebExperts Seniors Elèves Informations de base Informations

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON L analytique joue un rôle désormais primordial dans la réussite d une entreprise. Les pouvoirs qu elle délivre sont incontestables, cependant

Plus en détail

1 La visualisation des logs au CNES

1 La visualisation des logs au CNES 1 La visualisation des logs au CNES 1.1 Historique Depuis près de 2 ans maintenant, le CNES a mis en place une «cellule d analyse de logs». Son rôle est multiple : Cette cellule est chargée d analyser

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Internet. PC / Réseau

Internet. PC / Réseau Internet PC / Réseau Objectif Cette présentation reprend les notions de base : Objectif, environnement de l Internet Connexion, fournisseurs d accès Services Web, consultation, protocoles Modèle en couches,

Plus en détail

Groupe Eyrolles, 2005,

Groupe Eyrolles, 2005, Groupe Eyrolles, 2005, Table des matières AVANT-PROPOS...................................................... XVIII CD-Rom Mozilla Thunderbird sur le CD-Rom offert avec cet ouvrage XIX 1. INSTALLATION ET

Plus en détail

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Caractéristiques des traitements Approche identique pour les

Plus en détail

Pratiquons ensemble Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons ensemble. Outlook 2003 Support de notes - Laurent DUPRAT -

Pratiquons ensemble Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons ensemble. Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons Outlook 2003 Support de notes - Laurent DUPRAT - ensemble Outlook 2003 Support de notes - Laurent DUPRAT - ensemble Outlook 2003 Support de notes - Pratiquons ensemble Outlook ensemble 2003

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE

STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE STAF 2001-2002 STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE Présentation du cours Responsable : Daniel Peraya Assistante : Nathalie Deschryver TABLE DES MATIERES

Plus en détail

Aide : publication de décisions VS

Aide : publication de décisions VS Aide : publication de décisions VS Table des Matières Introduction... 2 Recherche (Recherche dans le texte intégral)... 2 Filtres... 3 Collection d arrêts... 4 Date de la décision et date de publication...

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

EXCEL PERFECTIONNEMENT CALCULS AVANCES

EXCEL PERFECTIONNEMENT CALCULS AVANCES TABLE DES MATIÈRES TABLE DES MATIÈRES... 1 CONVENTIONS UTILISÉES... 2 FORMATS... 3 Formats personnalisés... 3 ADRESSAGE DE CELLULES... 4 relatif & absolu Rappel... 4 FONCTIONS SI-ET-OU... 5 LA FONCTION

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier 2014. www.vade-retro.com

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier 2014. www.vade-retro.com COMBATTRE LE PHISHING Auteur Sébastien GOUTAL Responsable Filter Lab Janvier 2014 LIVRE BLANC www.vade-retro.com Index Introduction... 3 Typologies du phishing et du spam... 4 Techniques de filtrage des

Plus en détail

MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie

MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie MODULE C03 - Séquence 1 INTRODUCTION I. UN PEU D'HISTOIRE II. LES RESSOURCES D'UN SI III. LA DÉFINITION D UN SI À

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Chapitre E : Allégations environnementales dans la communication commerciale

Chapitre E : Allégations environnementales dans la communication commerciale Chapitre E : Allégations environnementales dans la communication commerciale Le présent chapitre doit être lu en conjonction avec les Dispositions générales sur les pratiques de publicité et de communication

Plus en détail

Mémoire de Projet Professionnel TITRE DU PROJET

Mémoire de Projet Professionnel TITRE DU PROJET République Tunisienne Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université de Sfax Institut Supérieur d Informatique et de Multimédia de Sfax Sigle de l ISIMS Mastère Professionnel

Plus en détail

Guide de l informatique Le courrier électronique

Guide de l informatique Le courrier électronique Guide de l informatique Le courrier électronique Le courrier électronique - également appelé email ou courriel - occupe désormais une place importante dans la vie de beaucoup d'internautes. Se créer une

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage. 3- Organisation du cours

0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage. 3- Organisation du cours 0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage 3- Organisation du cours Le présent cours constitue une introduction pour situer le langage C++, beaucoup des concepts

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

FRENCH, SECOND LANGUAGE

FRENCH, SECOND LANGUAGE FRENCH, SECOND LANGUAGE TEST DE CLASSEMENT FRE-1092-6 FRE-5091-6 DÉFINITION DU DOMAINE D EXAMEN SEPTEMBRE 1998 Quebec FRENCH, SECOND LANGUAGE TEST DE CLASSEMENT FRE-1092-6 FRE-5091-6 DÉFINITION DU DOMAINE

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

LA MESSAGERIE ÉLECTRONIQUE

LA MESSAGERIE ÉLECTRONIQUE LA MESSAGERIE ÉLECTRONIQUE OUTLOOK EXPRESS La messagerie électronique permet d envoyer et de recevoir des messages entre des correspondants identifiés par une adresse électronique avec l aide d un ordinateur

Plus en détail

Pédagogie du projet?

Pédagogie du projet? Pédagogie du projet? Toute pédagogie qui place l intérêt des apprenants comme levier des conduites éducatives est appelée «pédagogie fonctionnelle». Ainsi, la pédagogie du projet peut rentrer dans cette

Plus en détail

Collecte des examens du module Introduction aux Réseaux et Bases de Routage

Collecte des examens du module Introduction aux Réseaux et Bases de Routage INSTITUT SUPERIEUR DE GESTION DE TUNIS Collecte des examens du module Introduction aux Réseaux et Bases de Routage Examens corrigés Kaouther Nouira 2011-2012 Ministère de l Enseignement Supérieur, de le

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

The master thesis. (version 0.1, 20/3/05 - fix: translation!) thesis-writing. Daniel K. Schneider, TECFA, University of Geneva.

The master thesis. (version 0.1, 20/3/05 - fix: translation!) thesis-writing. Daniel K. Schneider, TECFA, University of Geneva. The master thesis The master thesis (version 0.1, 20/3/05 - fix: translation!) Code: thesis-writing Daniel K. Schneider, TECFA, University of Geneva thesis-writing Menu 1. Introduction: le mémoire est

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Management des processus opérationnels

Management des processus opérationnels Ecole Nationale Supérieure de Management Master Management des organisations Management des processus opérationnels Dr TOUMI Djamila Cours n 1: La vision processus dans le management des organisations

Plus en détail

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES GUIDE DES ETUDIANTS Ce guide est destiné à vous introduire au fonctionnement du Collège et du Département d études économiques européennes, en présentant les

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

domovea accès distant tebis

domovea accès distant tebis domovea accès distant tebis SOMMAIRE SOMMAIRE Page 1. INTRODUCTION... 2 1.1 OBJET DU DOCUMENT... 2 1.2 PRELIMINAIRES... 2 2.... 3 2.1 CONNEXION AU PORTAIL DOMOVEA.COM... 3 2.2 CREATION D'UN COMPTE PERSONNEL...

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail