MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M."

Transcription

1 DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES PAR APPRENTISSAGE AUTOMATIQUE Soutenu le : /../2012 Devant les membres du jury : Président : B. Beldjilalii Professeur Départementt d Informatique, Université d Oran Encadreur : B. Atmani MCA Départementt d Informatique, Université d Oran Co-encadreur : F. Barigou MAA Départementt d Informatique, Université d Oran Examinatrice : S. Nait Bahloul MCA Départementt d Informatique, Université d Oran Examinateur : M. Abdi MCA Départementt d Informatique, Université d Oran

2 Je dédie ce travail de magister à mes parents et à mon adorable nièce Imène i

3 Remerciements ii Tout d abord, je remercie Monsieur Bouziane Beldjilali, Professeur au département d informatique de l université d Oran, et chef du laboratoire d informatique d Oran «LIO», qui m a fait le grand honneur de présider ce jury. Merci pour vos conseils avisés, vos remarques constructives, pendant la première année de post-graduation. Qu il trouve ici l expression de ma reconnaissance. J éprouve un grand respect pour son personnage, ainsi que pour ses grandes qualités humaines. Je remercie vivement Docteur Naït Behloul Nacera, Maître de conférences au département d informatique à l université d Oran et Docteur Abdi Mustapha, maître de conférences au département d informatique à l université d Oran, d avoir accepté d examiner et d évaluer ce travail. Mes remerciements vont ensuite à mes encadreurs Docteur Atmani Baghdad, Maître de conférences au département d informatique à l université d Oran, pour avoir accepté d'encadrer ce travail en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu'il a su me communiquer m'ont permis de mener à bien ce travail. Qu'il trouve ici l'expression de ma profonde gratitude. Ma sœur Fatiha, Maitre assistante au département d informatique à l université d Oran, pour l'intérêt qu'elle a porté à ce travail depuis qu'elle m a introduit dans le monde de la recherche scientifique et pour avoir suivi ce travail. J'aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu'elle m'a accordée. Je tiens à exprimer mes sincères remerciements à mon beau frère Belalem Ghalem pour son soutien dans des moments difficiles et ses encouragements tout au long mes études universitaires. J aimerai aussi remercier du fond du cœur mes parents pour leur soutien moral et matériel, et bien sûr mes frères qui ont toujours porté un intérêt à ce que je faisais. Enfin, merci à toutes les personnes qui ont contribué de près ou de loin à l aboutissement de ce travail.

4 Résumé i Le courrier électronique rend vraiment service aux usagers, c est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. Le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d apprentissage automatique. Dans un premier temps, nous proposons une nouvelle approche d induction symbolique à base de graphe d induction et machine cellulaire pour le filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage automatique et supervisé pour la construction d un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf (NB) que nous nommons 3CA&1NB. La diversité entre ces différents classifieurs est assurée par l utilisation (a) des sous-ensembles différents de termes d apprentissage et (b) des algorithmes d apprentissage différents. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Par un vote, Les décisions de ces trois systèmes sont combinées avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Mots-clés : catégorisation de textes, représentation vectorielle des données textuelles, sélection des attributs, apprentissage automatique, apprentissage supervisé, machine cellulaire, combinaison de classifieurs.

5 Abstract ii Today, has become a fast and economical way to exchange information. However, the problem of undesired electronic messages is nowadays a serious issue. To address this growing burden of such s, several detection techniques have emerged. In this paper, we focus on techniques based on machine learning. Firstly, we propose a new symbolic induction approach based on induction graph and cellular machine for spam filtering that we called SPAMAUT. Methodological point of view, we explore all the phases of the process namely, the linguistic preprocessing and attributes selection for textual data representation, supervised learning to build a classifier for spam detection. We examine by experiments on the corpus LingSpam, the impact of stemming, term weighting and attributes selection on the performance of SPAMAUT. In a second step, and to improve SPAMAUT performance, we propose a parallel combination of several versions of that system with the Naïve Bayes classifier (NB); we named this combination 3CA&1NB. The diversity between these classifiers is ensured by the use of (a) different learning terms subsets and (b) different learning algorithms. The proposed combination uses three different SPAMAUT; each one is trained with a subset of different terms. By voting, the decisions of these three systems are combined with that of the NB classifier to classify a new . Experiments indicate an improvement in the quality prediction versus SPAMAUT. And finally in a third time we compare our best results obtained with SPAMAUT and 3CA&1NB with those published in the literature. Keywords: text categorization, space vector representation, attribute selection, machine learning, supervised learning, cellular machine, classifier combination.

6 i Table des matières Introduction Générale.1 Contexte de l étude... 1 Objectifs de l étude... 2 Structure du mémoire Une introduction à la Catégorisation de Textes Notations Catégorisation de textes Définition Processus de catégorisation Conclusion Représentation de Textes Représentation des données textuelles Sac de mots Groupe de mots Racine ou lemme N-grammes de caractères Pondération des termes Pondération booléenne Pondération fréquentielle Pondération TFIDF: Réduction des dimensions Sélection des termes Conclusion Apprentissage automatique supervisé... 25

7 ii 3.1 Techniques d apprentissage automatique Apprentissage non supervisé Apprentissage supervisé : Algorithmes d apprentissage supervisé L algorithme de Rocchio L algorithme Naïve Bayes Les K voisins les plus proches Les machines à support vectoriels Les arbres de décision Les règles de décision Les réseaux de neurones Remarques sur les algorithmes d apprentissages supervisé Combinaison de classifieurs Combinaison parallèle Fusion de classifieurs Conclusion Filtrage de Spam Définition du spam Impact du Spam sur les utilisateurs et les fournisseurs Techniques de lutte contre le spam Filtrage d enveloppe Filtrage du contenu Travaux publiés sur le filtrage de spam Utilisation de classifieur individuel Combinaison de classifieurs Conclusion Détection de spam avec la machine Cellulaire CASI Les Automates cellulaires... 58

8 iii Définition Présentation de la machine CASI Quelques travaux sur la machine CASI Architecture du système SPAMAUT Vectorisation Apprentissage par induction symbolique Classification Synthèse sur le système SPAMAUT Combinaison de classifieurs : 3CA&1NB Architecture du système de combinaison Conclusion Étude expérimentale Corpus et mesures d évaluation Résultats expérimentaux du système SPAMAUT Impact du traitement linguistique Impact de la fonction de sélection Impact de la pondération des termes Comparaison de SPAMAUT avec les algorithmes de WEKA Comparaison de SPAMAUT avec d autres travaux similaires Résultats expérimentaux du système 3CA&1NB Comparaison avec les algorithmes de WEKA Comparaison avec des travaux publiés Discussion et conclusion Conclusion générale et perspectives Bibliographie... 99

9 Liste des tableaux iv Tableau 2.1-Exemple d'une représentation vectorielle booléenne Tableau 2.2-Exemple d'une représentation vectorielle fréquentielle Tableau 2.3-Exemple d'une représentation TFIDF Tableau 2.4-Table de contingence pour un terme t et une classe c Tableau 4.1-Avantages du courrier électronique Tableau 5.1- Règles générées à partir du graphe d'induction de la Figure Tableau 5.2-Configuration initiale de l'automate : contenu de CelFact et CelRule Tableau 5.3- Configuration initiale : état des matrices d'incidence entrée/sortie Tableau 5.4-Modèle cellulaire correspondant au graphe d induction de la Figure Tableau 6.1-Paramètres du système SPAMAUT Tableau 6.2-Comparaison de SPAMAUT avec les meilleurs résultats publiés et utilisant le corpus LingSpam Tableau 6.3-les membres de 3CA&1NB et leurs configurations Tableau 6.4-Performance de classification de 3CA&1NB comparé avec d autres travaux publiés

10 Liste des figures v Figure 1.1-Un exemple d'un système de routage de courriels Figure 1.2-Processus de catégorisation de textes Figure 2.1-Représentation vectorielle des données textuelles Figure 3.1-Principe de l'apprentissage supervisé Figure 3.2-Filtrage de spam à base d'apprentissage supervisé Figure 3.3-K-ppv dans un espace à deux dimensions Figure 3.4-Exemple de deux classes linéairement séparables et non linéairement séparables Figure 3.5-Structure typique d'un perceptron multi-couches Figure 3.6-Méthodes d'apprentissage sur l'axe de compréhensibilité du modèle construit. 38 Figure 3.7-Différentes combinaisons parallèles des classifieurs Figure 4.1-Répartition des spam par contenu. (Gastellier-Prevost, 2009) Figure 5.1-Les différents composants de CASI Figure 5.2-Architecture de SPAMAUT Figure 5.3-Diagramme de flux de l'étape vectorisation Figure 5.4-Processus de sélection des termes Figure 5.5-Diagramme d activités du processus de représentation des données textuelles. 67 Figure 5.6 Extrait d'un graphe d'induction Figure 5.7-Processus de classification d un nouvel Figure 6.1-Évaluation de SPAMAUT Figure 6.2-Impact de la racinisation et élimination des mots vides sur la précision Figure 6.3-Impact de la racinisation et élimination de mots vides sur le rappel Figure 6.4-Impact de la sélection des termes

11 vi Figure 6.5-Impact de la pondération des termes Figure 6.6- Comparaison de la précision de SPAMAUT avec celles des algorithmes de WEKA Figure 6.7-Comparaison du rappel de SPAMAUT avec ceux des algorithmes de WEKA. 86 Figure 6.8-Comparaison de la F1-mesure de SPAMAUT avec celles des algorithmes de WEKA Figure 6.9-Comparaison de l'éxactitude de SPAMAUT avec celles des algorithmes de WEKA Figure 6.10-Performance de classification des différents classifieurs Figure 6.11-Taux d'erreur obtenus par les différents classifieurs Figure 6.12-Comparaison de la précision et du rappel de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA Figure 6.13-Comparaison de F1mesure et l'exactitude de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA

12 GLOSSAIRE AA TC SMTP DNS ISP IP URL CASI i Apprentissage Automatique Text Categorization, en français catégorisation de textes (CT). Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard permettant de transférer le courrier entre deux serveurs de messagerie - celui de l'expéditeur et celui du destinataire. le système de noms de domaine (Domain Name System) est un service permettant d'établir une correspondance entre une adresse IP et un nom de domaine et, plus généralement, de trouver une information à partir d'un nom de domaine Internet Service Provider est un fournisseur d accès à Internet (FAI). C est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion au réseau informatique Internet. Internet Protocol (abrégé en IP) est une famille de protocoles de communication de réseau informatique conçus pour et utilisés par Interne. les adresses web sont appelées Uniform Resource Locator (URL). Elles indiquent «comment» (par quel chemin sur le réseau) accéder à une ressource. Cellular Automata for System Induction : il s agit d un automate cellulaire à base d induction

13 Introduction Générale Contexte de l étude Le courrier électronique (ou courriel) est aujourd'hui l'une des applications les plus utilisées sur internet et sur les réseaux d entreprises. Utilisé pour des applications très variées (personnelles, professionnelles, associatives, etc.) celui-ci tend à prendre une place de plus en plus importante par rapport aux moyens de communication traditionnels. Outre son faible coût, la messagerie électronique a l'avantage d'optimiser la communication et la diffusion d'informations. Il est impossible de donner une liste exhaustive de ces avantages, mais il est évident que le courrier électronique: - permet une économie de temps et de moyens, - c est un moyen de communication rapide et relativement moins cher (comparé au courrier par avion ou au fax), - il permet d'envoyer un message à plusieurs destinataires simultanément, - et échanger des messages à n'importe quelle heure, en dépit des différences des fuseaux horaires, - et enfin, il permet de transmettre des documents de données audio et vidéo, etc. Cependant, ces dernières années, l utilisation des courriers électroniques a conduit à une nouvelle escalade de problèmes causés par le volume des messages non sollicités connus sous le nom de spam. Le problème des courriers électroniques non désirés est aujourd'hui un problème sérieux, L agence européenne ENISA 1 (Agence Européenne de la Sécurité des Réseaux et de l Information) vient de sortir une nouvelle étude selon laquelle 1 consulté le 16/01/2012

14 Introduction Générale 2 95,6% des messages électroniques seraient identifiés comme étant des spam par les chaines de filtrages des fournisseurs d adresses . Les conséquences du spam aussi bien sur le plan individuel que dans les entreprises sont significatives; elles peuvent être catastrophiques pour les entreprises qui ne sont pas préparées pour faire face à ces menaces. Le spam n'est plus simplement ennuyeux ; il est coûteux pour les entreprises non seulement financièrement, mais également en termes de temps de traitement, d'utilisation de bande passante, de gestion et de consommation de ressources. Pour faire face à cette charge croissante de spam, de nombreuses solutions ont été proposées (Sanz, et al., 2008). Certaines solutions sont basées sur l en-tête du courriel et utilisent les listes noires, les listes blanches, la vérification de DNS pour détecter le spam. D autres solutions comme le filtrage à base d apprentissage automatique, se basent sur le contenu textuel du courriel (Cormack, et al., 2007b) (Guzella, et al., 2009). Dans cette étude, nous nous intéressons à l application de l apprentissage supervisé (AS) pour la détection de spam. Les solutions existantes à base d AS permettent déjà d'atteindre une très grande exactitude. Cependant, les quantités énormes de spam diffusées aujourd'hui nous encouragent à améliorer encore ces solutions ou proposer de nouvelles solutions pour atteindre une meilleure qualité de détection. Objectifs de l étude Notre objectif, dans ce mémoire, est de proposer une nouvelle approche à base d apprentissage supervisé dans le domaine de filtrage de spam (Barigou, et al., 2011a). Il s agit de la machine cellulaire CASI issue des travaux de (Atmani, et al., 2007). Nous désirons aussi situer cette nouvelle approche par rapport à d autres travaux ayant contribué dans le domaine de filtrage de spam (Barigou, et al., 2011b). En effet, nos préoccupations de départ sont : - peut-on améliorer encore les systèmes de détection de spam? - quelles sont les différentes solutions actuellement utilisées et qui donnent les meilleurs résultats?

15 Introduction Générale 3 - l approche que nous proposons peut-elle être considérée comme une solution au problème de filtrage de spam? Pour répondre à toutes ces questions nous étudions, dans un premier temps, le système que nous avons nommé SPAMAUT «SPAM detection with cellular AUTmata» et qui intègre la machine cellulaire CASI, pour le filtrage de spam (Barigou, et al., 2011c). Ce problème de filtrage est abordé dans ce travail comme un problème de catégorisation de textes ainsi point de vu méthodologique, nous explorons toutes les phases du processus de catégorisation de textes à savoir, le prétraitement linguistique (segmentation, élimination des mots vides et analyse flexionnelle) et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage supervisé pour la construction d un classifieur de détection de spam. Et enfin l évaluation où nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Cette étape d évaluation va nous permettre d analyser de plus près les points forts et faibles de ce système et d envisager les solutions pour améliorer cette première version du système de détection de spam à base de machine cellulaire. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf que nous nommons 3CA&1NB «three Cellular Automata combined with one Naive Bayes» (Barigou, et al., 2012a), (Barigou, et al., 2012b). Les recherches théoriques indiquent que la combinaison de classifieurs qui prennent les mêmes décisions n est pas intéressante (Dietrich, 2000), (Valentini, et al., 2002). La combinaison est efficace seulement s il y a un désaccord entre ces classifieurs. Par conséquent, les méthodes pour créer des ensembles de classifieurs se concentrent sur la production de classifieurs de base diversifiés. Cette diversité peut être assurée par plusieurs manières (ensembles d apprentissage différents, ensemble d attributs d apprentissage différents ou classifieurs différents). La diversité dans 3CA&1NB est assurée par l utilisation - (a) des sous-ensembles de termes d apprentissage différents et

16 Introduction Générale 4 - (b) deux algorithmes d apprentissage différents à savoir SPAMAUT à base de graphe d induction et Naïf Bayes. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Les décisions de ces trois systèmes sont combinées par un vote, avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps, nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Les comparaisons permettent d apprécier la qualité de classification de SPAMAUT et 3CA&1NB (Barigou, et al., 2012-c). Structure du mémoire Nous poursuivons cette introduction générale avec les chapitres suivants : Chapitre 1 : puisque le filtrage de spam est considéré comme une tâche de la catégorisation de textes (CT), nous présentons brièvement dans ce chapitre, la notion de catégorisation de textes, sa définition mathématique, ses applications ainsi que les composants d un processus de CT. Chapitre 2 : les données que nous manipulons dans cette étude sont des données textuelles (le contenu des courriels), mais les algorithmes d apprentissage ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire. Dans ce chapitre nous allons décrire toutes les étapes permettant de construire une représentation qui soit exploitable par un algorithme d apprentissage. Chapitre 3 : nous consacrons ce chapitre à l étude de l apprentissage automatique et tout particulièrement l apprentissage supervisé. Nous développons les différents algorithmes permettant de construire des classifieurs dans le domaine de catégorisation de textes. Nous poursuivons ce chapitre par une comparaison de ces algorithmes avant

17 Introduction Générale 5 d introduire la combinaison de classifieurs. Nous présentons les motivations de la combinaison ainsi qu une taxonomie de la combinaison parallèle. Chapitre 4 : nous introduisons le phénomène du spam ses objectifs et ses impacts. Nous poursuivons ce chapitre avec une étude des principaux travaux ayant contribué dans le filtrage de spam par apprentissage supervisé. Chapitre 5 : ce chapitre est dédié à la description détaillée de notre système de détection de spam. Tout au long de ce chapitre les différentes étapes seront illustrées par des schémas et des algorithmes. Nous étudions en première partie, une nouvelle approche de détection de spam à base d induction symbolique par automate cellulaire et que nous avons baptisé «SPAMAUT». Et en deuxième partie de ce chapitre nous étudions un système de combinaison de classifieurs que nous avons baptisé 3AC&1NB pour la détection de spam afin d améliorer les performances du système SPAMAUT. Chapitre 6 : Nous trouvons une présentation du corpus que nous avons utilisé, ainsi que les différentes mesures d évaluation appliquées pour l évaluation des performances de nos systèmes de détection de spam, SPAMAUT et 3AC&1NB. Nous présentons l étude expérimentale menée avec ce corpus où nous étudions l impact de plusieurs paramètres comme le traitement linguistique, la pondération et la sélection sur la performance du système proposé. Nous analysons aussi la combinaison proposée et nous la comparons avec d autres travaux publiés dans la littérature. Tous les résultats expérimentaux réalisés avec SPAMAUT et 3AC&1BN, sont présentés dans ce chapitre avec des figures illustratives, afin de faciliter la compréhension et la comparaison de ces résultats avec d autres méthodes de filtrage. Conclusion : nous terminons ce mémoire par une synthèse du travail effectué dans ce mémoire de magister et les différentes perspectives que nous pouvons envisager pour les travaux futurs.

18 1 Une introduction à la Catégorisation de Textes Le problème de filtrage des courriels indésirables est abordé dans ce mémoire comme un problème de catégorisation de textes à deux catégories : la catégorie spam pour les courriels indésirables, et la catégorie légitime pour les autres courriels légitimes. Il faut donc disposer d'un ensemble d'exemples pour chaque catégorie, préalablement étiquetés. Et grâce à ces deux ensembles de courriels, il est possible de construire un classifieur avec un algorithme d'apprentissage supervisé. Si ce dernier est correctement conçu, il sera capable de prédire pour chaque nouveau courriel sa propre catégorie. Jusqu'aux années 1980, l'approche dominante en CT était celle de l'ingénierie des connaissances. Il s'agissait de modéliser, sous forme de règles, les connaissances d'un expert sur les règles de classification des documents. Ces règles étaient utilisées par le système pour déduire la classe d'un nouveau document. Un exemple de système basé sur cette approche est le système Construe (Haykin, 1999). Les limites de ce type d'approche

19 Une Introduction à la Catégorisation de textes 7 sont bien connues: elle est très coûteuse en temps et en ressources humaines, elle est aussi difficilement adaptable à un autre domaine car il faut tout réécrire. Sur le plan théorique, l'approche de l'ingénierie des connaissances présente plus de difficultés. En effet, il est plus difficile de caractériser un concept en écrivant des règles qui le décrivent qu'en sélectionnant ces instances (approche par apprentissage). L'approche de l'ingénierie des connaissances fut progressivement abandonnée vers les années 1990 en faveur de l'approche par apprentissage automatique (AA). Comme l'explique Sebastiani (Sebastiani, 2002) la recherche en catégorisation de textes a été encouragée par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. En effet, la tâche de la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles. Dans ce chapitre introductif, nous présentons le concept de la catégorisation de textes, ses applications et rappelons brièvement le processus de la CT. 1.1 Notations Nous définissons les termes suivants : - Une collection D est un ensemble de n documents : D = { d, d, d } 1 2 n ; D = n; n N ; - Un ensemble T de termes (appelés aussi mots-clés ou descripteurs) qui représente le vocabulaire de la collection D

20 Une Introduction à la Catégorisation de textes 8 T = { t, t,, t } 1 2 P ; T = p; p N - Un ensemble C de catégories : C = { c, c,, c } 1 2 m ; C = m; m N 1.2 Catégorisation de textes La tâche de catégorisation de textes (appelée aussi classification de textes) est une tâche ancienne de la recherche d information (Manning, et al., 1999) qui est apparue au début des années 60 mais qui s est largement développée durant les 15 dernières années. Elle consiste à attribuer à un document une ou plusieurs catégories (ou classes) parmi un ensemble prédéfini. Cette problématique a dernièrement trouvé de nouvelles applications dans des domaines tels que le filtrage de spam, le routage des courriels (voir Figure 1.1), la veille technologique, l analyse des opinions, la détection des intrusions, etc. Dans cette section, nous nous intéressons tout d abord à la définition de cette tâche, puis nous décrivons brièvement le processus d un système de catégorisation de textes.

21 Une Introduction à la Catégorisation de textes 9 Boîte de réception Mail urgent Nouvel ? Mail du directeur général Mail à propos de l évolution du marché Mail sur les concurrents Mail personnel Figure 1.1-Un exemple d'un système de routage de courriels. Le système de la Figure 1.1 organise des s dans des boîtes aux lettres qui correspondent chacune à une classe du problème de classification (Denoyer, 2004) Définition La catégorisation de texte consiste à chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes ou classes). Cette liaison fonctionnelle que l'on appelle aussi modèle de prédiction est considérée par un apprentissage automatique. Pour ce faire, il est nécessaire de disposer d'un ensemble de textes préalablement étiquetés, appelé ensemble d'apprentissage, à partir duquel nous estimons les paramètres du modèle de prédiction le plus performant possible; et qui produit le moins d'erreur de prédiction (Sebastiani, 2002). Formellement, la catégorisation de textes consiste à associer une valeur booléenne à chaque paire: ( d j, c i ) D C. La valeur «vraie» (V) est alors associée au couple

22 Une Introduction à la Catégorisation de textes 10 ( d j, c i ) si le texte associée dans le cas contraire. d j appartient à la classe c i tandis que la valeur «faux» (F) lui sera Le but de la catégorisation est de construire un modèle (appelé aussi classifieur voir 3.2) Ω : D C { V,F} qui associe une ou plusieurs étiquettes (catégories) à un document d j tel que la décision donnée par cette procédure coïncide le plus possible avec la vrai fonction Φ: D C { V,F }, qui retourne pour chaque vecteur d j une valeur c i. Nous pouvons distinguer trois types de catégorisation de textes Catégorisation binaire : ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : «le document est pertinent ou non?», «le courriel est un spam ou non»? Catégorisation multi catégories : c est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation correspond par exemple au problème d affectation automatique des codes CIM aux comptes rendus médicaux. Catégorisation multi catégories disjointes : c est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels. Dans cette étude et dans le contexte de filtrage de spam nous nous intéressons plus particulièrement à la catégorisation binaire Processus de catégorisation D après Sahami et al. (1998) la construction d un système de catégorisation, repose sur trois principales étapes : la représentation de textes, l apprentissage par l enchaînement d un algorithme de catégorisation (élaboration d un modèle de prédiction) et enfin, l évaluation en fonction du modèle généré (Sahami, et al., 1998).

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de : REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Apprentissage Automatique pour la détection de relations d affaire

Apprentissage Automatique pour la détection de relations d affaire Université de Montréal Apprentissage Automatique pour la détection de relations d affaire par Grâce CAPO-CHICHI Département d Informatique et de Recherche Opérationnelle Université de Montréal Mémoire

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Le spam introduction. Sommaire

Le spam introduction. Sommaire Le spam introduction Laurent Aublet-Cuvelier Renater Laurent.Aublet-Cuvelier@renater.fr Introduction Le spam Les méthodes Principes Exemples Conclusion Sommaire Antispam : introduction 2 1 Introduction

Plus en détail

18 TCP Les protocoles de domaines d applications

18 TCP Les protocoles de domaines d applications 18 TCP Les protocoles de domaines d applications Objectifs 18.1 Introduction Connaître les différentes catégories d applications et de protocoles de domaines d applications. Connaître les principaux protocoles

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

claroline classroom online

claroline classroom online de la plate-forme libre d'apprentissage en ligne Claroline 1.4 Manuel Révision du manuel: 06/2003 Créé le 07/09/2003 12:02 Page 1 Table des matières 1) INTRODUCTION...3 2) AFFICHER LA PAGE DE DEMARRAGE...3

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Traitement numérique de l'image. Raphaël Isdant - 2009

Traitement numérique de l'image. Raphaël Isdant - 2009 Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Se débarrasser des emails indésirables

Se débarrasser des emails indésirables Se débarrasser des emails indésirables Qui ne reçoit pas fréquemment par mail des offres d'achats de médicaments, cigarettes ou de logiciels, quand ce n'est pas pour vanter des sites Internet pour adultes?

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

TD : Codage des images

TD : Codage des images TD : Codage des images Les navigateurs Web (Netscape, IE, Mozilla ) prennent en charge les contenus textuels (au format HTML) ainsi que les images fixes (GIF, JPG, PNG) ou animée (GIF animée). Comment

Plus en détail

Orientations pour la gestion documentaire des courriels au gouvernement du Québec

Orientations pour la gestion documentaire des courriels au gouvernement du Québec Orientations pour la gestion documentaire des courriels au gouvernement du Québec Janvier 2009 Dépôt légal Bibliothèque et Archives nationales du Québec, 2010 ISBN : 978-2-550-59635-6 Table des matières

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10 PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION

Plus en détail

Atelier Introduction au courriel Utiliser www.yahoo.ca Guide de l apprenant

Atelier Introduction au courriel Utiliser www.yahoo.ca Guide de l apprenant Atelier Utiliser www.yahoo.ca Guide de l apprenant Introduction... 1 Préalables... 2 Ce que vous allez apprendre... 2 Compte courriel en ligne... 2 Créer et utiliser un compte courriel Yahoo.ca... 3 Créer

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

IFT2255 : Génie logiciel

IFT2255 : Génie logiciel IFT2255 : Génie logiciel Chapitre 6 - Analyse orientée objets Section 1. Introduction à UML Julie Vachon et Houari Sahraoui 6.1. Introduction à UML 1. Vers une approche orientée objet 2. Introduction ti

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS Février 2011 Édition produite par : Le Service de l accès à l information et des ressources documentaires du ministère de la Santé et des Services

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Annexe 5. Kaspersky Security For SharePoint Servers. Consulting Team

Annexe 5. Kaspersky Security For SharePoint Servers. Consulting Team Annexe 5 Kaspersky Security For SharePoint Servers Consulting Team 2015 K A S P E R S K Y L A B Immeuble l Européen 2, rue 1 Joseph Monier 92859 Rueil Malmaison Cedex Table des matières Table des matières...

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

DESCRIPTION DES PRODUITS ET MÉTRIQUES

DESCRIPTION DES PRODUITS ET MÉTRIQUES DESCRIPTION DES PRODUITS ET MÉTRIQUES DPM Adobe - Adobe Analytics (2015v1) Les Produits et Services décrits dans cette DPM sont soit des Services On-demand soit des Services Gérés (comme décrits ci-dessous)

Plus en détail

Ouvrir le compte UQÀM

Ouvrir le compte UQÀM Cliquez sur le titre pour visionner 1 Cliquez sur le titre pour visionner 2! Préliminaires! Ouvrir le compte UQÀM! Accéder au compte UQÀM! Paramètres de configuration! Les dossiers! Gérer les dossiers!

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

TD n o 8 - Domain Name System (DNS)

TD n o 8 - Domain Name System (DNS) IUT Montpellier - Architecture (DU) V. Poupet TD n o 8 - Domain Name System (DNS) Dans ce TD nous allons nous intéresser au fonctionnement du Domain Name System (DNS), puis pour illustrer son fonctionnement,

Plus en détail

DOCUMENT D INFORMATION D IDC

DOCUMENT D INFORMATION D IDC DOCUMENT D INFORMATION D IDC Comment Big Data transforme la protection et le stockage des données Août 2012 Écrit par Carla Arend Sponsorisé par CommVault Introduction : Comment Big Data transforme le

Plus en détail

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Contrôle interne et organisation comptable de l'entreprise

Contrôle interne et organisation comptable de l'entreprise Source : "Comptable 2000 : Les textes de base du droit comptable", Les Éditions Raouf Yaïch. Contrôle interne et organisation comptable de l'entreprise Le nouveau système comptable consacre d'importants

Plus en détail

Avertissement : ceci est un corrigé indicatif qui n engage que son auteur

Avertissement : ceci est un corrigé indicatif qui n engage que son auteur DCG UE08 SYSTEME D INFORMATION ET DE GESTION - session 2013 Proposition de CORRIGÉ Avertissement : ceci est un corrigé indicatif qui n engage que son auteur DOSSIER 1 ADAPTATION DU PGI À L ENTREPRISE -

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

Parlez-vous chinois? Allumer l appareil. Commencer. Le premier écran de l application

Parlez-vous chinois? Allumer l appareil. Commencer. Le premier écran de l application Parlez-vous chinois? SOMMAIRE Allumer l appareil... 1 Lancer l application... 1 Commencer... 1 Créer un compte... 1 Se connecter... 2 Consulter les messages... 2 Rédiger un message... 3 Juger un message...

Plus en détail

S8 - INFORMATIQUE COMMERCIALE

S8 - INFORMATIQUE COMMERCIALE S8 - INFORMATIQUE COMMERCIALE Les savoirs de l Informatique Commerciale doivent être abordés en relation avec les autres savoirs (S4 à S7). Les objectifs généraux sont : o de sensibiliser les étudiants

Plus en détail