MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M."

Transcription

1 DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES PAR APPRENTISSAGE AUTOMATIQUE Soutenu le : /../2012 Devant les membres du jury : Président : B. Beldjilalii Professeur Départementt d Informatique, Université d Oran Encadreur : B. Atmani MCA Départementt d Informatique, Université d Oran Co-encadreur : F. Barigou MAA Départementt d Informatique, Université d Oran Examinatrice : S. Nait Bahloul MCA Départementt d Informatique, Université d Oran Examinateur : M. Abdi MCA Départementt d Informatique, Université d Oran

2 Je dédie ce travail de magister à mes parents et à mon adorable nièce Imène i

3 Remerciements ii Tout d abord, je remercie Monsieur Bouziane Beldjilali, Professeur au département d informatique de l université d Oran, et chef du laboratoire d informatique d Oran «LIO», qui m a fait le grand honneur de présider ce jury. Merci pour vos conseils avisés, vos remarques constructives, pendant la première année de post-graduation. Qu il trouve ici l expression de ma reconnaissance. J éprouve un grand respect pour son personnage, ainsi que pour ses grandes qualités humaines. Je remercie vivement Docteur Naït Behloul Nacera, Maître de conférences au département d informatique à l université d Oran et Docteur Abdi Mustapha, maître de conférences au département d informatique à l université d Oran, d avoir accepté d examiner et d évaluer ce travail. Mes remerciements vont ensuite à mes encadreurs Docteur Atmani Baghdad, Maître de conférences au département d informatique à l université d Oran, pour avoir accepté d'encadrer ce travail en me faisant bénéficier de ses précieux conseils. Son suivi constant et attentif, le dynamisme qu'il a su me communiquer m'ont permis de mener à bien ce travail. Qu'il trouve ici l'expression de ma profonde gratitude. Ma sœur Fatiha, Maitre assistante au département d informatique à l université d Oran, pour l'intérêt qu'elle a porté à ce travail depuis qu'elle m a introduit dans le monde de la recherche scientifique et pour avoir suivi ce travail. J'aimerais lui témoigner ici toute ma reconnaissance pour ses suggestions pertinentes ainsi que pour la confiance permanente qu'elle m'a accordée. Je tiens à exprimer mes sincères remerciements à mon beau frère Belalem Ghalem pour son soutien dans des moments difficiles et ses encouragements tout au long mes études universitaires. J aimerai aussi remercier du fond du cœur mes parents pour leur soutien moral et matériel, et bien sûr mes frères qui ont toujours porté un intérêt à ce que je faisais. Enfin, merci à toutes les personnes qui ont contribué de près ou de loin à l aboutissement de ce travail.

4 Résumé i Le courrier électronique rend vraiment service aux usagers, c est un moyen rapide et économique pour échanger des informations. Cependant, les utilisateurs se retrouvent assez vite submergés de quantités de messages indésirables appelé aussi spam. Le spam est rapidement devenu un problème majeur sur Internet. Pour faire face à cette charge croissante de ce type de courriels, plusieurs techniques de détection ont vu le jour. Dans ce mémoire, nous nous intéressons aux techniques à base d apprentissage automatique. Dans un premier temps, nous proposons une nouvelle approche d induction symbolique à base de graphe d induction et machine cellulaire pour le filtrage de spam nommée SPAMAUT. Point de vu méthodologique, nous explorons toutes les phases du processus à savoir, le prétraitement linguistique et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage automatique et supervisé pour la construction d un classifieur de détection de spam. Nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf (NB) que nous nommons 3CA&1NB. La diversité entre ces différents classifieurs est assurée par l utilisation (a) des sous-ensembles différents de termes d apprentissage et (b) des algorithmes d apprentissage différents. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Par un vote, Les décisions de ces trois systèmes sont combinées avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Mots-clés : catégorisation de textes, représentation vectorielle des données textuelles, sélection des attributs, apprentissage automatique, apprentissage supervisé, machine cellulaire, combinaison de classifieurs.

5 Abstract ii Today, has become a fast and economical way to exchange information. However, the problem of undesired electronic messages is nowadays a serious issue. To address this growing burden of such s, several detection techniques have emerged. In this paper, we focus on techniques based on machine learning. Firstly, we propose a new symbolic induction approach based on induction graph and cellular machine for spam filtering that we called SPAMAUT. Methodological point of view, we explore all the phases of the process namely, the linguistic preprocessing and attributes selection for textual data representation, supervised learning to build a classifier for spam detection. We examine by experiments on the corpus LingSpam, the impact of stemming, term weighting and attributes selection on the performance of SPAMAUT. In a second step, and to improve SPAMAUT performance, we propose a parallel combination of several versions of that system with the Naïve Bayes classifier (NB); we named this combination 3CA&1NB. The diversity between these classifiers is ensured by the use of (a) different learning terms subsets and (b) different learning algorithms. The proposed combination uses three different SPAMAUT; each one is trained with a subset of different terms. By voting, the decisions of these three systems are combined with that of the NB classifier to classify a new . Experiments indicate an improvement in the quality prediction versus SPAMAUT. And finally in a third time we compare our best results obtained with SPAMAUT and 3CA&1NB with those published in the literature. Keywords: text categorization, space vector representation, attribute selection, machine learning, supervised learning, cellular machine, classifier combination.

6 i Table des matières Introduction Générale.1 Contexte de l étude... 1 Objectifs de l étude... 2 Structure du mémoire Une introduction à la Catégorisation de Textes Notations Catégorisation de textes Définition Processus de catégorisation Conclusion Représentation de Textes Représentation des données textuelles Sac de mots Groupe de mots Racine ou lemme N-grammes de caractères Pondération des termes Pondération booléenne Pondération fréquentielle Pondération TFIDF: Réduction des dimensions Sélection des termes Conclusion Apprentissage automatique supervisé... 25

7 ii 3.1 Techniques d apprentissage automatique Apprentissage non supervisé Apprentissage supervisé : Algorithmes d apprentissage supervisé L algorithme de Rocchio L algorithme Naïve Bayes Les K voisins les plus proches Les machines à support vectoriels Les arbres de décision Les règles de décision Les réseaux de neurones Remarques sur les algorithmes d apprentissages supervisé Combinaison de classifieurs Combinaison parallèle Fusion de classifieurs Conclusion Filtrage de Spam Définition du spam Impact du Spam sur les utilisateurs et les fournisseurs Techniques de lutte contre le spam Filtrage d enveloppe Filtrage du contenu Travaux publiés sur le filtrage de spam Utilisation de classifieur individuel Combinaison de classifieurs Conclusion Détection de spam avec la machine Cellulaire CASI Les Automates cellulaires... 58

8 iii Définition Présentation de la machine CASI Quelques travaux sur la machine CASI Architecture du système SPAMAUT Vectorisation Apprentissage par induction symbolique Classification Synthèse sur le système SPAMAUT Combinaison de classifieurs : 3CA&1NB Architecture du système de combinaison Conclusion Étude expérimentale Corpus et mesures d évaluation Résultats expérimentaux du système SPAMAUT Impact du traitement linguistique Impact de la fonction de sélection Impact de la pondération des termes Comparaison de SPAMAUT avec les algorithmes de WEKA Comparaison de SPAMAUT avec d autres travaux similaires Résultats expérimentaux du système 3CA&1NB Comparaison avec les algorithmes de WEKA Comparaison avec des travaux publiés Discussion et conclusion Conclusion générale et perspectives Bibliographie... 99

9 Liste des tableaux iv Tableau 2.1-Exemple d'une représentation vectorielle booléenne Tableau 2.2-Exemple d'une représentation vectorielle fréquentielle Tableau 2.3-Exemple d'une représentation TFIDF Tableau 2.4-Table de contingence pour un terme t et une classe c Tableau 4.1-Avantages du courrier électronique Tableau 5.1- Règles générées à partir du graphe d'induction de la Figure Tableau 5.2-Configuration initiale de l'automate : contenu de CelFact et CelRule Tableau 5.3- Configuration initiale : état des matrices d'incidence entrée/sortie Tableau 5.4-Modèle cellulaire correspondant au graphe d induction de la Figure Tableau 6.1-Paramètres du système SPAMAUT Tableau 6.2-Comparaison de SPAMAUT avec les meilleurs résultats publiés et utilisant le corpus LingSpam Tableau 6.3-les membres de 3CA&1NB et leurs configurations Tableau 6.4-Performance de classification de 3CA&1NB comparé avec d autres travaux publiés

10 Liste des figures v Figure 1.1-Un exemple d'un système de routage de courriels Figure 1.2-Processus de catégorisation de textes Figure 2.1-Représentation vectorielle des données textuelles Figure 3.1-Principe de l'apprentissage supervisé Figure 3.2-Filtrage de spam à base d'apprentissage supervisé Figure 3.3-K-ppv dans un espace à deux dimensions Figure 3.4-Exemple de deux classes linéairement séparables et non linéairement séparables Figure 3.5-Structure typique d'un perceptron multi-couches Figure 3.6-Méthodes d'apprentissage sur l'axe de compréhensibilité du modèle construit. 38 Figure 3.7-Différentes combinaisons parallèles des classifieurs Figure 4.1-Répartition des spam par contenu. (Gastellier-Prevost, 2009) Figure 5.1-Les différents composants de CASI Figure 5.2-Architecture de SPAMAUT Figure 5.3-Diagramme de flux de l'étape vectorisation Figure 5.4-Processus de sélection des termes Figure 5.5-Diagramme d activités du processus de représentation des données textuelles. 67 Figure 5.6 Extrait d'un graphe d'induction Figure 5.7-Processus de classification d un nouvel Figure 6.1-Évaluation de SPAMAUT Figure 6.2-Impact de la racinisation et élimination des mots vides sur la précision Figure 6.3-Impact de la racinisation et élimination de mots vides sur le rappel Figure 6.4-Impact de la sélection des termes

11 vi Figure 6.5-Impact de la pondération des termes Figure 6.6- Comparaison de la précision de SPAMAUT avec celles des algorithmes de WEKA Figure 6.7-Comparaison du rappel de SPAMAUT avec ceux des algorithmes de WEKA. 86 Figure 6.8-Comparaison de la F1-mesure de SPAMAUT avec celles des algorithmes de WEKA Figure 6.9-Comparaison de l'éxactitude de SPAMAUT avec celles des algorithmes de WEKA Figure 6.10-Performance de classification des différents classifieurs Figure 6.11-Taux d'erreur obtenus par les différents classifieurs Figure 6.12-Comparaison de la précision et du rappel de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA Figure 6.13-Comparaison de F1mesure et l'exactitude de 3CA&1NB avec ceux des algorithmes de combinaison de WEKA

12 GLOSSAIRE AA TC SMTP DNS ISP IP URL CASI i Apprentissage Automatique Text Categorization, en français catégorisation de textes (CT). Le protocole SMTP (Simple Mail Transfer Protocol) est le protocole standard permettant de transférer le courrier entre deux serveurs de messagerie - celui de l'expéditeur et celui du destinataire. le système de noms de domaine (Domain Name System) est un service permettant d'établir une correspondance entre une adresse IP et un nom de domaine et, plus généralement, de trouver une information à partir d'un nom de domaine Internet Service Provider est un fournisseur d accès à Internet (FAI). C est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion au réseau informatique Internet. Internet Protocol (abrégé en IP) est une famille de protocoles de communication de réseau informatique conçus pour et utilisés par Interne. les adresses web sont appelées Uniform Resource Locator (URL). Elles indiquent «comment» (par quel chemin sur le réseau) accéder à une ressource. Cellular Automata for System Induction : il s agit d un automate cellulaire à base d induction

13 Introduction Générale Contexte de l étude Le courrier électronique (ou courriel) est aujourd'hui l'une des applications les plus utilisées sur internet et sur les réseaux d entreprises. Utilisé pour des applications très variées (personnelles, professionnelles, associatives, etc.) celui-ci tend à prendre une place de plus en plus importante par rapport aux moyens de communication traditionnels. Outre son faible coût, la messagerie électronique a l'avantage d'optimiser la communication et la diffusion d'informations. Il est impossible de donner une liste exhaustive de ces avantages, mais il est évident que le courrier électronique: - permet une économie de temps et de moyens, - c est un moyen de communication rapide et relativement moins cher (comparé au courrier par avion ou au fax), - il permet d'envoyer un message à plusieurs destinataires simultanément, - et échanger des messages à n'importe quelle heure, en dépit des différences des fuseaux horaires, - et enfin, il permet de transmettre des documents de données audio et vidéo, etc. Cependant, ces dernières années, l utilisation des courriers électroniques a conduit à une nouvelle escalade de problèmes causés par le volume des messages non sollicités connus sous le nom de spam. Le problème des courriers électroniques non désirés est aujourd'hui un problème sérieux, L agence européenne ENISA 1 (Agence Européenne de la Sécurité des Réseaux et de l Information) vient de sortir une nouvelle étude selon laquelle 1 consulté le 16/01/2012

14 Introduction Générale 2 95,6% des messages électroniques seraient identifiés comme étant des spam par les chaines de filtrages des fournisseurs d adresses . Les conséquences du spam aussi bien sur le plan individuel que dans les entreprises sont significatives; elles peuvent être catastrophiques pour les entreprises qui ne sont pas préparées pour faire face à ces menaces. Le spam n'est plus simplement ennuyeux ; il est coûteux pour les entreprises non seulement financièrement, mais également en termes de temps de traitement, d'utilisation de bande passante, de gestion et de consommation de ressources. Pour faire face à cette charge croissante de spam, de nombreuses solutions ont été proposées (Sanz, et al., 2008). Certaines solutions sont basées sur l en-tête du courriel et utilisent les listes noires, les listes blanches, la vérification de DNS pour détecter le spam. D autres solutions comme le filtrage à base d apprentissage automatique, se basent sur le contenu textuel du courriel (Cormack, et al., 2007b) (Guzella, et al., 2009). Dans cette étude, nous nous intéressons à l application de l apprentissage supervisé (AS) pour la détection de spam. Les solutions existantes à base d AS permettent déjà d'atteindre une très grande exactitude. Cependant, les quantités énormes de spam diffusées aujourd'hui nous encouragent à améliorer encore ces solutions ou proposer de nouvelles solutions pour atteindre une meilleure qualité de détection. Objectifs de l étude Notre objectif, dans ce mémoire, est de proposer une nouvelle approche à base d apprentissage supervisé dans le domaine de filtrage de spam (Barigou, et al., 2011a). Il s agit de la machine cellulaire CASI issue des travaux de (Atmani, et al., 2007). Nous désirons aussi situer cette nouvelle approche par rapport à d autres travaux ayant contribué dans le domaine de filtrage de spam (Barigou, et al., 2011b). En effet, nos préoccupations de départ sont : - peut-on améliorer encore les systèmes de détection de spam? - quelles sont les différentes solutions actuellement utilisées et qui donnent les meilleurs résultats?

15 Introduction Générale 3 - l approche que nous proposons peut-elle être considérée comme une solution au problème de filtrage de spam? Pour répondre à toutes ces questions nous étudions, dans un premier temps, le système que nous avons nommé SPAMAUT «SPAM detection with cellular AUTmata» et qui intègre la machine cellulaire CASI, pour le filtrage de spam (Barigou, et al., 2011c). Ce problème de filtrage est abordé dans ce travail comme un problème de catégorisation de textes ainsi point de vu méthodologique, nous explorons toutes les phases du processus de catégorisation de textes à savoir, le prétraitement linguistique (segmentation, élimination des mots vides et analyse flexionnelle) et la sélection des attributs pour la représentation numérique des données textuelles, l apprentissage supervisé pour la construction d un classifieur de détection de spam. Et enfin l évaluation où nous examinons, par des expériences sur le corpus LingSpam, l impact de la racinisation, la pondération des termes et la sélection des termes sur la performance de SPAMAUT. Cette étape d évaluation va nous permettre d analyser de plus près les points forts et faibles de ce système et d envisager les solutions pour améliorer cette première version du système de détection de spam à base de machine cellulaire. Dans un deuxième temps, et pour améliorer les performances du système SPAMAUT, nous proposons une combinaison parallèle de plusieurs versions de ce système avec le classifieur Bayésien naïf que nous nommons 3CA&1NB «three Cellular Automata combined with one Naive Bayes» (Barigou, et al., 2012a), (Barigou, et al., 2012b). Les recherches théoriques indiquent que la combinaison de classifieurs qui prennent les mêmes décisions n est pas intéressante (Dietrich, 2000), (Valentini, et al., 2002). La combinaison est efficace seulement s il y a un désaccord entre ces classifieurs. Par conséquent, les méthodes pour créer des ensembles de classifieurs se concentrent sur la production de classifieurs de base diversifiés. Cette diversité peut être assurée par plusieurs manières (ensembles d apprentissage différents, ensemble d attributs d apprentissage différents ou classifieurs différents). La diversité dans 3CA&1NB est assurée par l utilisation - (a) des sous-ensembles de termes d apprentissage différents et

16 Introduction Générale 4 - (b) deux algorithmes d apprentissage différents à savoir SPAMAUT à base de graphe d induction et Naïf Bayes. La combinaison proposée utilise trois SPAMAUT différents, chacun d eux est entraîné avec un sous-ensemble de termes différents. Les décisions de ces trois systèmes sont combinées par un vote, avec celle du classifieur NB pour classifier un nouveau courriel. Les expériences indiquent une amélioration de la qualité de prédiction par rapport à SPAMAUT. Et enfin, dans un troisième temps, nous comparons nos meilleurs résultats obtenus avec SPAMAUT et 3CA&1NB avec ceux publiés dans la littérature. Les comparaisons permettent d apprécier la qualité de classification de SPAMAUT et 3CA&1NB (Barigou, et al., 2012-c). Structure du mémoire Nous poursuivons cette introduction générale avec les chapitres suivants : Chapitre 1 : puisque le filtrage de spam est considéré comme une tâche de la catégorisation de textes (CT), nous présentons brièvement dans ce chapitre, la notion de catégorisation de textes, sa définition mathématique, ses applications ainsi que les composants d un processus de CT. Chapitre 2 : les données que nous manipulons dans cette étude sont des données textuelles (le contenu des courriels), mais les algorithmes d apprentissage ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire. Dans ce chapitre nous allons décrire toutes les étapes permettant de construire une représentation qui soit exploitable par un algorithme d apprentissage. Chapitre 3 : nous consacrons ce chapitre à l étude de l apprentissage automatique et tout particulièrement l apprentissage supervisé. Nous développons les différents algorithmes permettant de construire des classifieurs dans le domaine de catégorisation de textes. Nous poursuivons ce chapitre par une comparaison de ces algorithmes avant

17 Introduction Générale 5 d introduire la combinaison de classifieurs. Nous présentons les motivations de la combinaison ainsi qu une taxonomie de la combinaison parallèle. Chapitre 4 : nous introduisons le phénomène du spam ses objectifs et ses impacts. Nous poursuivons ce chapitre avec une étude des principaux travaux ayant contribué dans le filtrage de spam par apprentissage supervisé. Chapitre 5 : ce chapitre est dédié à la description détaillée de notre système de détection de spam. Tout au long de ce chapitre les différentes étapes seront illustrées par des schémas et des algorithmes. Nous étudions en première partie, une nouvelle approche de détection de spam à base d induction symbolique par automate cellulaire et que nous avons baptisé «SPAMAUT». Et en deuxième partie de ce chapitre nous étudions un système de combinaison de classifieurs que nous avons baptisé 3AC&1NB pour la détection de spam afin d améliorer les performances du système SPAMAUT. Chapitre 6 : Nous trouvons une présentation du corpus que nous avons utilisé, ainsi que les différentes mesures d évaluation appliquées pour l évaluation des performances de nos systèmes de détection de spam, SPAMAUT et 3AC&1NB. Nous présentons l étude expérimentale menée avec ce corpus où nous étudions l impact de plusieurs paramètres comme le traitement linguistique, la pondération et la sélection sur la performance du système proposé. Nous analysons aussi la combinaison proposée et nous la comparons avec d autres travaux publiés dans la littérature. Tous les résultats expérimentaux réalisés avec SPAMAUT et 3AC&1BN, sont présentés dans ce chapitre avec des figures illustratives, afin de faciliter la compréhension et la comparaison de ces résultats avec d autres méthodes de filtrage. Conclusion : nous terminons ce mémoire par une synthèse du travail effectué dans ce mémoire de magister et les différentes perspectives que nous pouvons envisager pour les travaux futurs.

18 1 Une introduction à la Catégorisation de Textes Le problème de filtrage des courriels indésirables est abordé dans ce mémoire comme un problème de catégorisation de textes à deux catégories : la catégorie spam pour les courriels indésirables, et la catégorie légitime pour les autres courriels légitimes. Il faut donc disposer d'un ensemble d'exemples pour chaque catégorie, préalablement étiquetés. Et grâce à ces deux ensembles de courriels, il est possible de construire un classifieur avec un algorithme d'apprentissage supervisé. Si ce dernier est correctement conçu, il sera capable de prédire pour chaque nouveau courriel sa propre catégorie. Jusqu'aux années 1980, l'approche dominante en CT était celle de l'ingénierie des connaissances. Il s'agissait de modéliser, sous forme de règles, les connaissances d'un expert sur les règles de classification des documents. Ces règles étaient utilisées par le système pour déduire la classe d'un nouveau document. Un exemple de système basé sur cette approche est le système Construe (Haykin, 1999). Les limites de ce type d'approche

19 Une Introduction à la Catégorisation de textes 7 sont bien connues: elle est très coûteuse en temps et en ressources humaines, elle est aussi difficilement adaptable à un autre domaine car il faut tout réécrire. Sur le plan théorique, l'approche de l'ingénierie des connaissances présente plus de difficultés. En effet, il est plus difficile de caractériser un concept en écrivant des règles qui le décrivent qu'en sélectionnant ces instances (approche par apprentissage). L'approche de l'ingénierie des connaissances fut progressivement abandonnée vers les années 1990 en faveur de l'approche par apprentissage automatique (AA). Comme l'explique Sebastiani (Sebastiani, 2002) la recherche en catégorisation de textes a été encouragée par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. En effet, la tâche de la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles. Dans ce chapitre introductif, nous présentons le concept de la catégorisation de textes, ses applications et rappelons brièvement le processus de la CT. 1.1 Notations Nous définissons les termes suivants : - Une collection D est un ensemble de n documents : D = { d, d, d } 1 2 n ; D = n; n N ; - Un ensemble T de termes (appelés aussi mots-clés ou descripteurs) qui représente le vocabulaire de la collection D

20 Une Introduction à la Catégorisation de textes 8 T = { t, t,, t } 1 2 P ; T = p; p N - Un ensemble C de catégories : C = { c, c,, c } 1 2 m ; C = m; m N 1.2 Catégorisation de textes La tâche de catégorisation de textes (appelée aussi classification de textes) est une tâche ancienne de la recherche d information (Manning, et al., 1999) qui est apparue au début des années 60 mais qui s est largement développée durant les 15 dernières années. Elle consiste à attribuer à un document une ou plusieurs catégories (ou classes) parmi un ensemble prédéfini. Cette problématique a dernièrement trouvé de nouvelles applications dans des domaines tels que le filtrage de spam, le routage des courriels (voir Figure 1.1), la veille technologique, l analyse des opinions, la détection des intrusions, etc. Dans cette section, nous nous intéressons tout d abord à la définition de cette tâche, puis nous décrivons brièvement le processus d un système de catégorisation de textes.

21 Une Introduction à la Catégorisation de textes 9 Boîte de réception Mail urgent Nouvel ? Mail du directeur général Mail à propos de l évolution du marché Mail sur les concurrents Mail personnel Figure 1.1-Un exemple d'un système de routage de courriels. Le système de la Figure 1.1 organise des s dans des boîtes aux lettres qui correspondent chacune à une classe du problème de classification (Denoyer, 2004) Définition La catégorisation de texte consiste à chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes ou classes). Cette liaison fonctionnelle que l'on appelle aussi modèle de prédiction est considérée par un apprentissage automatique. Pour ce faire, il est nécessaire de disposer d'un ensemble de textes préalablement étiquetés, appelé ensemble d'apprentissage, à partir duquel nous estimons les paramètres du modèle de prédiction le plus performant possible; et qui produit le moins d'erreur de prédiction (Sebastiani, 2002). Formellement, la catégorisation de textes consiste à associer une valeur booléenne à chaque paire: ( d j, c i ) D C. La valeur «vraie» (V) est alors associée au couple

22 Une Introduction à la Catégorisation de textes 10 ( d j, c i ) si le texte associée dans le cas contraire. d j appartient à la classe c i tandis que la valeur «faux» (F) lui sera Le but de la catégorisation est de construire un modèle (appelé aussi classifieur voir 3.2) Ω : D C { V,F} qui associe une ou plusieurs étiquettes (catégories) à un document d j tel que la décision donnée par cette procédure coïncide le plus possible avec la vrai fonction Φ: D C { V,F }, qui retourne pour chaque vecteur d j une valeur c i. Nous pouvons distinguer trois types de catégorisation de textes Catégorisation binaire : ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : «le document est pertinent ou non?», «le courriel est un spam ou non»? Catégorisation multi catégories : c est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation correspond par exemple au problème d affectation automatique des codes CIM aux comptes rendus médicaux. Catégorisation multi catégories disjointes : c est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels. Dans cette étude et dans le contexte de filtrage de spam nous nous intéressons plus particulièrement à la catégorisation binaire Processus de catégorisation D après Sahami et al. (1998) la construction d un système de catégorisation, repose sur trois principales étapes : la représentation de textes, l apprentissage par l enchaînement d un algorithme de catégorisation (élaboration d un modèle de prédiction) et enfin, l évaluation en fonction du modèle généré (Sahami, et al., 1998).

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Livret du Stagiaire en Informatique

Livret du Stagiaire en Informatique Université François-Rabelais de Tours Campus de Blois UFR Sciences et Techniques Département Informatique Livret du Stagiaire en Informatique Licence 3ème année Master 2ème année Année 2006-2007 Responsable

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Cours CCNA 1. Exercices

Cours CCNA 1. Exercices Cours CCNA 1 TD1 Exercices Exercice 1 : Décrivez les facteurs internes qui ont un impact sur les communications réseau. Les facteurs internes ayant un impact sur les communications sont liés à la nature

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Guide de l étudiant. Domaine du Pont de bois B.P.20225 59654 Villeneuve d'ascq Cedex. sead.support@univ-lille3fr

Guide de l étudiant. Domaine du Pont de bois B.P.20225 59654 Villeneuve d'ascq Cedex. sead.support@univ-lille3fr Domaine du Pont de bois B.P.20225 59654 Villeneuve d'ascq Cedex sead.support@univ-lille3fr Guide de l étudiant Le Service d'enseignement A Distance de Lille3 a développé un Espace Numérique de Formation

Plus en détail

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT www.imnrennes.fr ÉPREUVE E1 - CULTURE GÉNÉRALE ET EXPRESSION Coefficient 3 L objectif visé est de vérifier l aptitude des candidats à communiquer avec efficacité

Plus en détail

Guide de l informatique Le courrier électronique

Guide de l informatique Le courrier électronique Guide de l informatique Le courrier électronique Le courrier électronique - également appelé email ou courriel - occupe désormais une place importante dans la vie de beaucoup d'internautes. Se créer une

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Leçon 5 ... La photographie numérique, ou comment partager des photos avec la famille et les amis. Tous connectés, de 9 à 99 ans.

Leçon 5 ... La photographie numérique, ou comment partager des photos avec la famille et les amis. Tous connectés, de 9 à 99 ans. 5... La photographie numérique, ou comment partager des photos avec la famille et les amis Ces icônes indiquent pour qui est le document Professeurs WebExperts Seniors Elèves Informations de base Informations

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

UNIVERSITE DE LORRAINE CALCIUM

UNIVERSITE DE LORRAINE CALCIUM UNIVERSITE DE LORRAINE CALCIUM Outil pour la gestion des dossiers médicaux des étudiants dans les services universitaires de médecine préventive Table des matières CALCIUM... 0 I. L INFORMATION GÉRÉE PAR

Plus en détail

GUIDE PRATIQUE COMPTABILITE CREANCIERS. Version 1.0 du 27 septembre 2013

GUIDE PRATIQUE COMPTABILITE CREANCIERS. Version 1.0 du 27 septembre 2013 GUIDE PRATIQUE COMPTABILITE CREANCIERS Version 1.0 du 27 septembre 2013 Table des matières 1. Introduction... 3 1.1. Les comptabilités auxiliaires... 3 2. Paramètres de bases... 3 2.1. Les conditions de

Plus en détail

Guide d utilisation de l outil d audit de sécurité. AUDITSec. Version 3.0

Guide d utilisation de l outil d audit de sécurité. AUDITSec. Version 3.0 Guide d utilisation de l outil d audit de sécurité AUDITSec Version 3.0 Mai 2011 Historique du document Version Date Auteur Description 1.0 6 novembre 2010 Éric Clairvoyant http://ca.linkedin.com/pub/ericclairvoyant/7/ba/227

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Manuel d utilisation de Form@Greta

Manuel d utilisation de Form@Greta Manuel d utilisation de Form@Greta Février 2014 Version apprenant Auriane Busson Greta-numerique@ac-caen.fr Sommaire 1. Qu est-ce que Form@Greta?... 2 2. S identifier sur la plateforme... 3 3. Espace d

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

Guide de l'utilisateur

Guide de l'utilisateur Guide de l'utilisateur Version 1.0 Mars 2013 1 / 19 Table des matières Envoyer ma première Newsletter avec Hydremail Connexion au service Téléchargement de votre base de données Création de votre segment

Plus en détail

1 La visualisation des logs au CNES

1 La visualisation des logs au CNES 1 La visualisation des logs au CNES 1.1 Historique Depuis près de 2 ans maintenant, le CNES a mis en place une «cellule d analyse de logs». Son rôle est multiple : Cette cellule est chargée d analyser

Plus en détail

Pratiquons ensemble Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons ensemble. Outlook 2003 Support de notes - Laurent DUPRAT -

Pratiquons ensemble Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons ensemble. Outlook 2003 Support de notes - Laurent DUPRAT - Pratiquons Outlook 2003 Support de notes - Laurent DUPRAT - ensemble Outlook 2003 Support de notes - Laurent DUPRAT - ensemble Outlook 2003 Support de notes - Pratiquons ensemble Outlook ensemble 2003

Plus en détail

Réflexion sur la formation des enseignants à partir des expériences du pilotage du Projet des Étoiles (1.3.3) du CELV

Réflexion sur la formation des enseignants à partir des expériences du pilotage du Projet des Étoiles (1.3.3) du CELV Réflexion sur la formation des enseignants à partir des expériences du pilotage du Projet des Étoiles (1.3.3) du CELV Le Projet des Étoiles est l un des projets à moyen terme du CELV axé sur les nouvelles

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Chapitre 2 : Catégorisation de textes et apprentissage numérique : état de l'art 11 Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Afin de mettre l'apport proposé dans ce

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

EXCEL PERFECTIONNEMENT CALCULS AVANCES

EXCEL PERFECTIONNEMENT CALCULS AVANCES TABLE DES MATIÈRES TABLE DES MATIÈRES... 1 CONVENTIONS UTILISÉES... 2 FORMATS... 3 Formats personnalisés... 3 ADRESSAGE DE CELLULES... 4 relatif & absolu Rappel... 4 FONCTIONS SI-ET-OU... 5 LA FONCTION

Plus en détail

Plateforme AnaXagora. Guide d utilisation

Plateforme AnaXagora. Guide d utilisation Table des matières 1. PRESENTATION DE LA PLATE-FORME D APPRENTISSAGE ANAXAGORA... 3 2. ARCHITECTURE FONCTIONNELLE... 4 3. L APPRENTISSAGE... 5 3.1. L ESPACE DE TRAVAIL... 5 3.1.1. Le calendrier... 5 4.

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

I - Introduction à La psychologie Expérimentale

I - Introduction à La psychologie Expérimentale LA METHODE EXPERIMENTALE I - Introduction à La psychologie Expérimentale I.1. Introduction I.2. Critiques concernant l utilisation de la méthode expérimentale en psychologie I.2.A. Critiques morales I.2.A.

Plus en détail

Les approches d enseignement supporté dans l ingénierie

Les approches d enseignement supporté dans l ingénierie Les approches d enseignement supporté dans l ingénierie Jan Bujnak Université de Zilina Slovaquie La parole dite et le texte écrit sur papier étaient la base ainsi que le seul moyen de transférer les informations

Plus en détail

LA MESSAGERIE ÉLECTRONIQUE

LA MESSAGERIE ÉLECTRONIQUE LA MESSAGERIE ÉLECTRONIQUE OUTLOOK EXPRESS La messagerie électronique permet d envoyer et de recevoir des messages entre des correspondants identifiés par une adresse électronique avec l aide d un ordinateur

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Guide de formation. EasyCruit

Guide de formation. EasyCruit Guide de formation EasyCruit Contents INTRODUCTION... 3 PRÉSENTATION ET NAVIGATION... 3 CRÉATION D UN PROJET DE RECRUTEMENT... 5 ETAPE 1 : Nom interne du projet... 5 ETAPE 2 : Associer l offre au bon département...

Plus en détail

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes :

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes : CONCLUSIONS L application de la PNL à l entreprise est confrontée aux besoins des leaders d équipe, tels que: la gestion de son propre développement, du stress, la résolution des problèmes tels que les

Plus en détail

D après FD X50-176 Management des processus (2005) AC X50-178 Management des processus, Bonnes pratiques et retours d expérience (2002)

D après FD X50-176 Management des processus (2005) AC X50-178 Management des processus, Bonnes pratiques et retours d expérience (2002) L'approche processus D après FD X50-176 Management des processus (2005) AC X50-178 Management des processus, Bonnes pratiques et retours d expérience (2002) Diaporama : Marie-Hélène Gentil (Maître de Conférences,

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Profil du candidat et connaissances techniques à connaître/maîtriser

Profil du candidat et connaissances techniques à connaître/maîtriser Utilisation d algorithmes de deep learning pour la reconnaissance d iris. jonathan.milgram@morpho.com Dans ce cadre, l'unité de recherche et technologie a pour but de maintenir le leadership Au sein de

Plus en détail

LE CONTROLE D ERREURS LES CODES AUTOVERIFICATEURS OU AUTOCORRECTEURS. Les codes de blocs

LE CONTROLE D ERREURS LES CODES AUTOVERIFICATEURS OU AUTOCORRECTEURS. Les codes de blocs LE CONTROLE D ERREURS LES CODES AUTOVERIFICATEURS OU AUTOCORRECTEURS Les codes de blocs Le principe employé dans les codes de blocs consiste à construire le mot de code en «sectionnant» l information utile

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail

MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie

MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie MASTER II ECONOMIE ET GESTION Spécialité Management des Organisations de la Neteconomie MODULE C03 - Séquence 1 INTRODUCTION I. UN PEU D'HISTOIRE II. LES RESSOURCES D'UN SI III. LA DÉFINITION D UN SI À

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

GUIDE DE DEPÔT DANS HAL

GUIDE DE DEPÔT DANS HAL GUIDE DE DEPÔT DANS HAL Octobre 2009 Laboratoire I3S (Informatique, Signaux et Systèmes de Sophia Antipolis) SOMMAIRE 1. Pourquoi déposer? p. 1 2. Comment déposer? p. 1 2.1. Recommandations p. 1 2.2. Pré

Plus en détail

Rédiger un rapport technique

Rédiger un rapport technique Rédiger un rapport technique Prof. N. Fatemi Plan Introduction Présentation écrite Programmation du travail Rédaction Conseils génériques Références 2 Introduction Objectifs du cours Savoir étudier un

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

La détection automatique de l opinion : contraintes et enjeux

La détection automatique de l opinion : contraintes et enjeux La détection automatique de l opinion : contraintes et enjeux Frédéric Marcoul Responsable R&D de Spotter fmarcoul@spotter.com Ana Athayde Président Directeur Général de Spotter aathayde@spotter.com RÉSUMÉ

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

MMA - Projet Capacity Planning LOUVEL Cédric. Annexe 1

MMA - Projet Capacity Planning LOUVEL Cédric. Annexe 1 Annexe 1 Résumé Gestion Capacity Planning Alternance réalisée du 08 Septembre 2014 au 19 juin 2015 aux MMA Résumé : Ma collaboration au sein de la production informatique MMA s est traduite par une intégration

Plus en détail

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques.

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques. Cet ouvrage s inscrit dans le cadre d une problématique globale portant sur l amélioration de la qualité du logiciel pour des organismes qui ont atteint un certain niveau de maturité. Il cherche à rapprocher

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Entrez votre courriel pour administrer votre domaine. Entrer. Figure 1 : Écran de connexion. Ajouter un alias pour votre domaine.

Entrez votre courriel pour administrer votre domaine. Entrer. Figure 1 : Écran de connexion. Ajouter un alias pour votre domaine. PROMAIL Cette interface Web permet à l administrateur de gérer l ensemble des paramètres du ou des domaines dont il a la charge ainsi que les comptes associés. Il suppose donc une connaissance basique

Plus en détail

Guide méthodologique 4

Guide méthodologique 4 N/Réf : X2 217 012 Collection Guides méthodologiques Comment réaliser un travail de recherche Guide méthodologique 4 Louis Gaudreau Conseiller en documentation Centre des médias Septembre 2007 TABLE DES

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Contrôle. De nombreuses entreprises contrôlent toujours l exactitude des factures selon les documents papier. Contrôle des visas

Contrôle. De nombreuses entreprises contrôlent toujours l exactitude des factures selon les documents papier. Contrôle des visas Contrôle Contrôle des visas Pages 3/2006 Pages romandes Contrôler et viser des factures électroniquement De nombreuses entreprises contrôlent toujours l exactitude des factures selon les documents papier

Plus en détail

FRENCH, SECOND LANGUAGE

FRENCH, SECOND LANGUAGE FRENCH, SECOND LANGUAGE TEST DE CLASSEMENT FRE-1092-6 FRE-5091-6 DÉFINITION DU DOMAINE D EXAMEN SEPTEMBRE 1998 Quebec FRENCH, SECOND LANGUAGE TEST DE CLASSEMENT FRE-1092-6 FRE-5091-6 DÉFINITION DU DOMAINE

Plus en détail

Description du logiciel Smart-MED-Parks Article technique

Description du logiciel Smart-MED-Parks Article technique Introduction Description du logiciel Smart-MED-Parks Article technique Depuis le lancement du projet en février 2013, différentes actions ont été effectuées dans le but d'accroître la sensibilisation et

Plus en détail

Gestion des approvisionnements avec SAP Business One Optimisation des approvisionnements grâce à l intégration de la logistique et de la comptabilité

Gestion des approvisionnements avec SAP Business One Optimisation des approvisionnements grâce à l intégration de la logistique et de la comptabilité distributeur des solutions FICHE TECHNIQUE Module : Gestion des achats Gestion des approvisionnements avec SAP Business One Optimisation des approvisionnements grâce à l intégration de la logistique et

Plus en détail

Filtrage du courrier électronique

Filtrage du courrier électronique Filtrage du courrier électronique 1- Présentation générale En se rendant avec son navigateur web sur Mon compte il est possible de mettre en place des règles de filtrage de son courrier. Ces règles sont

Plus en détail

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON L analytique joue un rôle désormais primordial dans la réussite d une entreprise. Les pouvoirs qu elle délivre sont incontestables, cependant

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Mini-Projet de Prolog : Solver de Sudoku

Mini-Projet de Prolog : Solver de Sudoku UNIVERSITE François Rabelais TOURS Polytech Tours-Département Informatique 64, Avenue Jean Portalis 37200 TOURS Mini-Projet de Prolog : Solver de Sudoku Encadré par : Présenté par : M. J-L Bouquard Florent

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Les graphes d intervalles

Les graphes d intervalles Les graphes d intervalles Complément au chapitre 3 «Vol aux archives cantonales» Considérons un ensemble de tâches ayant chacune une heure de début et une heure de fin bien précises. Supposons qu on demande

Plus en détail

TS214 - Compression/Décompression d une image binaire

TS214 - Compression/Décompression d une image binaire Filière Télécommunications, 2 ème année TS214 - Compression/Décompression d une image binaire De nombreux télécopieurs utilisent la recommandation T.4 Groupe 3 de l International Telecommunications Union

Plus en détail

Aide : publication de décisions VS

Aide : publication de décisions VS Aide : publication de décisions VS Table des Matières Introduction... 2 Recherche (Recherche dans le texte intégral)... 2 Filtres... 3 Collection d arrêts... 4 Date de la décision et date de publication...

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

10 Prototypage rapide de logiciel pour les systèmes avioniques

10 Prototypage rapide de logiciel pour les systèmes avioniques Introduction Le contexte aéronautique 1 a depuis plusieurs années mis en évidence le besoin croissant de technologies de sécurité permettant d éviter des utilisations malveillantes des matériels ou services

Plus en détail

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier 2014. www.vade-retro.com

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier 2014. www.vade-retro.com COMBATTRE LE PHISHING Auteur Sébastien GOUTAL Responsable Filter Lab Janvier 2014 LIVRE BLANC www.vade-retro.com Index Introduction... 3 Typologies du phishing et du spam... 4 Techniques de filtrage des

Plus en détail

FORMATION EXCEL 2003 LIVRET 6 LES FILTRES DANS EXCEL

FORMATION EXCEL 2003 LIVRET 6 LES FILTRES DANS EXCEL FORMATION EXCEL 2003 LIVRET 6 LES FILTRES DANS EXCEL AUTEUR : THIERRY TILLIER Ceci est un extrait du cours original disponible sur http://www.coursdinfo.fr 2/19 Les filtres Copyright 2005 Thierry TILLIER

Plus en détail

Fiche pratique www.ecardsparis1.fr

Fiche pratique www.ecardsparis1.fr Fiche pratique www.ecardsparis1.fr Pour des raisons de sécurité des informations personnelles pouvant y figurer, nous vous rappelons que pour accéder à l application ecards de Paris 1, vous devez vous

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

LA SOLUTION MODULAIRE DE MESSAGERIE QUI PERMET DE COMMUNIQUER AVEC LE MONDE ENTIER

LA SOLUTION MODULAIRE DE MESSAGERIE QUI PERMET DE COMMUNIQUER AVEC LE MONDE ENTIER LA SOLUTION MODULAIRE DE MESSAGERIE QUI PERMET DE COMMUNIQUER AVEC LE MONDE ENTIER ixware permet aux utilisateurs d envoyer et de recevoir des messages depuis leur poste de travail ou même leurs applications

Plus en détail

Mémoire de Projet Professionnel TITRE DU PROJET

Mémoire de Projet Professionnel TITRE DU PROJET République Tunisienne Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université de Sfax Institut Supérieur d Informatique et de Multimédia de Sfax Sigle de l ISIMS Mastère Professionnel

Plus en détail

Management des processus opérationnels

Management des processus opérationnels Ecole Nationale Supérieure de Management Master Management des organisations Management des processus opérationnels Dr TOUMI Djamila Cours n 1: La vision processus dans le management des organisations

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

ApiCrypt - Réception des résultats de biologie

ApiCrypt - Réception des résultats de biologie ApiCrypt - Réception des résultats de biologie ApiCrypt vous permet de recevoir, de manière sécurisée, les résultats de laboratoire ou lettres de confrères dans AlmaPro. Vous devez préalablement vous abonner

Plus en détail

Manuel d utilisation du Site Internet Professionnel

Manuel d utilisation du Site Internet Professionnel Manuel d utilisation du Site Internet Professionnel www.uni-presse.fr/pro UNI-Presse 112 rue Réaumur, 75080 Paris Cedex 02 France Tél : 01 42 78 37 72 Fax : 01 42 78 06 57 E-mail : servicepro@uni-presse.fr

Plus en détail