Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)"

Transcription

1 Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

2 Caractéristiques des traitements Approche identique pour les 4 corpus Traitement linguistiques peu nombreux Approche statistiques essentiellement

3 Schéma général du traitement : 1- Prétraitements et Vectorisation Calcul index Index complet Réduction index Index réduit Corpus Appren tissage Lemmatisation Vecteurs textes Vecteurs textes Vecteurs textes Vectorisation Vectorisation (Apprentissage et test)

4 Prétraitements, réduction d index Lemmatisation Élimination des articles, ponctuation faible Réduction par information mutuelle [Cover et al., 1991] : I( C, M ) = P( c)log( P( c)) + P( f ) P( c f )log( P( c f )) t t t t c C f {0,1} c C t

5 (Corpus d Apprentissage) Schéma général du traitement : 2- Modélisation et Classification Calcul modèle (Corpus de test) Attribution classe Résultats

6 Modélisation Modèles statistiques Quatre méthodes principales de calcul de modèles Naïve Bayes Multinomial Réseaux de Neurones type RBF Machine à Vecteurs Support SVM Arbres de décision C4.5 (Quinlan)

7 Naïve Bayes Multinomial Modèle Probabiliste Combinaison de la loi de Bayes, et de la loi Multinomiale (hypothèse d indépendance des probabilités de chaque mot) => Calcul de l appartenance d un document à une classe : c j C 1 i n ^ ^ count(mi) C map = arg max P(C j)* (P(m i C j) ) c j C 1 i n ^ C arg max log P(C ) count(mi) * log(p(m C )) = + map j i j ^ - P(m i C j ) calculé par l estimateur de Laplace

8 Machine à Vecteurs Support SVM Calcul de l Hyperplan de séparation entre classes Maximises la distance entre l hyperplan et les points difficiles proches de la frontière de décision Une intuition: s il n y a pas de points proches de la surface de décision, alors il n y a pas de décisions incertaines de classification SVMs maximise la marge autour autour de l hyperplan séparateur (large margin classifiers) La fonction de décision est entièrement spécifiée par un sous ensemble d échantillons d apprentissage : Les vecteurs support. Problème de Programmation Quadratique Quatre types de résolutions : linéaire, polynomiale, RBF, sygmoïde

9 Réseaux de Neurones type RBF Un RBF est constitué uniquement de 3 couches : La couche d entrée : elle retransmet les inputs sans distorsion. La couche RBF : couche cachée qui contient les neurones RBF. Les neurones sont des gaussiennes. La couche de sortie : simple couche qui contient une fonction linéaire. Chaque couche est fully connected à la suivante.

10 Réseaux de Neurones type RBF W 1 W 2 La sortie du réseau est une combinaison linéaire des sorties des neurones RBF multipliés par le poids de leur connexion respective. W 3 ENTREE SORTIE = N j= 1 w j s j n W N N Chaque neurone RBF contient une gaussienne centrée sur un point de l espace d entrée : f(x) = EXP(x² / (2* Beta²)) Pour une entrée donnée, la sortie du neurone RBF est la hauteur de la gaussienne en ce point.

11 Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Réduction d index sur S Découper S en x parties égales S1,, Sx Pour i de 1 à x Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si Fin Pour En général le nombre x de parties est fixé à 10. Inclure dans la validation croisée la réduction d index

12 Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Découper S en x parties égales S1,, Sx Pour i de 1 à x Fin Pour Réduction d index sur S - Si Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si En général le nombre x de parties est fixé à 10.

13 Corpus Nombre initial d unités linguistiques Résultats : taille des index Nombre d unités linguistiques Après réduction Corpus Corpus Corpus Corpus

14 Résultats Fscore CORPUS 1 : Validation Croisée Jeu de test critiques cinéma, Livres, Disques Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien 0.86 Classe Mauvais / Classe Moyen / Classe Bien / Classe Mauvais Classe Moyen Classe Bien (meilleur résultat officiel) (non publié) (non publié)

15 Résultats Fscore CORPUS 2 : critiques Jeux vidéos Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien Classe Mauvais / Classe Moyen / Classe Bien / Classe Mauvais Classe Moyen 0.82 Classe Bien (non publié) (meilleur résultat officiel)

16 Résultats Fscore CORPUS 3 : Relectures d articles Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien Classe Mauvais / Classe Moyen 0.543/ Classe Bien / Classe Mauvais Classe Moyen Classe Bien (non publié) (meilleur résultat officiel)

17 Résultats Fscore CORPUS 4 : Débats Parlementaires Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Arbres de décision C 4.5 Quinlan Classe Contre Classe Pour (meilleur résultat officiel) Classe Contre / Classe Pour / (non publié) Classe Contre Classe Pour 0.73 (non publié) Classe Contre Classe Pour 0.525

18 Vote : Majorité Moyenne Fondé sur la matrice de «confusion» Minimum, Maximum Avec Pré filtrage Autres méthodes tentées : Élimination des phrases inutiles : possible sur le corpus 1 seulement Avec Synonymes 2 approches : Index complet mots : Élimination des mots clés synonymes sur l index Index réduit de mots : les mots non présents synonymes de mots de l index augmentent la valeur de la coordonnée du mot de l index

19 De nouveaux résultats avec Mots et Bi-grammes (lemmes) : Vote Naïve Bayes M, SVM, SVM2 Moyenne de probabilités Fscore Validation Croisée avec index CORPUS 1 : Critiques cinéma (minimum de probabilités) CORPUS 2 : Jeux vidéos Classe Mauvais Classe Moyen % Classe Bien Classe Mauvais Classe Moyen Classe Bien (61,02) 79.1% (78,29) CORPUS 4 : Débats Parlementaires Classe Contre % Classe Pour (69,07)

20 Un challenge intéressant Les algorithmes SVM et Naïve Bayes Multinomial Très robustes Résultats à améliorer Les techniques avec synonymes décevantes Conclusion Les techniques avec élimination des phrases creuses Les Votes par moyenne améliorent les résultats Les techniques Mots + Bigrammes (lemmes) améliorent légèrement les résultats

21 Merci de votre attention.. Questions?..

2 Représentation des données textuelles

2 Représentation des données textuelles Un système de vote pour la classification de textes d'opinion Michel Plantié*, Mathieu Roche**, Gérard Dray* * LGI2P, Ecole des Mines d'alès, Site EERIE (michel.plantie, gerard.dray)@ema.fr ** LIRMM, UMR

Plus en détail

Les Réseaux de Neurones avec

Les Réseaux de Neurones avec Les Réseaux de Neurones avec Au cours des deux dernières décennies, l intérêt pour les réseaux de neurones s est accentué. Cela a commencé par les succès rencontrés par cette puissante technique dans beaucoup

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

LSA : les limites d'une approche statistique

LSA : les limites d'une approche statistique LSA : les limites d'une approche statistique Atelier «Fouille de Données Complexes» (FDC'6), 7 janvier 26 Mathieu Roche et Jacques Chauché Equipe TAL, LIRMM, Université Montpellier 2 Plan Motivations LSA

Plus en détail

Reconnaissance d'objets routiers - Application

Reconnaissance d'objets routiers - Application Reconnaissance d'objets routiers - Application Perception pour la conduite automatisée A07 : Interaction Véhicule Environnement Aurélien Cord Aurelien.Cord@lcpc.fr Reconnaissance de piétons 2 1 Etat de

Plus en détail

Acquisition de synonymes à partir du TLFi :, analyse de données et expérimentation

Acquisition de synonymes à partir du TLFi :, analyse de données et expérimentation Acquisition de synonymes à partir du TLFi : analyse de données et expérimentation Nabil Hathout & Philippe Muller 30 novembre 2007 1 / 22 Introduction objectif : extraire des liens lexicaux d un dictionnaire

Plus en détail

Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple

Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple La classification Plan Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple Définition et Objectifs Prévoir l appartenance à une «classe» non

Plus en détail

COURS DE DATA MINING 8 : MODELISATIONS RESEAUX DE NEURONES ET DE KOHONEN

COURS DE DATA MINING 8 : MODELISATIONS RESEAUX DE NEURONES ET DE KOHONEN COURS DE DATA MINING 8 : MODELISATIONS RESEAUX DE NEURONES ET DE KOHONEN EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 8 : Modélisations - Réseaux de neurones

Plus en détail

Fusion de classifiers visuels et textuels pour un système de recherche d images

Fusion de classifiers visuels et textuels pour un système de recherche d images Fusion de classifiers visuels et textuels pour un système de recherche d images Sabrina Tollari, Hervé Glotin, Jacques Le Maitre Université du Sud Toulon-Var Giens, 16 juin 2004 1 Plan Problématique Du

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Intelligence Artificielle

Intelligence Artificielle Intelligence Artificielle p. 1/1 Intelligence Artificielle Les arbres de décisions Maria Malek Département Systèmes Informatiques Formels & Intelligents Intelligence Artificielle p. 2/1 Extraire les connaissances

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

Régression logistique

Régression logistique Régression logistique Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Régression logistique p. 1 Introduction Objectifs Le classifieur de Bayes est basé sur la comparaison des probabilités

Plus en détail

Recherche et Extraction d'information Généralités

Recherche et Extraction d'information Généralités Recherche et Extraction d'information Généralités Mathieu Roche Cours ECDA 2014/2015 Plan Motivations Veille technologie Les défis Les méthodes en RI Généralités Les limites des approches actuelles Approches

Plus en détail

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Application du deep learning à la traduction automatisée

Application du deep learning à la traduction automatisée Application du deep learning à la traduction automatisée soutenance de stage Montreal Institute for Learning Algorithms sous l encadrement de Yoshua Bengio et Pascal Vincent Avril - Août 2014 1/33 Plan

Plus en détail

Reconnaissance des formes

Reconnaissance des formes Reconnaissance des formes Discrimination A. Belaïd LORIA - Nancy Discrimination linéaire Notion d hyperplan Discrimination linéaire Principe Une forme x R d (vecteur forme) Rôle de la Trouver D : R d x

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1)

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT

Plus en détail

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi Exemple pour un perceptrion à deux classes (1 unité de sortie) -> 1/-1 Si w i x 0 la réponse est 1 Si w i x 0 la réponse est -1 Donc la discrimination se fait pour des entrés (les x ). Cet hyperplan a

Plus en détail

Le Référencement. Réalisé par Alexandre THOMAS pour l Union des OT en Pays Libournais

Le Référencement. Réalisé par Alexandre THOMAS pour l Union des OT en Pays Libournais Le Référencement Réalisé par Alexandre THOMAS pour l Union des OT en Pays Libournais Le tourisme et Internet 83% des touristes réservent leur voyage en ligne Dont 97% qui réservent leur hébergement à l

Plus en détail

Analyse d'opinions et de sentiments

Analyse d'opinions et de sentiments Analyse d'opinions et de sentiments Joséphine Anstett IFT6010 Intelligence artificielle Plan Introduction Contexte Complexité des textes Méthode symbolique Méthode statistique Conclusion Comparaison des

Plus en détail

Créer des modèles statistiques plus rapidement et facilement

Créer des modèles statistiques plus rapidement et facilement Créer des modèles statistiques plus rapidement et facilement Paris, 26 Septembre 2012 Sam Gardner Copyright 2010 SAS Institute Inc. All rights reserved. Questionnaire Comment définiriez vous votre niveau

Plus en détail

Estimation indirecte en sciences humaines : une méthode bayésienne

Estimation indirecte en sciences humaines : une méthode bayésienne Estimation indirecte en sciences humaines : une méthode bayésienne Henri Caussinus, Institut de Mathématiques de Toulouse, en collaboration avec Daniel Courgeau, INED Isabelle Séguy, INED Luc Buchet, CNRS

Plus en détail

Apprentissage de structure à partir de données incomplètes et application à la classication

Apprentissage de structure à partir de données incomplètes et application à la classication Apprentissage de structure à partir de données incomplètes et application à la classication Olivier François, Philippe Leray Francois.Olivier.C.H@gmail.com, Philippe.Leray@insa-rouen.fr Laboratoire d'informatique,

Plus en détail

Prédiction de la Structure des Protéines. touzet@lifl.fr

Prédiction de la Structure des Protéines. touzet@lifl.fr Prédiction de la Structure des Protéines Hélène TOUZET touzet@lifl.fr Structure Structure Structure Structure primaire secondaire tertiaire quaternaire Exemple : la structure secondaire de la transthyretine

Plus en détail

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension APPRENTISSAGE AUTOMATIQUE Réduction de dimension Malédiction de la dimensionalité Beaucoup de méthodes d apprentissage ne passent pas bien à l échelle pour des données de grandes dimensions: c est la malédiction

Plus en détail

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Journée Résumé Automatique Multimédia 2011/03/17 Emilie Guimier De Neef Plan de la

Plus en détail

Apprentissage automatique et contraintes

Apprentissage automatique et contraintes Projet. Master 2- IRR/IARF - Univ. Toulouse III 1 1 Introduction Apprentissage automatique et contraintes Dans cette dernière partie nous verrons comment combiner la satisfaction de contraintes et l optimisation

Plus en détail

Évaluation de la classification et segmentation d'images en environnement incertain

Évaluation de la classification et segmentation d'images en environnement incertain Évaluation de la classification et segmentation d'images en environnement incertain EXTRACTION ET EXPLOITATION DE L INFORMATION EN ENVIRONNEMENTS INCERTAINS / E3I2 EA3876 2, rue F. Verny 29806 Brest cedex

Plus en détail

Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES

Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES 1 TABLE DES MATIERES TABLE DES MATIERES... 2 I PERCEPTRON SIMPLE... 3 I.1 Introduction... 3 I.2 Algorithme... 3 I.3 Résultats... 4 1er exemple

Plus en détail

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr Extraction de Connaissances pertinentes sur le comportement des systèmes de production: une approche conjointe par Optimisation Évolutionniste via Simulation et Apprentissage Anne-lise HUYET- Jean-Luc

Plus en détail

INTERPRÉTATION DES RÉSULTATS DE SVM

INTERPRÉTATION DES RÉSULTATS DE SVM INTERPRÉTATION DES RÉSULTATS DE SVM Thanh-Nghi Do & François Poulet {dothanh poulet}@esiea-ouest.fr ESIEA Recherche 38, rue des Docteurs Calmette et Guérin Parc Universitaire de Laval-Changé 53000-Laval

Plus en détail

Simulations conditionnelles de processus max-stables : applications

Simulations conditionnelles de processus max-stables : applications Simulations conditionnelles de processus max-stables : applications Aurelien Bechler Séminaire RocheBrune Thèse encadrée par Liliane Bel (INRA) et Mathieu Vrac (LSCE) 4 Avril 2012 Aurélien Bechler Simulations

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG Chapitre 2 Classification supervisée Classification supervisée Principes Classement par induction d arbres de décision KNN Approche probabiliste -

Plus en détail

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Chapitre 2 : Catégorisation de textes et apprentissage numérique : état de l'art 11 Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Afin de mettre l'apport proposé dans ce

Plus en détail

Apprentissage pour la Recherche d Information

Apprentissage pour la Recherche d Information Apprentissage pour la Recherche d Information Massih-Reza Amini Université Joseph Fourier Laboratoire d Informatique de Grenoble 2/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement

Plus en détail

Génie logiciel Test logiciel A.U. 2013/2014 (Support de cours) R. MAHMOUDI (mahmoudr@esiee.fr) 1 Plan du chapitre - Définition du test logiciel - Principe de base du test logiciel - Les différentes étapes

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Ioannis Parissis UFR IMA Laboratoire LIG. Test logiciel

Ioannis Parissis UFR IMA Laboratoire LIG. Test logiciel Test logiciel Objectif et plan du du cours Présenter les concepts de base sur le test logiciel Introduire des techniques simples pour construire des tests A partir de la spécification informelle du programme

Plus en détail

Apprentissage Automatique Numérique

Apprentissage Automatique Numérique Apprentissage Automatique Numérique Loïc BARRAULT Laboratoire d Informatique de l Université du Maine (LIUM) loic.barrault@lium.univ-lemans.fr 16 septembre 2015 1/42 Problème classique Automatique Autre

Plus en détail

Machine learning et scoring à valeurs discrètes

Machine learning et scoring à valeurs discrètes Machine learning et scoring à valeurs discrètes F. Baschenis sujet proposé par N. Vayatis École Normale Supérieure de Cachan, département de mathématiques 24 Juin 2010 Bref rappel du problème Un film un

Plus en détail

MIXMOD R Un ensemble logiciel, pour quelles utilisations et quels utilisateurs?

MIXMOD R Un ensemble logiciel, pour quelles utilisations et quels utilisateurs? MIXMOD R Un ensemble logiciel, pour quelles utilisations et quels utilisateurs? Florent Langrognet F. Langrognet () 4 e rencontre MIXMOD Septembre 2013 1 / 70 PLAN 1 MIXMOD Fiche d identité, fonctionnalités

Plus en détail

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28 MIXMOD Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD F. Langrognet () MIXMOD Avril 2012 1 / 28 PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Initialisation automatique du recalage 2D/3D pour la réalité virtuelle et augmentée

Initialisation automatique du recalage 2D/3D pour la réalité virtuelle et augmentée Initialisation automatique du recalage 2D/3D pour la réalité virtuelle et augmentée IRISA - Equipe TEMICS 6 Fevrier 2008 1/18 Problématique : Recalage vidéo 2D et modèle 3D Problématique Avec : Le modèle

Plus en détail

Quelle formation diplômante pour promouvoir et valoriser la pratique médicale de proximité en milieu rural? L expérience de Santé Sud

Quelle formation diplômante pour promouvoir et valoriser la pratique médicale de proximité en milieu rural? L expérience de Santé Sud Quelle formation diplômante pour promouvoir et valoriser la pratique médicale de proximité en milieu rural? L expérience de Santé Sud D.Desplats, D.Adedemy, I.Yacoubou, J.Agossou, A.Libert, F.Guiochon,

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

On the Recommending of Citations for Research Papers

On the Recommending of Citations for Research Papers On the Recommending of Citations for Research Papers McNee et al. Émile Ducrocq Michel Desmarais École polytechnique de Montréal Problématique Quantité astronomique d articles de recherche sur Internet

Plus en détail

Analyse de la complexité algorithmique (1)

Analyse de la complexité algorithmique (1) Analyse de la complexité algorithmique (1) L analyse de la complexité telle que nous l avons vue jusqu à présent nous a essentiellement servi à déterminer si un problème est ou non facile (i.e. soluble

Plus en détail

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle?

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Daniel K. Schneider TECFA FPSE - Université de Genève daniel.schneider@unige.ch Unité de technologie de l'éducation Université

Plus en détail

D.I.I.C. 3 - INC Module COMV - Contrôle 1

D.I.I.C. 3 - INC Module COMV - Contrôle 1 Université de Rennes 1 année 2009-2010 I.F.S.I.C. 11 Décembre 2009 D.I.I.C. 3 - INC Module COMV - Contrôle 1 cours d Olivier LE MEUR Durée : 2 heures Documents autorisés : documents des cours, TD et TP,

Plus en détail

FRANCE MARCHÉS. Le portail d accès aux appels d offres de marchés publics le plus complet du marché. Édité par la Presse Régionale

FRANCE MARCHÉS. Le portail d accès aux appels d offres de marchés publics le plus complet du marché. Édité par la Presse Régionale FRANCE MARCHÉS Le portail d accès aux appels d offres de marchés publics le plus complet du marché Édité par la Presse Régionale www.francemarches.com La commande publique, le 1er marché en France pour

Plus en détail

Sélection des brokers dans un réseau de capteurs en mode publication / souscription

Sélection des brokers dans un réseau de capteurs en mode publication / souscription Sélection des brokers dans un réseau de capteurs en mode publication / souscription Nicola Costagliola Isabelle Demeure Salma Ktari Samuel Tardieu Réseau Nœuds Traffic Quel réseau de capteurs? sans-fil

Plus en détail

Optimisation de plans de financement immobiliers

Optimisation de plans de financement immobiliers Optimisation de plans de financement immobiliers ~ Frédéric GARDI 03/07/2007 Présentation du problème Plan/solution de financement : assemblage/mix de produits Pour chaque prêt du plan : son montant, sa

Plus en détail

Méthodologie d'évaluation 1. Analyse et estimation de l'erreur. 10 Novembre 2009

Méthodologie d'évaluation 1. Analyse et estimation de l'erreur. 10 Novembre 2009 Méthodologie d'évaluation 1. Analyse et estimation de l'erreur 10 Novembre 2009 Datamining 1 2009-2010 Plan 1 Décomposition biais/variance de l'erreur 2 Techniques d'estimation de l'erreur Datamining 2

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Recherche d Information à partir d annotations automatiques et manuelles

Recherche d Information à partir d annotations automatiques et manuelles 1 / 18 Recherche d Information à partir d annotations automatiques et manuelles Robert Bossy Mathématique Informatique et Génome Bibliome Institut National de la Recherche Agronomique 14 septembre 2012

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Testing Adaptatif du VOCabulaire Anglais Thématique

Testing Adaptatif du VOCabulaire Anglais Thématique Testing Adaptatif du VOCabulaire Anglais Thématique Sandrine ORIEZ : chargée de la coordination générale du projet (Université Rennes 2) Olivier LE BOHEC : coordinateur du développement informatique de

Plus en détail

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance Deuxième partie II Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance (version corrigée, 4 avril 27) Construction d estimateurs 4 Construction d estimateurs Estimateur

Plus en détail

Examen de Bases de données multimédia 5 février 2014 durée : 2h00

Examen de Bases de données multimédia 5 février 2014 durée : 2h00 Examen de Bases de données multimédia 5 février 2014 durée : 2h00 Documents autorisés : transparents du cours, notes de cours. Calculatrice non autorisée. Bonus = points en plus hors barème. EXERCICE 1.

Plus en détail

Principe de la recherche d information Application à l indexation et la recherche d images par le contenu

Principe de la recherche d information Application à l indexation et la recherche d images par le contenu Principe de la recherche d information Application à l indexation et la recherche d images par le contenu Apprentissage par combinaison de classifieurs : le boosting Alexis LECHERVY 4 février 2011 Contenu

Plus en détail

SALON INDÉPENDANT DE LA COPROPRIÉTÉ «Les 3 jours de la Copropriété» Accompagnement des. Planète Copropriété

SALON INDÉPENDANT DE LA COPROPRIÉTÉ «Les 3 jours de la Copropriété» Accompagnement des. Planète Copropriété SALON INDÉPENDANT DE LA COPROPRIÉTÉ «Les 3 jours de la Copropriété» Accompagnement des travaux en copropriété Planète Copropriété Emergence d un métier Besoin d un intervenant externe : Conduite de projet

Plus en détail

Réseaux de neurones. 1 Introduction. Résumé. 1.1 Historique. 1.2 Réseaux de neurones. 1 Réseaux de neurones

Réseaux de neurones. 1 Introduction. Résumé. 1.1 Historique. 1.2 Réseaux de neurones. 1 Réseaux de neurones 1 Réseaux de neurones Résumé Réseaux de neurones Définition et caractéristiques des réseaux de neurones ou perceptrons multicouches spécifiques pour la régression et la discrimination ou classification

Plus en détail

Examen de Bases de données multimédia 30 janvier 2013 durée : 2h00

Examen de Bases de données multimédia 30 janvier 2013 durée : 2h00 - Examen de Bases de données multimédia janvier durée : h Documents autorisés : transparents du cours, notes de cours. Calculatrice autorisée (mais inutile). Bonus = points en plus hors barème. EXERCICE.

Plus en détail

Rmixmod Le package R de MIXMOD R

Rmixmod Le package R de MIXMOD R Rmixmod Le package R de MIXMOD R MIXMOD Rencontres R 2012 - Bordeaux Florent Langrognet Laboratoire de Mathématiques de Besançon F. Langrognet () Rmixmod Juillet 2012 1 / 41 Rmixmod 1 Contexte Le projet

Plus en détail

Traverses minimales d un hypergraphe :

Traverses minimales d un hypergraphe : Traverses minimales d un hypergraphe : Applications et Analyse Céline Hébert Alain Bretto Loïck Lhote GREYC, Université de Caen Basse-Normandie ALEA 2007, Marseille ébert, Bretto, Lhote (GREYC, Université

Plus en détail

Comment évaluer les méthodes de détermination de volumes métaboliquement actifs en Tomographie par Emission de Positons (TEP)?

Comment évaluer les méthodes de détermination de volumes métaboliquement actifs en Tomographie par Emission de Positons (TEP)? Comment évaluer les méthodes de détermination de volumes métaboliquement actifs en Tomographie par Emission de Positons (TEP)? Irène Buvat Imagerie et Modélisation en Neurobiologie et Cancérologie UMR

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Sourour Ammar. To cite this version: HAL Id: tel-00568136 https://tel.archives-ouvertes.fr/tel-00568136

Sourour Ammar. To cite this version: HAL Id: tel-00568136 https://tel.archives-ouvertes.fr/tel-00568136 Modèles Graphiques Probabilistes pour l Estimation de Densité en grande dimension : applications du principe Perturb & Combine pour les mélanges d arbres Sourour Ammar To cite this version: Sourour Ammar.

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

IREM- 13 juin 2009. Dominique GILLET IEN 1er degré Pilote du groupe départemental mathématiques et sciences

IREM- 13 juin 2009. Dominique GILLET IEN 1er degré Pilote du groupe départemental mathématiques et sciences FORMATION CONTINUE DES ENSEIGNANTS EN MATHEMATIQUES IREM- 13 juin 2009 Dominique GILLET IEN 1er degré Pilote du groupe départemental mathématiques et sciences Des types de formation continue Des stages

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

mouvement, mais il constitue aussi un outil pédagogique privilégié, qui, de manière transversale, contribue à la mise en œuvre des priorités

mouvement, mais il constitue aussi un outil pédagogique privilégié, qui, de manière transversale, contribue à la mise en œuvre des priorités Le numérique, permet de mettre en phase l École avec un monde en perpétuel mouvement, mais il constitue aussi un outil pédagogique privilégié, qui, de manière transversale, contribue à la mise en œuvre

Plus en détail

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées 1 Chaînes de Markov cachées et applications Les modèles à données latentes (ou manquantes ou cachées) constituent

Plus en détail

Défi DEFT08 : Classification de textes en genre et en thème : Votons utile!

Défi DEFT08 : Classification de textes en genre et en thème : Votons utile! Défi DEFT08 : Classification de textes en genre et en thème : Votons utile! Michel Plantié 1, Mathieu Roche 2, Gérard Dray 1 1 Laboratoire LGI2P, Ecole des Mines d'alès, Site EERIE Parc scientifique Georges

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Introduction à l Intelligence Artificielle

Introduction à l Intelligence Artificielle Introduction à l Intelligence Artificielle p. 1/41 Introduction à l Intelligence Artificielle Cyril Terrioux Laboratoire des Sciences de l Information et des Systèmes LSIS - UMR CNRS 6168 Introduction

Plus en détail

Gestion de la congestion

Gestion de la congestion Gestion de la congestion réseau de télécommunication ou de transport Madiagne Diallo Laboratoire Université de Versailles, France Projet FT R&D Participants : Barth, Bouhtou, Diallo et Wynter : 000 --

Plus en détail

Introduction aux systèmes bouclés

Introduction aux systèmes bouclés Introduction aux systèmes bouclés Séminaire des Sciences de l Ingénieur Académie de Versailles 16 Mai 2012 Christophe DEBERNARDI Version 1.32 Lycée Richelieu - Rueil-Malmaison 1 Plan Lycée Richelieu -

Plus en détail

Introduction. Algorithme d apprentissage

Introduction. Algorithme d apprentissage Reconnaissance hors ligne des chiffres manuscrits isolés par l approche Neuro-Génétique KROUCHI Ghizlaine*, DJEBBAR Bachir Faculté des Sciences, Département d Informatique. Université des Sciences et de

Plus en détail

Ressources pour le lycée technologique

Ressources pour le lycée technologique éduscol Enseignement de mathématiques Classe de première STMG Ressources pour le lycée technologique Échantillonnage : couleur des yeux au Canada Contexte pédagogique Objectifs Obtenir un intervalle de

Plus en détail

Aperçugénéral des principales méthodes d Extraction d informations thématiques à partir des images satellites

Aperçugénéral des principales méthodes d Extraction d informations thématiques à partir des images satellites Projet GIZ-CRTS Formation en Télédétection spatiale et SIG CRTS, 18-21 janvier 2016 Aperçugénéral des principales méthodes d Extraction d informations thématiques à partir des images satellites Abderrahman

Plus en détail

Mathieu Fauvel. 19 janvier 2007

Mathieu Fauvel. 19 janvier 2007 Méthodes à Noyaux pour L analyse de Données Mathieu Fauvel gipsa-lab 19 janvier 2007 Mathieu Fauvel (gipsa-lab) Méthodes à Noyaux 19 janvier 2007 1 / 39 Introduction 1 Présentation Générale Les Données

Plus en détail

Stéphane GOBRON HES SO HE Arc

Stéphane GOBRON HES SO HE Arc Stéphane GOBRON HES SO HE Arc 2015 Algorithmes Numériques 7 chapitres Codage des nombres Résolution d équations Systèmes linéaires Dérivation Intégration Equation différentielles Mots clés du cours : introduction

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail