Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)



Documents pareils
PROBABILITES ET STATISTIQUE I&II

Apprentissage Automatique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Identification de nouveaux membres dans des familles d'interleukines

Arbres binaires de décision

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Laboratoire 4 Développement d un système intelligent

Thèse. Mathieu RAMONA

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction au Data-Mining

Trois approches du GREYC pour la classification de textes

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Introduction au Data-Mining

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

= constante et cette constante est a.

Mesure agnostique de la qualité des images.

Introduction au datamining

Sélection de Caractéristiques pour le Filtrage de Spams

INF6304 Interfaces Intelligentes

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Optimisation de la compression fractale D images basée sur les réseaux de neurones

4.2 Unités d enseignement du M1

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Echantillonnage Non uniforme

Théorie des Jeux Et ses Applications

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Bases de données documentaires et distribuées Cours NFE04

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Le plus grand dictionnaire actuel!

N. Paparoditis, Laboratoire MATIS

Programmation linéaire

MCMC et approximations en champ moyen pour les modèles de Markov

données en connaissance et en actions?

Classification non supervisée

Resolution limit in community detection

Les algorithmes de fouille de données

Master de Recherche première année. Programme de cours

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Apprentissage statistique dans les graphes et les réseaux sociaux

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

5. Apprentissage pour le filtrage collaboratif

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Détection des deux roues motorisés par télémétrie laser à balayage

Chapitre 7. Récurrences

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Vérification audiovisuelle de l identité

Jeudi 30 avril L art de bien référencer son site Internet

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Cours de méthodes de scoring

L apprentissage automatique

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Apprentissage Automatique pour la détection de relations d affaire


Personnalisation et recommandation * ENEIDE

Complet Intuitif Efficace. Références

La classification automatique de données quantitatives

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Raisonnement probabiliste

Quantification Scalaire et Prédictive

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS

Classification supervisée et credit scoring

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Cloud computing Votre informatique à la demande

Que fait SAS Enterprise Miner?

Évaluation et implémentation des langages

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Théorie des probabilités

Programmation Linéaire - Cours 1

Cadre pour la catégorisation de textes multilingues

Travaux pratiques avec RapidMiner

Interception des signaux issus de communications MIMO

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

de calibration Master 2: Calibration de modèles: présentation et simulation d

Transcription:

Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Caractéristiques des traitements Approche identique pour les 4 corpus Traitement linguistiques peu nombreux Approche statistiques essentiellement

Schéma général du traitement : 1- Prétraitements et Vectorisation Calcul index Index complet Réduction index Index réduit Corpus Appren tissage Lemmatisation Vecteurs textes Vecteurs textes Vecteurs textes Vectorisation Vectorisation (Apprentissage et test)

Prétraitements, réduction d index Lemmatisation Élimination des articles, ponctuation faible Réduction par information mutuelle [Cover et al., 1991] : I( C, M ) = P( c)log( P( c)) + P( f ) P( c f )log( P( c f )) t t t t c C f {0,1} c C t

(Corpus d Apprentissage) Schéma général du traitement : 2- Modélisation et Classification Calcul modèle (Corpus de test) Attribution classe Résultats

Modélisation Modèles statistiques Quatre méthodes principales de calcul de modèles Naïve Bayes Multinomial Réseaux de Neurones type RBF Machine à Vecteurs Support SVM Arbres de décision C4.5 (Quinlan)

Naïve Bayes Multinomial Modèle Probabiliste Combinaison de la loi de Bayes, et de la loi Multinomiale (hypothèse d indépendance des probabilités de chaque mot) => Calcul de l appartenance d un document à une classe : c j C 1 i n ^ ^ count(mi) C map = arg max P(C j)* (P(m i C j) ) c j C 1 i n ^ C arg max log P(C ) count(mi) * log(p(m C )) = + map j i j ^ - P(m i C j ) calculé par l estimateur de Laplace

Machine à Vecteurs Support SVM Calcul de l Hyperplan de séparation entre classes Maximises la distance entre l hyperplan et les points difficiles proches de la frontière de décision Une intuition: s il n y a pas de points proches de la surface de décision, alors il n y a pas de décisions incertaines de classification SVMs maximise la marge autour autour de l hyperplan séparateur (large margin classifiers) La fonction de décision est entièrement spécifiée par un sous ensemble d échantillons d apprentissage : Les vecteurs support. Problème de Programmation Quadratique Quatre types de résolutions : linéaire, polynomiale, RBF, sygmoïde

Réseaux de Neurones type RBF Un RBF est constitué uniquement de 3 couches : La couche d entrée : elle retransmet les inputs sans distorsion. La couche RBF : couche cachée qui contient les neurones RBF. Les neurones sont des gaussiennes. La couche de sortie : simple couche qui contient une fonction linéaire. Chaque couche est fully connected à la suivante.

Réseaux de Neurones type RBF W 1 W 2 La sortie du réseau est une combinaison linéaire des sorties des neurones RBF multipliés par le poids de leur connexion respective. W 3 ENTREE SORTIE = N j= 1 w j s j n W N N Chaque neurone RBF contient une gaussienne centrée sur un point de l espace d entrée : f(x) = EXP(x² / (2* Beta²)) Pour une entrée donnée, la sortie du neurone RBF est la hauteur de la gaussienne en ce point.

Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Réduction d index sur S Découper S en x parties égales S1,, Sx Pour i de 1 à x Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si Fin Pour En général le nombre x de parties est fixé à 10. Inclure dans la validation croisée la réduction d index

Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Découper S en x parties égales S1,, Sx Pour i de 1 à x Fin Pour Réduction d index sur S - Si Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si En général le nombre x de parties est fixé à 10.

Corpus Nombre initial d unités linguistiques Résultats : taille des index Nombre d unités linguistiques Après réduction Corpus 1 36214 704 Corpus 2 39364 2363 Corpus 3 10157 156 Corpus 4 35841 3193

Résultats Fscore CORPUS 1 : Validation Croisée Jeu de test critiques cinéma, Livres, Disques Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais 0.821 Classe Moyen 0.708 Classe Bien 0.86 Classe Mauvais 0.755 / 0.586 Classe Moyen 0.595 / 0.539 Classe Bien 0.825 / 0.797 Classe Mauvais 0.718 Classe Moyen 0.588 Classe Bien 0.808 0.4715 (meilleur résultat officiel) 0.5902 (non publié) 0.6102 (non publié)

Résultats Fscore CORPUS 2 : critiques Jeux vidéos Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais 0.846 Classe Moyen 0.849 Classe Bien 0.821 Classe Mauvais 0.805 / 0.700 Classe Moyen 0.814 / 0.647 Classe Bien 0.851 / 0.834 Classe Mauvais 0.799 Classe Moyen 0.82 Classe Bien 0.849 0.5475 0.7416 (non publié) 0.7829 (meilleur résultat officiel)

Résultats Fscore CORPUS 3 : Relectures d articles Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais 0.605 Classe Moyen 0.594 Classe Bien 0.668 Classe Mauvais 0.631 / 0.644 Classe Moyen 0.543/ 0.557 Classe Bien 0.703 / 0.693 Classe Mauvais 0.662 Classe Moyen 0.605 Classe Bien 0.732 0.4914 (non publié) 0.4782 (meilleur résultat officiel)

Résultats Fscore CORPUS 4 : Débats Parlementaires Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Arbres de décision C 4.5 Quinlan Classe Contre 0.701 0.6179 Classe Pour 0.671 (meilleur résultat officiel) Classe Contre 0.806 / 0.791 0.686 Classe Pour 0.702 / 0.736 (non publié) Classe Contre 0.839 0.6907 Classe Pour 0.73 (non publié) Classe Contre 0.605 0.594 Classe Pour 0.525

Vote : Majorité Moyenne Fondé sur la matrice de «confusion» Minimum, Maximum Avec Pré filtrage Autres méthodes tentées : Élimination des phrases inutiles : possible sur le corpus 1 seulement Avec Synonymes 2 approches : Index complet mots : Élimination des mots clés synonymes sur l index Index réduit de mots : les mots non présents synonymes de mots de l index augmentent la valeur de la coordonnée du mot de l index

De nouveaux résultats avec Mots et Bi-grammes (lemmes) : Vote Naïve Bayes M, SVM, SVM2 Moyenne de probabilités Fscore Validation Croisée avec index CORPUS 1 : Critiques cinéma (minimum de probabilités) CORPUS 2 : Jeux vidéos Classe Mauvais 0.648 Classe Moyen 0.438 61.3% Classe Bien 0.753 Classe Mauvais 0.758 Classe Moyen 0.791 Classe Bien 0.824 (61,02) 79.1% (78,29) CORPUS 4 : Débats Parlementaires Classe Contre 0.812 75.4% Classe Pour 0.696 (69,07)

Un challenge intéressant Les algorithmes SVM et Naïve Bayes Multinomial Très robustes Résultats à améliorer Les techniques avec synonymes décevantes Conclusion Les techniques avec élimination des phrases creuses Les Votes par moyenne améliorent les résultats Les techniques Mots + Bigrammes (lemmes) améliorent légèrement les résultats

Merci de votre attention.. Questions?..