Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Dimension: px
Commencer à balayer dès la page:

Download "Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)"

Transcription

1 Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

2 Caractéristiques des traitements Approche identique pour les 4 corpus Traitement linguistiques peu nombreux Approche statistiques essentiellement

3 Schéma général du traitement : 1- Prétraitements et Vectorisation Calcul index Index complet Réduction index Index réduit Corpus Appren tissage Lemmatisation Vecteurs textes Vecteurs textes Vecteurs textes Vectorisation Vectorisation (Apprentissage et test)

4 Prétraitements, réduction d index Lemmatisation Élimination des articles, ponctuation faible Réduction par information mutuelle [Cover et al., 1991] : I( C, M ) = P( c)log( P( c)) + P( f ) P( c f )log( P( c f )) t t t t c C f {0,1} c C t

5 (Corpus d Apprentissage) Schéma général du traitement : 2- Modélisation et Classification Calcul modèle (Corpus de test) Attribution classe Résultats

6 Modélisation Modèles statistiques Quatre méthodes principales de calcul de modèles Naïve Bayes Multinomial Réseaux de Neurones type RBF Machine à Vecteurs Support SVM Arbres de décision C4.5 (Quinlan)

7 Naïve Bayes Multinomial Modèle Probabiliste Combinaison de la loi de Bayes, et de la loi Multinomiale (hypothèse d indépendance des probabilités de chaque mot) => Calcul de l appartenance d un document à une classe : c j C 1 i n ^ ^ count(mi) C map = arg max P(C j)* (P(m i C j) ) c j C 1 i n ^ C arg max log P(C ) count(mi) * log(p(m C )) = + map j i j ^ - P(m i C j ) calculé par l estimateur de Laplace

8 Machine à Vecteurs Support SVM Calcul de l Hyperplan de séparation entre classes Maximises la distance entre l hyperplan et les points difficiles proches de la frontière de décision Une intuition: s il n y a pas de points proches de la surface de décision, alors il n y a pas de décisions incertaines de classification SVMs maximise la marge autour autour de l hyperplan séparateur (large margin classifiers) La fonction de décision est entièrement spécifiée par un sous ensemble d échantillons d apprentissage : Les vecteurs support. Problème de Programmation Quadratique Quatre types de résolutions : linéaire, polynomiale, RBF, sygmoïde

9 Réseaux de Neurones type RBF Un RBF est constitué uniquement de 3 couches : La couche d entrée : elle retransmet les inputs sans distorsion. La couche RBF : couche cachée qui contient les neurones RBF. Les neurones sont des gaussiennes. La couche de sortie : simple couche qui contient une fonction linéaire. Chaque couche est fully connected à la suivante.

10 Réseaux de Neurones type RBF W 1 W 2 La sortie du réseau est une combinaison linéaire des sorties des neurones RBF multipliés par le poids de leur connexion respective. W 3 ENTREE SORTIE = N j= 1 w j s j n W N N Chaque neurone RBF contient une gaussienne centrée sur un point de l espace d entrée : f(x) = EXP(x² / (2* Beta²)) Pour une entrée donnée, la sortie du neurone RBF est la hauteur de la gaussienne en ce point.

11 Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Réduction d index sur S Découper S en x parties égales S1,, Sx Pour i de 1 à x Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si Fin Pour En général le nombre x de parties est fixé à 10. Inclure dans la validation croisée la réduction d index

12 Méthode d évaluation de l apprentissage Validation croisée (S;x) : // S est un ensemble, x est un entier Découper S en x parties égales S1,, Sx Pour i de 1 à x Fin Pour Réduction d index sur S - Si Construire un modèle M avec l'ensemble S - Si Evaluer une mesure d erreur ei de M avec Si En général le nombre x de parties est fixé à 10.

13 Corpus Nombre initial d unités linguistiques Résultats : taille des index Nombre d unités linguistiques Après réduction Corpus Corpus Corpus Corpus

14 Résultats Fscore CORPUS 1 : Validation Croisée Jeu de test critiques cinéma, Livres, Disques Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien 0.86 Classe Mauvais / Classe Moyen / Classe Bien / Classe Mauvais Classe Moyen Classe Bien (meilleur résultat officiel) (non publié) (non publié)

15 Résultats Fscore CORPUS 2 : critiques Jeux vidéos Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien Classe Mauvais / Classe Moyen / Classe Bien / Classe Mauvais Classe Moyen 0.82 Classe Bien (non publié) (meilleur résultat officiel)

16 Résultats Fscore CORPUS 3 : Relectures d articles Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Classe Mauvais Classe Moyen Classe Bien Classe Mauvais / Classe Moyen 0.543/ Classe Bien / Classe Mauvais Classe Moyen Classe Bien (non publié) (meilleur résultat officiel)

17 Résultats Fscore CORPUS 4 : Débats Parlementaires Validation Croisée Jeu de test Type de classifieur Fscore Fscore RBF-Network Naive Bayes Multinomial Laplace / Dirichlet SVM Arbres de décision C 4.5 Quinlan Classe Contre Classe Pour (meilleur résultat officiel) Classe Contre / Classe Pour / (non publié) Classe Contre Classe Pour 0.73 (non publié) Classe Contre Classe Pour 0.525

18 Vote : Majorité Moyenne Fondé sur la matrice de «confusion» Minimum, Maximum Avec Pré filtrage Autres méthodes tentées : Élimination des phrases inutiles : possible sur le corpus 1 seulement Avec Synonymes 2 approches : Index complet mots : Élimination des mots clés synonymes sur l index Index réduit de mots : les mots non présents synonymes de mots de l index augmentent la valeur de la coordonnée du mot de l index

19 De nouveaux résultats avec Mots et Bi-grammes (lemmes) : Vote Naïve Bayes M, SVM, SVM2 Moyenne de probabilités Fscore Validation Croisée avec index CORPUS 1 : Critiques cinéma (minimum de probabilités) CORPUS 2 : Jeux vidéos Classe Mauvais Classe Moyen % Classe Bien Classe Mauvais Classe Moyen Classe Bien (61,02) 79.1% (78,29) CORPUS 4 : Débats Parlementaires Classe Contre % Classe Pour (69,07)

20 Un challenge intéressant Les algorithmes SVM et Naïve Bayes Multinomial Très robustes Résultats à améliorer Les techniques avec synonymes décevantes Conclusion Les techniques avec élimination des phrases creuses Les Votes par moyenne améliorent les résultats Les techniques Mots + Bigrammes (lemmes) améliorent légèrement les résultats

21 Merci de votre attention.. Questions?..

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de : REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE

Plus en détail

E-Gen : traitement automatique des offres d emploi

E-Gen : traitement automatique des offres d emploi 591 E-Gen : traitement automatique des offres d emploi Rémy Kessler 1, 2, Marc El-Bèze 1 1 Laboratoire Informatique d Avignon, BP 1228 F-84911 Avignon Cedex 9 FRANCE 2 AKTOR Interactive Parc Technologique

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Thèse. Mathieu RAMONA

Thèse. Mathieu RAMONA Thèse présentée pour obtenir le grade de docteur de l Ecole Télécom ParisTech Spécialité : Signal et Images Mathieu RAMONA Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

= constante et cette constante est a.

= constante et cette constante est a. Le problème Lorsqu on sait que f(x 1 ) = y 1 et que f(x 2 ) = y 2, comment trouver l expression de f(x 1 )? On sait qu une fonction affine a une expression de la forme f(x) = ax + b, le problème est donc

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M. DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES

Plus en détail

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN. EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Antoine Masse. To cite this version: HAL Id: tel-00921853 https://tel.archives-ouvertes.fr/tel-00921853v2

Antoine Masse. To cite this version: HAL Id: tel-00921853 https://tel.archives-ouvertes.fr/tel-00921853v2 Développement et automatisation de méthodes de classification à partir de séries temporelles d images de télédétection - Application aux changements d occupation des sols et à l estimation du bilan carbone

Plus en détail

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Chapitre 6 Apprentissage des réseaux de neurones et régularisation Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la

Plus en détail

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris «Dire et écrire» pour réaliser une composition en travail collaboratif en géographie Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris OBJECTIFS 1- Niveau et insertion dans la programmation 2-

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice. Web Science Master 1 IFI Andrea G. B. Tettamanzi Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.fr 1 Annonce : recherche apprenti Projet Géo-Incertitude Objectifs

Plus en détail

Echantillonnage Non uniforme

Echantillonnage Non uniforme Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas

Plus en détail

Théorie des Jeux Et ses Applications

Théorie des Jeux Et ses Applications Théorie des Jeux Et ses Applications De la Guerre Froide au Poker Clément Sire Laboratoire de Physique Théorique CNRS & Université Paul Sabatier www.lpt.ups-tlse.fr Quelques Définitions de la Théorie des

Plus en détail

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux hétérogènes Laurent Déjean Thales Airborne Systems/ENST-Bretagne Le 20 novembre 2006 Laurent Déjean Détection en

Plus en détail

Le plus grand dictionnaire actuel!

Le plus grand dictionnaire actuel! Le plus grand dictionnaire actuel! Un contenu exceptionnel 100 000 mots, 350 000 sens, toutes les orthographes, étymologies et nuances d'emploi 25 000 expressions, locutions et proverbes 5 000 remarques

Plus en détail

N. Paparoditis, Laboratoire MATIS

N. Paparoditis, Laboratoire MATIS N. Paparoditis, Laboratoire MATIS Contexte: Diffusion de données et services locaux STEREOPOLIS II Un véhicule de numérisation mobile terrestre Lasers Caméras Système de navigation/positionnement STEREOPOLIS

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Resolution limit in community detection

Resolution limit in community detection Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Master de Recherche première année. Programme de cours 2008-2011

Master de Recherche première année. Programme de cours 2008-2011 Master de Recherche première année Mention : Mathématiques et Applications Spécialité : Mathématiques fondamentales et appliquées Responsable : Xue Ping WANG Programme de cours 2008-2011 Module M1 : Analyse

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution Journée DAPA du 26 mars 2009 Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution Michel de Bollivier michel.debollivier@kxen.com Agenda Projet CADI La recommandation

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Détection des deux roues motorisés par télémétrie laser à balayage

Détection des deux roues motorisés par télémétrie laser à balayage MEsure du TRAfic des deux-roues MOTOrisés pour la sécurité et l évaluation des risques Détection des deux roues motorisés par télémétrie laser à balayage Séminaire de mi parcours 11 mai 2012 CETE Normandie

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,

Plus en détail

Vérification audiovisuelle de l identité

Vérification audiovisuelle de l identité Vérification audiovisuelle de l identité Rémi Landais, Hervé Bredin, Leila Zouari, et Gérard Chollet École Nationale Supérieure des Télécommunications, Département Traitement du Signal et des Images, Laboratoire

Plus en détail

Jeudi 30 avril 2009. L art de bien référencer son site Internet

Jeudi 30 avril 2009. L art de bien référencer son site Internet Jeudi 30 avril 2009 L art de bien référencer son site Internet Quelques chiffres 1.2 milliard d internautes dans le monde. 343 millions d internautes en Europe. (InternetworldStats, November 2007) 250

Plus en détail

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h Télécom Physique Strasbourg Master IRIV Optimisation et programmation mathématique Professeur Michel de Mathelin Cours intégré : 20 h Programme du cours d optimisation Introduction Chapitre I: Rappels

Plus en détail

Sécurité par compression! ReSIST 2010. Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk

Sécurité par compression! ReSIST 2010. Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk Sécurité par compression! ReSIST 2010 Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk Introduction Sécurité.. intrusion réseau, attaques (DoS,DDoS etc.) virus, etc... spams code injection (SQL,XSS,CSRF,...)

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Apprentissage Automatique pour la détection de relations d affaire

Apprentissage Automatique pour la détection de relations d affaire Université de Montréal Apprentissage Automatique pour la détection de relations d affaire par Grâce CAPO-CHICHI Département d Informatique et de Recherche Opérationnelle Université de Montréal Mémoire

Plus en détail

Utilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par

Plus en détail

Personnalisation et recommandation * ENEIDE

Personnalisation et recommandation * ENEIDE Sylvain Garnier InfoStance Reponsable R&D Coordinateur ENEIDE Personnalisation et recommandation * ENEIDE Journée Données et Apprentissage Artificiel (DAPA) du 26 Mars 2009 1 Rapide description des ENT

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014 Analytics & Big Data Focus techniques & nouvelles perspectives pour les actuaires Local Optimization European Minded Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014 Intervenants : Alexandre

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS Faculté Polytechnique de Mons Dissertation originale présentée pour l obtention du grade de Docteur en Sciences Appliquées par Bernard GOSSELIN APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE

Plus en détail

Classification supervisée et credit scoring

Classification supervisée et credit scoring Classification supervisée et credit scoring Gilbert Saporta Conservatoire National des Arts et Métiers, Paris saporta@cnam.fr http://cedric.cnam.fr/~saporta Plan 1. Introduction 2. Techniques linéaires

Plus en détail

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications

Plus en détail

Cloud computing Votre informatique à la demande

Cloud computing Votre informatique à la demande Cloud computing Votre informatique à la demande Thomas RULMONT Définition du Cloud Computing L'informatique dans le nuage (en anglais, cloud computing) est un concept ( ) faisant référence à l'utilisation

Plus en détail

Que fait SAS Enterprise Miner?

Que fait SAS Enterprise Miner? Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application Université de Provence Licence Math-Info Première Année V. Phan Luong Algorithmique et Programmation en Python Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application 1 Ordinateur Un

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Théorie des probabilités

Théorie des probabilités Théorie des probabilités LAVOISIER, 2008 LAVOISIER 11, rue Lavoisier 75008 Paris www.hermes-science.com www.lavoisier.fr ISBN 978-2-7462-1720-1 ISSN 1952 2401 Le Code de la propriété intellectuelle n'autorisant,

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Cadre pour la catégorisation de textes multilingues

Cadre pour la catégorisation de textes multilingues Cadre pour la catégorisation de textes multilingues Radwan Jalam, Jérémy Clech, Ricco Rakotomalala Laboratoire ERIC Université Lumière Lyon 2 5, av. Pierre Mendès-France 69676 Bron, France {jalam, jclech,

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Interception des signaux issus de communications MIMO

Interception des signaux issus de communications MIMO Interception des signaux issus de communications MIMO par Vincent Choqueuse Laboratoire E 3 I 2, EA 3876, ENSIETA Laboratoire LabSTICC, UMR CNRS 3192, UBO 26 novembre 2008 Interception des signaux issus

Plus en détail

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. david.madore@enst.fr. 29 mai 2015

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. david.madore@enst.fr. 29 mai 2015 et et Journées Télécom-UPS «Le numérique pour tous» David A. Madore Télécom ParisTech david.madore@enst.fr 29 mai 2015 1/31 et 2/31 : définition Un réseau de R m est un sous-groupe (additif) discret L

Plus en détail

de calibration Master 2: Calibration de modèles: présentation et simulation d

de calibration Master 2: Calibration de modèles: présentation et simulation d Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe

Plus en détail