SPLEX Statistiques pour la classification et fouille de données en

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "SPLEX Statistiques pour la classification et fouille de données en"

Transcription

1 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 Classification linéaire binaire CLB Définition CLB C = { -, + } Π D. C. D Ĉ. C w R d, w 0 R, f : R C, d x R d, Ĉx = f w i x i + w 0 Le problème d apprentissage : trouver w, w 0 et f. Modèles génératifs, modèles discriminants Modèles génératifs : classification grâce à une estimation de Px, y à partir de Π a et des connaissances a priori. Classifieur bayésien ML, MAP Classifieur bayésien naïf Discriminant linéaire de Fisher Modèles discriminants : estimation directe des w, w 0 à partir de Π a. Régression logistique Perceptron SVM SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 2 / 20 Le classifieur bayésien naïf binaire est un CLB? Classifieur bayésien naïf Ici, y 0 = - et y 1 = +. y = arg max y i P + d k=1 Px k + Py i d Px k y i k=1 Soit Rx = P - d k=1 Px k - Si Rx > 1 alors Ĉx = ^+ sinon Ĉx = ^- 1 si u < 0 Donc Ĉx = σ log Rx où σu = 0 si u = 0 +1 sinon Il vient alors P + d Ĉx = σ log P - + log Px k + Px k - Suite évidente dans le cas binomial D = { -, + } d. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 3 / 20 k=1

2 Discrimination linéaire - cas gaussien Cadre gaussien CLB Modèle : Ĉx = σ gx = σ g + x g - x Régions { de décision } : } c ^-, ^+, R c = {x D, Ĉx = c } Frontière de décision : F = {x D, Ĉx = 0 Multinormalité : c { -, + }, Px c N µ c, Σ c Si homoscédasticité : c, Σ c = Σ alors, la fonction discriminante devient linéaire : avec x 0 = 1 2 µ + + µ - + gx = µ + µ - t Σ 1 x x 0 1 µ + µ - t Σ 1 µ + µ - P + log P - µ + µ - SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 4 / 20 Rappels de géométrie Soit yx = d w i x i + w 0 Ĉx = f yx, on peut également écrire : yx = w x + w 0 avec yx = 0 l équation d un hyperplan H a, b H, ya = yb = 0 ya yb = w a b = 0 w est un vecteur normal à H. Soit x H et x H sa projection perpendiculaire sur H, x x H est donc colinéaire à w, Soit r R, x x H = r w où r est la distance de x à H. w x = x H + r w x = w x H + r w w = w x H + r 2 yx = w x + w 0 = w x H + w 0 + r = yx H + r = r = w x H + r distance de x à H : r = yx W SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 5 / 20 Rappels de géométrie yx > 0 yx = 0 yx yx < 0 x w x H O w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 6 / 20

3 exemple : Hyper-plan séparateurs La frontière entre les deux classes est donnée par d w i x i + w 0 = 0 qui est l équation d un hyper-plan. Comment choisir cet hyper-plan? Exemple : CLB par régression linéaire Ajuster un modèle linéaire ^l k pour chaque { fonction indicatrice d une classe k : 1 si x est de classe k k { +, - },^l k x = 0 sinon. ^l + x = β β + x et ^l - x = β β - x Soit un x à classifier : Ĉx = arg max k ^l k x = σ^l + ^l - Frontière de décision : w = β + β - ^f + x = ^f - x hyperplan : et w 0 = β + 0 β - 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 7 / 20 Séparabilité Définition CLB C = { -, + } Π D. C. D Ĉ. C w R d, w 0 R, f : R C, d x R d, Ĉx = f w i x i + w 0 Le problème d apprentissage : trouver w, w 0 W et f souvent σ. Séparabilité sur Π a Soit une base de données Π a = x i, y i i<n où y i est la classe de x i 1, +1. Π a est linéairement séparable si il existe un hyperplan d équation yx = w x + w 0 = 0 tel que i {1,, N}, yx i y i > 0 i.e. X W Y > 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 8 / 20 Optimisation de W : moindres carrés Carl Friedrich Gauss X W Y est le vecteur des erreurs effectuées en classant Π a à l aide de W. L erreur quadratique obtenue sur Π a se calcule donc comme : e 2 W = X W Y X W Y Minimiser cette erreur en annulant le gradient donne : X = X X 1 X est la pseudo-inverse de X. W = X X 1 X Y = X Y Cette méthode souffre de plusieurs problèmes : Instabilité numérique pour des X de grande taille principalement, Manque de robustesse pour des distributions larges de classes. From : Pattern Recognition and Machine Learning C.Bishop p186 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 9 / 20

4 Discrimants de Fisher : séparation entre les classes On note que y = w x correspond à la projection de x de dimension d + 1 sur la droite vectorielle w. Soit M + = 1 N + i + X i et M - = 1 N - i - X i On peut alors utiliser w = w M + M - comme mesure de la séparation des classes selon w. Afin de supprimer l influence sur w de la norme de w, on peut soit normaliser w, soit utiliser w comme mesure. From : Pattern Recognition and Machine Learning C.Bishop p188 La séparation des classes n est intéressante qu en fonction de la dispersion de chaque classe, i.e. k +, -, s k = i k y i w M k 2 les variances intra-classe. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 10 / 20 De la régression linéaire vers la régression logistique Régression linéaire ^yx = w x + w 0 Frontière de séparation : hyperplan d équation yx = w x + w 0 = 0 En réutilisant MAP pour décider : ^y = arg max pc x c { +, - } On ne peut pas ajuster linéairement une probabilité : une droite n est pas bornée par [0, 1]. Idée : La frontière de décision correspond à p + x = p - x p + x p - x = 1 log p + x p - x = 0 On peut renforcer l idée que la frontière est un hyperplan CLB par : Régression logistique w, w 0, log p + x p - x = w x + w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 11 / 20 fonction logit On peut écrire log p + x p + x p - x = log 1 p + x Fonction logit log-odds p logitp = log 1 p La fonction logit est non bornée et donc peut être ajuster linéairement. logitp = w x + w 0 p 1 p = ew x+w x+w0 0 p = ew Modèle de la régression logistique p + x = ew x+w e w x+w 0 et p - x = 1+e w x+w e w x+w 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 12 / 20

5 Utilisation de la régression logistique Soit une base Π a = X i, Y i avec Y i { +, - }, On peut calculer pour chacun w x + w 0, et donc calculer p + x = ew x+w 0 1+e w x+w 0. SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 13 / 20 Estimation des paramètres w, w 0 Comment calculer les valeurs de w et w 0 de la régression logistique? Moindre carrés? Impossible car les erreurs ne sont pas distribuées suivant une loi normale : Elle est quasi nulle quand p proche de 0 ou 1 et plus importante quand p 0.5. Utilisation du Maximum de Vraisemblance : Exprimer la vraisemblance LX ; w, w 0 pour w et w 0, Essayer de maximiser la vraisemblance En annulant la dérivée mais pas de forme exacte de la dérivée. Utiliser une méthode approchée : Algorithme de Newton-Raphson. Soit une base de données X, Y i N. Avec y i = 1 si + et 0 si -. i, Lx i ; w, w 0 = y i px i y i px i - p + x Or si log p - x = w px + x + w 0 alors β, β 0, log px - = β x + β 0 px + = eβ x+β 0 1+e β x+β 0 et px - = 1 1+e β x+β 0 SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 14 / 20 Estimation des paramètres β + = β, β 0 En sommant sur toute la base la log-vraisemblance, LLβ + = N [ y i β + x i + On veut maximiser la log-vraisemblance. LLβ + β + i = ] log1 + β + x i + N x i y i px i ; β + Pas de forme simple, il faut utiliser une méthode approchée Newton-Raphson utilisant la dérivée seconde le Hessien 2 LLβ + β + β +. La mise à jour jusque convergence de β + prend la forme : β + t+1 = β+ t 2 LLβ + 1 β + β + LLβ+ β + SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 15 / 20

6 Méthode de Newton 1/2 fonction de classe C 2 f : [a, b] R R f : 2 fois dérivable f continue Méthode de Newton-Raphson : recherche de 0 de la dérivée principe : engendrer une suite de points x k tendant vers un point stationnaire point stationnaire : f x = 0 itération k : f est remplacée par sa linéarisée en x k : lx = f x k + [x x k ]f x k x k+1 déterminé par lx k+1 = 0 : = x k+1 = x k f x k f x k SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 16 / 20 Méthode de Newton 2/2 f x x x k+2 x k+1 x k SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 17 / 20 Un exemple 1/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 18 / 20

7 Un exemple 2/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 19 / 20 Un exemple 3/3 From Jia Li Pensylvania State University SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB 20 / 20

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit

Plus en détail

Régression logistique

Régression logistique Régression logistique Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Régression logistique p. 1 Introduction Objectifs Le classifieur de Bayes est basé sur la comparaison des probabilités

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance Deuxième partie II Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance (version corrigée, 4 avril 27) Construction d estimateurs 4 Construction d estimateurs Estimateur

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Caractéristiques des traitements Approche identique pour les

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

5 Méthodes algorithmiques

5 Méthodes algorithmiques Cours 5 5 Méthodes algorithmiques Le calcul effectif des lois a posteriori peut s avérer extrêmement difficile. En particulier, la prédictive nécessite des calculs d intégrales parfois multiples qui peuvent

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Reconnaissance des formes

Reconnaissance des formes Reconnaissance des formes Discrimination A. Belaïd LORIA - Nancy Discrimination linéaire Notion d hyperplan Discrimination linéaire Principe Une forme x R d (vecteur forme) Rôle de la Trouver D : R d x

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Plan de la séance. Partie 4: Restauration. Restauration d images. Restauration d images. Traitement d images. Thomas Oberlin

Plan de la séance. Partie 4: Restauration. Restauration d images. Restauration d images. Traitement d images. Thomas Oberlin Plan de la séance Traitement d images Partie 4: Restauration Thomas Oberlin Signaux et Communications, RT/ENSEEHT thomasoberlin@enseeihtfr 1 ntroduction 2 Modélisation des dégradations Modèles de bruit

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Guy Desaulniers Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2014 Table des matières

Plus en détail

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi Exemple pour un perceptrion à deux classes (1 unité de sortie) -> 1/-1 Si w i x 0 la réponse est 1 Si w i x 0 la réponse est -1 Donc la discrimination se fait pour des entrés (les x ). Cet hyperplan a

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Apprentissage automatique

Apprentissage automatique Apprentissage automatique François Denis, Hachem Kadri, Cécile Capponi Laboratoire d Informatique Fondamentale de Marseille LIF - UMR CNRS 7279 Equipe QARMA francois.denis@lif.univ-mrs.fr 2 Chapitre 1

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Apprentissage pour la Recherche d Information

Apprentissage pour la Recherche d Information Apprentissage pour la Recherche d Information Massih-Reza Amini Université Joseph Fourier Laboratoire d Informatique de Grenoble 2/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement

Plus en détail

Restauration d images

Restauration d images Restauration d images Plan Présentation du problème. Premières solutions naïves (moindre carrés, inverse généralisée). Méthodes de régularisation. Panorama des méthodes récentes. Problème général Un système

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Optimisation en nombres entiers

Optimisation en nombres entiers Optimisation en nombres entiers p. 1/83 Optimisation en nombres entiers Michel Bierlaire michel.bierlaire@epfl.ch EPFL - Laboratoire Transport et Mobilité - ENAC Optimisation en nombres entiers p. 2/83

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Examen Décembre 00. C. Hurlin Exercice 1 (15 points) : Politique de Dividendes On considère un problème de politique de

Plus en détail

Cours IFT6266, Apprentissage Non-Supervisé de Variétés

Cours IFT6266, Apprentissage Non-Supervisé de Variétés Cours IFT6266, Apprentissage Non-Supervisé de Variétés L Apprentissage Non-Supervisé L apprentissage non-supervisé vise à caractériser la distribution des données, et les relations entre les variables,

Plus en détail

TD 3 : Problème géométrique dual et méthode des moindres carrés

TD 3 : Problème géométrique dual et méthode des moindres carrés Semestre, ENSIIE Optimisation mathématique 4 mars 04 TD 3 : Problème géométrique dual et méthode des moindres carrés lionel.rieg@ensiie.fr Exercice On considère le programme géométrique suivant : min x>0,y>0

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Vision par ordinateur

Vision par ordinateur Vision par ordinateur Stéréoscopie par minimisation d'énergie Frédéric Devernay d'après le cours de Richard Szeliski Mise en correspondance stéréo Quels algorithmes possibles? mettre en correspondance

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

en sciences de l ingénieur

en sciences de l ingénieur Systèmes Automatisés Optimisation en sciences de l ingénieur présente les principales méthodes exactes d optimisation statique et dynamique. Parmi les méthodes décrites figurent : - la programmation linéaire

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f

AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f JFMS Toulouse 24, 25, 26 mars 2010 AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f Benjamin Echard Nicolas Gayton Maurice Lemaire LaMI Laboratoire

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr

Plus en détail

Génération aléatoire de structures ordonnées

Génération aléatoire de structures ordonnées Génération aléatoire de structures ordonnées Olivier Roussel Équipe APR Laboratoire d Informatique de Paris 6 Université Pierre et Marie Curie ALÉA 2011 7 mars 2011 Olivier Roussel (LIP6) Génération de

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

Statistique. Jean-Yves Tourneret (1) (1) Université of Toulouse, ENSEEIHT-IRIT-TéSA Thème 1 : Analyse et Synthèse de l Information jyt@n7.

Statistique. Jean-Yves Tourneret (1) (1) Université of Toulouse, ENSEEIHT-IRIT-TéSA Thème 1 : Analyse et Synthèse de l Information jyt@n7. Statistique Jean-Yves Tourneret (1) (1) Université of Toulouse, ENSEEIHT-IRIT-TéSA Thème 1 : Analyse et Synthèse de l Information jyt@n7.fr Cours Statistique, 2010 p. 1/52 Plan du cours Chapitre 1 : Estimation

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Module Mixmod pour OpenTURNS

Module Mixmod pour OpenTURNS Module Mixmod pour OpenTURNS Régis LEBRUN EADS Innovation Works 23 septembre 2013 EADS IW 2013 (EADS Innovation Work) 23 septembre 2013 1 / 21 Outline Plan 1 OpenTURNS et propagation d incertitudes 2 Mixmod

Plus en détail

Programmation Linéaire Cours 1 : programmes linéaires, modélisation et résolution graphique

Programmation Linéaire Cours 1 : programmes linéaires, modélisation et résolution graphique Programmation Linéaire Cours 1 : programmes linéaires, modélisation et résolution graphique F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 Motivation et objectif du cours

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

(i) Le nombre de travailleurs commencant leur service est positif ou nul : x i 0 i = 1,...,7

(i) Le nombre de travailleurs commencant leur service est positif ou nul : x i 0 i = 1,...,7 Chapitre 1 Modelisation 11 Exemples de Problèmes 111 La Cafétaria Cafétaria ouverte toute la semaine Statistique sur le personnel requis : Jour Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche Nombre

Plus en détail

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension

APPRENTISSAGE AUTOMATIQUE. Réduction de dimension APPRENTISSAGE AUTOMATIQUE Réduction de dimension Malédiction de la dimensionalité Beaucoup de méthodes d apprentissage ne passent pas bien à l échelle pour des données de grandes dimensions: c est la malédiction

Plus en détail

Quantification Vectorielle

Quantification Vectorielle Quantification Vectorielle Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 14 Décembre 2012 M. Cagnazzo Quantification Vectorielle 1/65 Plan Introduction 1 Introduction

Plus en détail

Introduction Stats Econométrie. Régression Logistique + Tests du χ 2

Introduction Stats Econométrie. Régression Logistique + Tests du χ 2 Introduction Stats Econométrie Régression Logistique + Tests du χ 2 marco.cuturi@ensae.fr ISE-2017 1 Quand la régression par moindre carrés ne marche pas Considérons le problème suivant: Des points x j

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

Apprentissage Automatique Numérique

Apprentissage Automatique Numérique Apprentissage Automatique Numérique Loïc BARRAULT Laboratoire d Informatique de l Université du Maine (LIUM) loic.barrault@lium.univ-lemans.fr 16 septembre 2015 1/42 Problème classique Automatique Autre

Plus en détail

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours ENSIIE - Intelligence Artificielle (RIIA) - 1er cours Benjamin PIWOWARSKI 28 septembre 2015 Benjamin PIWOWARSKI IA - 1er cours 28 septembre 2015 1 / 53 Introduction Plan 1 Introduction 2 Définitions 3

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

Programme de mathématiques TSI1

Programme de mathématiques TSI1 Programme de mathématiques TSI1 1. PROGRAMME DE DÉBUT D ANNÉE I. Nombres complexes et géométrie élémentaire 1. Nombres complexes 1 2. Géométrie élémentaire du plan 3 3. Géométrie élémentaire de l espace

Plus en détail

Soutenance de stage Laboratoire des Signaux et Systèmes

Soutenance de stage Laboratoire des Signaux et Systèmes Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud

Plus en détail

Mclust : Déceler des groupes dans un jeu de données grâce aux mélanges gaussiens.

Mclust : Déceler des groupes dans un jeu de données grâce aux mélanges gaussiens. Adrien Perrard. UMR 7205, MNHN Mclust : Déceler des groupes dans un jeu de données grâce aux mélanges gaussiens. Partition et mélanges gaussiens Partition et mélanges gaussiens Partition et mélanges gaussiens

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Plan du cours : électricité 1

Plan du cours : électricité 1 Semestre : S2 Module Physique II 1 Electricité 1 2 Optique géométrique Plan du cours : électricité 1 Partie A : Electrostatique (discipline de l étude des phénomènes liés aux distributions de charges stationnaires)

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

La notion de dualité

La notion de dualité La notion de dualité Dual d un PL sous forme standard Un programme linéaire est caractérisé par le tableau simplexe [ ] A b. c Par définition, le problème dual est obtenu en transposant ce tableau. [ A

Plus en détail

Exercices théoriques

Exercices théoriques École normale supérieure 2008-2009 Département d informatique Algorithmique et Programmation TD n 9 : Programmation Linéaire Avec Solutions Exercices théoriques Rappel : Dual d un programme linéaire cf.

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014 Télécom Physique Strasbourg Module 2101 STATISTIQUES Cours I : Test d hypothèses Fabrice Heitz Octobre 2014 Fabrice Heitz (Télécom PS) Statistiques 2014 1 / 75 Cours I TESTS D HYPOTHÈSES Fabrice Heitz

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28

MIXMOD. Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD. F. Langrognet () MIXMOD Avril 2012 1 / 28 MIXMOD Un ensemble logiciel de classification des données par modèles de mélanges MIXMOD F. Langrognet () MIXMOD Avril 2012 1 / 28 PLAN 1 La classification des données 2 MIXMOD, ensemble logiciel de classification

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail