SY09 Rapport TP4 : Analyse discriminante, régression logistique

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "SY09 Rapport TP4 : Analyse discriminante, régression logistique"

Transcription

1 UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante dans le cas binaire par le biais de 3 méthodes ainsi que la régression logistique. Cette première permet de construire une règle de décision à partir d un ensemble d apprentissage, et de prédire la classe d appartenance des données d un ensemble de test à partir de cette règle de décision. CUNI Frédéric - P15 1

2 1 Analyse discriminante 1.1 Implémentation On se pose d étudier et comparer trois modèles d analyse discriminante dans le cas binaire à savoir deux classes. On distinguera ici 3 méthodes d application : l analyse discriminante quadratique, l analyse discriminante linéaire, le classifieur bayésien naïf. Pour se faire, on programme 3 fonctions relatives aux 3 méthodes citées ci-dessus. Ces fonctions font l apprentissage des trois modèles d analyse discriminante et retournent, à partir d un ensemble d apprentissage, les estimateurs du maximum de vraisemblance du modèle en question (proportions, vecteurs de moyennes et matrice de covariance des deux classes). LE seul changement entre ces différentes méthodes d analyse est porté sur les matrices de variances ( 1, 2) Analyse discriminante quadratique La fonction retourne les estimateurs des paramètres du modèle. Pour ce faire, nous rappelons les formules correspondantes : π k = n k n µ k = x k = 1 n n k i=1 z ikx i k = V k = 1 n n k i=1 z ik(x i µ k )(x i µ k ) t La fonction est définie en annexe Analyse discriminante linéaire Les estimateurs des paramètres du modèle adl sont les suivants : : π k = n k n µ k = x k = 1 n n k i=1 z ikx i = 1 h n k=1 n kv k La fonction est définie en annexe Classifieur bayésien naïf Les estimateurs des paramètres du modèle adl sont les suivants : : π k = n k n µ k = x k = 1 n n k i=1 z ikx i k = di ag (V ) = di ag ( 1 n n i=1 (x i µ)(x i µ) t ) La fonction est définie en annexe Probabilités a posteriori Une fonction ad.val (annexe 4) a été créé pour calculer les probabilités a posteriori pour un ensemble de données et effectuer le classement en fonction de ces probabilités. En CUNI Frédéric - P15 2

3 fonction du modèle choisi précédemment, on aura des estimateurs différents qui permettront de calculer ces probabilités a posteriori et ainsi classifier l ensemble de test passé en paramètre. Comme nous avons 2 classes, on fait l hypothèse que ces 2 classes suivent un loi normale : classe 1 : x N (µ 1, 1), classe 2 : x N (µ 2, 2) Pour se faire, la fonction détermine les fonctions f 1 (x)et f 2 (x) ainsi que f (x) = π 1 f (x 1) + π 2 f (x 2). Cela nous permettra ensuite de calculer les probabilités a posteriori h(1 x) = π 1 f 1 (x) eth(2 x) = π 2 f 2 (x) et de comparer ces probabilités pour classifier la valeur de x entrante. f (x) f (x) 1.2 Test sur des données simulées Dans cette partie, nous souhaitons comparer les performances des différentes méthodes d analyse discriminante ci-dessus sur 3 jeux de données. On répète 20 fois le processus de séparation des données en un ensemble d apprentissage et un ensemble de test, et pour chaque modèle nous calculons le taux d erreur obtenus sur le classement de l ensemble de test. Voir Annexe 5. Synth Méthode Taux d erreur ADQ 2.7 ADL 3.2 NBA 3.5 Synth Méthode Taux d erreur ADQ 1 ADL 1 NBA 1.3 Synth Méthode Taux d erreur ADQ 1.2 ADL 2.3 NBA 1.3 Frontière de décision Synth : Frontière de décision Synth : CUNI Frédéric - P15 3

4 Frontière de décision Synth : Pour chaque jeux de données, on peut constater que la méthode la plus fiable est l analyse discriminante quadratique avec un taux d erreur plus faible que les autres. Les données suivent dans chaque classe une loi normale multivariée, ainsi de part la remarque précédente, on peut donc ne plus suggérer l hypothèse d indépendance des variables. Ceci est également visible sur les frontières de décisions, où l on voit bien que dans le cas ADQ, la frontière sépare plus équitablement les 2 classes que les autres modèles. Cependant, pour le jeu de données 2, le taux d erreur du modèle ADQ et égal au taux d erreur du modèle ADL, ainsi que pour le jeu de données 3, le taux du modèle ADQ est égal au taux d erreur du Classifieur bayésien naïf. 2 Régression logistique Précédemment, nous avons appliquer les méthodes discriminantes linéaires et nous avons vus que ces méthodes ont l avantage de fournir des estimations des probabilités a posteriori d appartenance aux classes. Ces estimations sont d autant plus précise que les hypothèses portant sur la distribution de données sont vérifiées. Maintenant, plutôt que de faire des hypothèses sur les distributions conditionnelles f k, la régression logistique consiste à estimer directement les probabilités d appartenance aux classes. CUNI Frédéric - P15 4

5 2.1 Implémentation On souhaite appliquer le modèle logistique binaire sur les trois jeux de données de l exercice 1. On programmera tout d abord deux fonctions, l une permettant de faire l apprentissage du modèle (on utilisera l algorithme de Newton-Raphson présenté en cours), l autre permettant d appliquer le modèle obtenu sur un ensemble de données Méthode générale Pour l apprentissage des paramètres on utilise la méthode du maximum de vraisemblance. On pose : { P(w 1 x) = p(x; w) = exp(w t w) 1+exp(w t x) etp(w 1 1 si Z = w1 2 x) = 1 p(x; w) = 1+exp(w t x) avec 0 si Z = w 2 La méthode de Newton-Raphson consiste à sélectionner un vecteur de poids initial w (0), puis à calculer une séquence de vecteursw (1),w (2),... en appliquant itérativement la formule suivante : w (k+1) = w (q) H (q) 1 log L w (w (q) ) Le gradient de log-vraisemblance s écrit : log L(w) w = W t (t p), la matrice H (q) 1 correspondant à la matrice hessienne de la log-vraisemblance calculée en w (q) s écrit : H (q) 1 = X t W X. Pour palier l éventuelle probabilité d un vecteur x null, qui engendrerais un résultat null, on ajoute une ordonnée à l origine à w (0) pour rajouter de la flexibilité au modèle à chaque vecteur x. La fonction permettant d apprendre le modèle est en annexe 6, et la fonction permettant d évaluer un ensemble de test est en annexe Régression logistique quadratique Cette méthode consiste à transformer les données dans un espace plus complexe, dans lequel les classes peuvent être séparées par un hyperplan. La régression logistique est alors effectuée dans cet espace. Dans notre cas, les individus sont décrits par deux variables X 1 et X 2, la régression logistique quadratique consiste donc à effectuer la régression logistique classique dans l espace correspondant aux variables : X 1, X 2, X 1 X 2,(X 1 ) 2,(X 2 ) 2. Ceci permet d obtenir un modèle plus flexible et de rendre des données linéairement séparable si jamais ce n est pas le cas. La fonction permettant d apprendre le modèle est en annexe 8, et la fonction permettant d évaluer un ensemble de test est en annexe 9. CUNI Frédéric - P15 5

6 2.2 Test sur des données simulées Dans cette partie, nous souhaitons comparer les performances des deux méthodes de régression logistique ci-dessus sur 3 jeux de données. On répète 20 fois le processus de séparation des données en un ensemble d apprentissage et un ensemble de test, et pour chaque modèle nous calculons le taux d erreur obtenus sur le classement de l ensemble de test. Voir Annexe 10. Synth Méthode Taux Classique (intr = 0) 3.7 Classique (intr = 1) 2.4 Quadratique intr = 0) 2.8 Quadratique intr = 1) 2.6 Frontière de décision Synth : Synth Méthode Taux Classique (intr = 0) 1.2 Classique (intr = 1) 1.2 Quadratique intr = 0) 1.1 Quadratique intr = 1) 1.1 Synth Méthode Taux Classique (intr = 0) 2.4 Classique (intr = 1) 1.7 Quadratique intr = 0) 1.3 Quadratique intr = 1) 1.3 Frontière de décision Synth : Frontière de décision Synth : Pour chaque jeux de données, on peut constater que la méthode la moins fiable est régression logistique classique sans ordonnée à l origine avec un taux d erreur plus faible que les autres. Les autres cas semblent à priori semblables avec un léger avantage au modèle de régression logistique quadratique avec et sans ordonnée à l origine, disposant d un taux d erreur légèrement plus faible. Ceci est également visible sur les frontières de décisions, CUNI Frédéric - P15 6

7 où l on voit bien que dans le cas de la régression logistique classique sans ordonnée à l origine, la frontière sépare moins équitablement les 2 classes que les autres modèles. 3 Données réelles 3.1 Données PIMA On souhaite appliquer les trois modèles d analyse discriminante et les deux modèles de régression logistique à la prédiction du diabète chez les individus d une population d amérindiens. On obtient les résultats ci-dessous : PIMA Méthode Taux Classique (intr = 0) 30 Classique (intr = 1) 29 Quadratique intr = 0) 23 Quadratique intr = 1) 22 ADQ 24 ADL 22 NBA 14 On constate que les taux d erreur sont relativement élevés comparés aux données simulées précédentes. On a une augmentation supérieur à 20% environ pour chaque modèles d analyse. Cependant, on peut voir que le classifieur bayésien naïf a le taux d erreur le plus faible et ceux de plus de 10%. 3.2 Données breast cancer Wisconsin On considère à présent un problème de prédiction du niveau de gravité d une tumeur à partir de descripteurs physiologiques. On obtient les résultats ci-dessous : PIMA Méthode Taux Classique (intr = 0) 12 Classique (intr = 1) 3.7 ADQ 4 ADL 4 NBA 4 Pour ce jeu de données, les taux d erreur sont de l ordre des données simulées dans la première partie avec le même taux d erreur pour les modèles d analyse discriminante et le modèle de régression linéaire classique avec ordonnée à l origine. On constate donc que le modèle de régression linéaire classique sans ordonnée à l origine est le moins fiable sur ce jeu de données. CUNI Frédéric - P15 7

8 Conclusion Ce TP nous a permis d appliquer l analyse discriminante au travers de trois modèles, ainsi que la régression linéaire au travers de deux modèles, et évaluer leur fiabilité en calculant les probabilités d erreurs de répartition des observations générées dans les classes. Appliqués à des données réelles, on peut ainsi conclure sur le fait que les modèles d analyse discriminante semblent plus fiable que les modèles de régression logistique. CUNI Frédéric - P15 8

9 4 Annexes : 4.1 Annexe 1 : adq.app 4.2 Annexe 2 : adl.app CUNI Frédéric - P15 9

10 4.3 Annexe 3 : nba.app 4.4 Annexe 4 : ad.val CUNI Frédéric - P15 10

11 4.5 Annexe 5 : Fonction test sur données simulées CUNI Frédéric - P15 11

12 4.6 Annexe 6 : Fonction d apprentissage pour la régression logistique CUNI Frédéric - P15 12

13 4.7 Annexe 7 : Fonction d évaluation d un ensemble de test CUNI Frédéric - P15 13

14 4.8 Annexe 8 :Fonction d apprentissage pour la régression logistique quadratique CUNI Frédéric - P15 14

15 4.9 Annexe 9 :Fonction d évaluation d un ensemble de test pour la régression logistique quadratique CUNI Frédéric - P15 15

16 4.10 Annexe 10 : Fonction test sur données simulées régression logistique CUNI Frédéric - P15 16

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Régression logistique

Régression logistique Régression logistique Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Régression logistique p. 1 Introduction Objectifs Le classifieur de Bayes est basé sur la comparaison des probabilités

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Les Réseaux de Neurones avec

Les Réseaux de Neurones avec Les Réseaux de Neurones avec Au cours des deux dernières décennies, l intérêt pour les réseaux de neurones s est accentué. Cela a commencé par les succès rencontrés par cette puissante technique dans beaucoup

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

5 Méthodes algorithmiques

5 Méthodes algorithmiques Cours 5 5 Méthodes algorithmiques Le calcul effectif des lois a posteriori peut s avérer extrêmement difficile. En particulier, la prédictive nécessite des calculs d intégrales parfois multiples qui peuvent

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

COMPRESSION/DECOMPRESSION D UNE IMAGE BINAIRE

COMPRESSION/DECOMPRESSION D UNE IMAGE BINAIRE Le 29 novembre 2013, Rapport projet TS114 COMPRESSION/DECOMPRESSION D UNE IMAGE BINAIRE Par Marc BELLINGER et Antoine BINON. 2eme année Télécommunications. 1 Introduction : Le but de ce projet est d implémenter

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Chapitre 8: Inférence, échantillonnage et estimation

Chapitre 8: Inférence, échantillonnage et estimation Chapitre 8: Inférence, échantillonnage et estimation 1. Echantillonnage aléatoire simple 2. Inférence statistique 3. Estimation 4. Evaluation graphique de l adéquation d un modèle de distribution 1 L inférence

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie

Plus en détail

AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f

AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f JFMS Toulouse 24, 25, 26 mars 2010 AK-MCS : une méthode d apprentissage alliant krigeage et simulation Monte Carlo pour évaluer efficacement P f Benjamin Echard Nicolas Gayton Maurice Lemaire LaMI Laboratoire

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Économétrie. Francesco Quatraro M1 EFM 2010/2011

Économétrie. Francesco Quatraro M1 EFM 2010/2011 Francesco Quatraro M1 EFM 2010/2011 1 La violation des hypothèses Le modèle des MCO considère que les hypothèses suivantes sont toutes respectées: H1: le modèle est linéaire en x i,t H2: les valeurs x

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES

Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES Erik PERNOD Calcul Scientifique 3 ème Année RESEAUX DE NEURONES 1 TABLE DES MATIERES TABLE DES MATIERES... 2 I PERCEPTRON SIMPLE... 3 I.1 Introduction... 3 I.2 Algorithme... 3 I.3 Résultats... 4 1er exemple

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Regime Switching Model : une approche «pseudo» multivarie e

Regime Switching Model : une approche «pseudo» multivarie e Regime Switching Model : une approche «pseudo» multivarie e A. Zerrad 1, R&D, Nexialog Consulting, Juin 2015 azerrad@nexialog.com Les crises financières survenues dans les trente dernières années et les

Plus en détail

1/4 2/4 3/4 4/4. 10. Estimation MTH2302D. S. Le Digabel, École Polytechnique de Montréal H2016. (v1) MTH2302D: estimation 1/50

1/4 2/4 3/4 4/4. 10. Estimation MTH2302D. S. Le Digabel, École Polytechnique de Montréal H2016. (v1) MTH2302D: estimation 1/50 10. Estimation MTH2302D S. Le Digabel, École Polytechnique de Montréal H2016 (v1) MTH2302D: estimation 1/50 Plan 1. Introduction 2. Estimation ponctuelle 3. Estimation par intervalles de confiance 4. Autres

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Statistiques Appliquées Rôle des femmes dans la société

Statistiques Appliquées Rôle des femmes dans la société Statistiques Appliquées Rôle des femmes dans la société Denis Schelling Semestre d automne 2012 Résumé A partir de données concernant le rôle des femmes dans la société, nous avons effectué une analyse

Plus en détail

Nous mettons en œuvre dans ce didacticiel la méthode d apprentissage ID3 (arbre de décision).

Nous mettons en œuvre dans ce didacticiel la méthode d apprentissage ID3 (arbre de décision). Présentation du didacticiel Dans ce didacticiel, vous allez apprendre à mettre en œuvre une méthode d apprentissage supervisé. Le fichier d exemple utilisé est «breast.txt». Ce fichier, bien connu, est

Plus en détail

Analyse de la Variance pour Plans à Mesures Répétées

Analyse de la Variance pour Plans à Mesures Répétées Analyse de la Variance pour Plans à Mesures Répétées Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr/

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Générateur de Nombres Aléatoires

Générateur de Nombres Aléatoires Générateur de Nombres Aléatoires Les générateurs de nombres aléatoires sont des dispositifs capables de produire une séquence de nombres dont on ne peut pas tirer facilement des propriétés déterministes.

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Reconnaissance des formes

Reconnaissance des formes Reconnaissance des formes Discrimination A. Belaïd LORIA - Nancy Discrimination linéaire Notion d hyperplan Discrimination linéaire Principe Une forme x R d (vecteur forme) Rôle de la Trouver D : R d x

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Le mot «algorithme» vient du nom de l auteur persan Al-Khuwarizmi (né vers 780 - mort vers 850) Une définition: «un algorithme est une suite finie de

Le mot «algorithme» vient du nom de l auteur persan Al-Khuwarizmi (né vers 780 - mort vers 850) Une définition: «un algorithme est une suite finie de Le mot «algorithme» vient du nom de l auteur persan Al-Khuwarizmi (né vers 780 - mort vers 850) Une définition: «un algorithme est une suite finie de règles à appliquer dans un ordre déterminé à un nombre

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Soutenance de stage Laboratoire des Signaux et Systèmes

Soutenance de stage Laboratoire des Signaux et Systèmes Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Projet 2009 2010 Biométrie 3D PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Département : TIC Mots clés : Biométrie, Analyse d images, Vision, Caméra thermique, Caméra temps de vol, Détection

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA)

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA) ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA) Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS

Plus en détail

Choix de modèle en régression linéaire

Choix de modèle en régression linéaire Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Devoir maison Info 2 A rendre pour le 15 décembre au plus tard

Devoir maison Info 2 A rendre pour le 15 décembre au plus tard Devoir maison Info 2 A rendre pour le 15 décembre au plus tard Exercice 1 : Exécutez un algorithme Considérez l algorithme suivant. Variables A, B, C en Entier; Début Lire A; Lire B; TantQue B 0 C A; TantQue

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

INFOGRAPHIE. Rapport du Projet de dessin 2D et 3D

INFOGRAPHIE. Rapport du Projet de dessin 2D et 3D Institut Galilée INFO 1 : Yohan ROUSSET Stéphane FOURNIER INFOGRAPHIE Rapport du Projet de dessin 2D et 3D Superviseur : R. MALGOUYRES Année 2008-2009 2 Table des matières I. Introduction... 4 II. Dessin

Plus en détail

Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles

Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles Cours FPV - Semaine 3 : Recherche d Extrema et Formes Différentielles Frédéric Messine Introduction Dans ce chapitre, nous allons étudier une application de la dérivation des fonctions de plusieurs variables

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance

Deuxième partie II. Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance Deuxième partie II Cours 4 à 6 : Construction d estimateurs, Modèle linéaire, Tests et intervalles de confiance (version corrigée, 4 avril 27) Construction d estimateurs 4 Construction d estimateurs Estimateur

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Classification dans des bases de données par des méthodes de datamining

Classification dans des bases de données par des méthodes de datamining Classification dans des bases de données par des méthodes de datamining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Introduction L utilisation généralisée de l informatique ces dernières dizaines

Plus en détail

E T U D E Octobre 2008 Étude portant sur la mutualisation de la partie terminale des réseaux en fibre optique

E T U D E Octobre 2008 Étude portant sur la mutualisation de la partie terminale des réseaux en fibre optique E T U D E Octobre 2008 Étude portant sur la mutualisation de la partie terminale des réseaux en fibre optique Synthèse Qu@trec/PMP Sommaire I. Introduction... 3 II. Objectifs et méthodologie... 3 A. principes

Plus en détail

Examen d'analyse des données

Examen d'analyse des données Université d'angers Janvier 2007 Master 1 MIM : Analyse des données Examen d'analyse des données Durée : 3 heures Les documents ne sont pas autorisés. La calculatrice est autorisée. Exercice I (7 points)

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

TABLE DES MATIÈRES CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9. Avant-propos... 5 Sommaire... 7

TABLE DES MATIÈRES CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9. Avant-propos... 5 Sommaire... 7 TABLE DES MATIÈRES Avant-propos... 5 Sommaire... 7 CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9 1. Le processus de construction d un test... 9 2. La construction d un test d acquis scolaires...

Plus en détail

Systèmes de transmission

Systèmes de transmission Systèmes de transmission Conception d une transmission série FABRE Maxime 2012 Introduction La transmission de données désigne le transport de quelque sorte d'information que ce soit, d'un endroit à un

Plus en détail

ÉCOLE CENTRALE DE PÉKIN SCIENCES INDUSTRIELLES POUR L INGÉNIEUR

ÉCOLE CENTRALE DE PÉKIN SCIENCES INDUSTRIELLES POUR L INGÉNIEUR DM4 Page 北 航 中 法 工 程 师 学 院 ÉCOLE CENTRALE DE PÉKIN SCIENCES INDUSTRIELLES POUR L INGÉNIEUR Année académique 24-25 Devoir à la maison n 4 À rendre le vendredi 2 juin 25 Numéro d étudiant à 8 chiffres :

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Mathématiques Fonctions réelles et équations

Mathématiques Fonctions réelles et équations Définition du domaine d'examen MAT-5106-1 Mathématiques Fonctions réelles et équations Mise à jour novembre 2004 Définition du domaine d'examen MAT-5106-1 Mathématiques Fonctions réelles et équations Mise

Plus en détail

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde.

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde. Simuler des expériences aléatoires avec une calculatrice Niveau Seconde. Situation étudiée Différentes selon les séances : Séance 1 : Jeu de pile ou face, tirages de boule dans une urne avec des proportions

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

Mth2302B - Intra Été 2011

Mth2302B - Intra Été 2011 École Polytechnique de Montréal page 1 Contrôle périodique Été 2011--------------------------------Corrigé--------------------------------------T.Hammouche Question 1 (12 points) Mth2302B - Intra Été 2011

Plus en détail

Apprentissage Automatique Numérique

Apprentissage Automatique Numérique Apprentissage Automatique Numérique Loïc BARRAULT Laboratoire d Informatique de l Université du Maine (LIUM) loic.barrault@lium.univ-lemans.fr 16 septembre 2015 1/42 Problème classique Automatique Autre

Plus en détail