Qualité d une classification

Dimension: px
Commencer à balayer dès la page:

Download "Qualité d une classification"

Transcription

1 Méthodes en classification automatique Qualité d une classification Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr Master ISI

2 Qualité d une partition Validation interne À partir du critère optimisé par la méthode de classification Validation externe À partir d informations externes, par exemple une partition. Master ISI 2 2

3 Validation interne Gain entre la partition en une classe et la partition en classes obtenue par la méthode de classification. La partition en une classe représente l hypothèse que l échantillon est homoène. La décomposition de cet échantillon en classes est inutile Master ISI 3 3

4 Critère d adéquation Critère d adéquation entre P(C,...,C ) et L(,..., ). ( P, L) s C i d 2 ( x s, ) p s C i ( x s ) 2 C P, R p Adéquation de la classe C avec le prototype U (Variabilité) Critère re d homod homoénéité de la classe C S ( C, U ) d 2 ( x, U ) s C U R Master ISI 4 s I ( C ) w( C, ) min d 2 ( x, U ) Critère re d homod homoénéité de la partition C I( P) p s C I( s C ) 4

5 5 Master ISI 5 Quand les prototypes sont les barycentres barycentres des classes et d est la distance euclidienne distance euclidienne, alors : C s C s C d C w ), ( ), ( 2 x est l inertie inertie de la classe C. TW+B avec E w C W E w T ), ( et ), ( B W T + avec ), ( E C w T ), ( C W w p T T T T Somme sur les classes Somme sur les variables Décomposition du critère d inertie

6 6 Master ISI 6 Décomposition du critère d inertie C i E i x T T 2 ) ( C i i x W W 2 ) ( T W W W2 B B B2 2 x x7 E n B B 2 ) (

7 7 Master ISI 7 Décomposition du critère d inertie C i E i x T T 2 ) ( C i i x W W 2 ) ( E n B B 2 ) ( B W T + Inertie totale Inertie intra classes Inertie inter classes Relations

8 Critères de qualité Partition Variable Classe Un indice de qualité est le ratio entre la valeur d homoénéité d une classe ou d une d variable et le critère re homoénéit ité associé à la partition rossière re P 0 E pour cette classe ou cette variable. Un indice de qualité peut être interprété comme un ain entre l hypothèse nulle «Absence de structure Partition en une classe»et la partition en classes. Master ISI 8 8

9 Qualité d une partition Pour la partition P 0 E l inertie est définie par : I ( E) w( E, ) d 2 ( x, ) E s E la qualité d une partition P est définie par: I( E) I( P) T W Q ( P) I( E) T Cela mesure la part de l information conservée en assimilant les obets de E aux prototypes des classes obtenues. s B T E homoénéit ité d une partition Master ISI 9 9

10 Perte d information Le critère Q(P) représente la perte d information en remplaçant le tableau des données Z par le tableau des centres de ravité. Réduction des lines d un tableau z z z Z [ z, L, z i, L, z N ] zi zi z zn zn z p p i p N G [,, ] p p p Master ISI 0 0

11 Qualité de la variable Pouvoir discriminant une partition P(C,...,C ) d une variable un système L(,..., ) de prototypes Cet indice représente la part de l homoénéité de la variable prise en compte par la partition P : Rèle : T W Q ( P) T Q (P) > Q(P) alors la variable est discriminante par rapport à la partition P B T Master ISI

12 Qualité de la classe une partition P(C,...,C ) un système L(,..., ) de prototypes Pour chaque classe la qualité est définie par : W Q ( C ) T Cette valeur mesure le ain de remplacer le prototype associé à E par le prototype de la classe C. Une valeur proche de caractérise une classe homoène et un prototype très différent du prototype lobal. B T Master ISI 2 2

13 Contribution de la variable La contribution de la variable est définie par le ratio entre le critère d homoénéité calculé sur cette variable et le critère d homoénéité défini sur l ensemble des variables. ( P) W W Cette valeur peut être comparé à la contribution, de cette variable sur la partition rossière P 0 : T T Master ISI 3 3

14 Contribution de la classe Cet indice mesure la contribution de la classe au critère d homoénéité de la partition P ( C / P) W W Cette valeur peut être comparé à la contribution, de cette classe sur la partition rossière P 0 : T T Master ISI 4 4

15 Validation externe Nous avons une partition a priori qui représente la classification cible. Elle est représentée par la fonction Y D X Π X Y G Un exemple est représenté par un couple (x,y) où x est sa description et y est l indice de sa classe a priori. Master ISI 5 5

16 Rèle de Bayes d erreur minimale x Y *( x) où est telquepr( / x) maxpr( h / x) Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description. Théorème de Bayes π L Pr[ Y ] ( x) Pr[ X x / Y Pr( / x) π L ( x) L( x) ] est la densité de la classe x Y *( x) où est telquepr( / x) max L ( x) π Master ISI 6 6

17 Les descriptions suivent une loi normale Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur µ et de matrice de variance-covariance Σ. La vraisemblance conditionnelle de X pour la classe s'écrit alors ( p ) (2 ) det exp( ( ) ( )) 2 t π Σ x µ Σ x L ( x) µ 2 Master ISI 7 7

18 Exemple Les variances et les probabilités a priori sont éales La taille moyenne des femmes est éale à, densité de deux lois normales de variances éales mu.67, sima 0. F mu.76, sima 0. H La taille moyenne des hommes est éale à,76 µ,67 et µ 2,76 densité -> x -> L (x) Master ISI 8 8

19 Rèle de Bayes Pr( / x) π L ( x) L( x) Cette rèle minimise le pourcentae de mauvais classement probabilité a posteriori.0 posteriori F posteriori H 0.8 densité -> x -> Réion de F Réion de H Master ISI 9 9

20 densité -> Construction d un tableau de confusion à partir d une fonction de décision densité de deux lois normales de variances éales D mu.67, sima 0. F mu.76, sima 0. H B A Qualité de la décision : (A+D)/(A+B+C+D) x -> Classes a priori H F C Classes d affectation R H R F A C B D Master ISI 20 20

21 Qualité d un score Chaque sortie du réseau est associée à une classe a priori. L obectif est d analyser les scores de cette sortie Les exemples sont les observations de la classe a priori associée à cette sortie Les contre-exemples sont les observations des autres classes Master ISI 2 2

22 Courbe ROC (/3) Receiver Operatin Characteristic curve Pour un score s nous avons quatre comptaes (A) Les Vrais Positifs sont les exemples ayant une valeur supérieure à s. (B) Les Faux Positifs sont les contre-exemples ayant une valeur supérieure à s. (C) Les Vrais Néatifs sont les exemples ayant une valeur inférieure à s. (D) Les Faux Néatifs sont les contre-exemples ayant une valeur inférieure à s. Master ISI 22 22

23 Courbe ROC (2/3) On se fixe la classe a priori G et F est l ensemble des autres classes a priori La sensibilité du score s est éale à P[S>s/G], la sensibilité est le pourcentae de Vrais Positifs La spécificité du score s est éale à P[S<s/F], la spécificité est le pourcentae de Faux Néatifs Master ISI 23 23

24 Courbe ROC Groupe à détecter : H Quand le score aumente.00 specificite(x) Prob -> sensibilite(x) la sensibilité diminue cela sinifie que le % d exemples dépassant cette valeur diminue Si s,6 on a 90% des exemples qui dépassent cette valeur et 40% des contre-exemples qui sont en dessous de cette valeur x -> La spécificité aumente cela sinifie que le % de contreexemples en dessous de cette valeur aumente Master ISI 24 24

25 Courbe ROC L (x) densité de deux lois normales de variances éales mu.67, sima 0. F mu.76, sima 0. H densité -> SensibilitéFN x -> SpécificitéFP Master ISI 25 25

26 Courbe ROC : interprétation La diaonale représente la courbe ROC d un échantillon d exemples et contreexemples complètement mélanés La courbe ROC de auche est celle de notre exemple (µ,67 et µ 2,76) La courbe ROC de droite est celle obtenue avec µ,57 et µ 2,86 Courbe ROC Courbe ROC.00 ROC.00 ROC sensibilite 0.50 sensibilite specificite -specificite La surface entre la diaonale et la courbe ROC est une mesure de séparabilité des exemples avec les contre-exemples. Master ISI 26 26

27 Autre critère d évaluation L'évaluation de la qualité des classes C i énérées par la méthode de classification est basée sur sa comparaison avec les classes a priori U n i est le nombre d exemples classées dans la classe a priori U et ayant été affectés à la classe C i obtenu par la méthode de classification. n. est le nombre d exemples mises dans la classe a priori U n.i est le nombre d exemples de la classe C i n est le nombre d exemples. Master ISI 27 27

28 F mesure La F-measure combine les mesures de précision et de rappel entre deux classes U i et C i. de deux partitions. La mesure de rappel est définie par R(i,)n i /n. C est le pourcentae d exemples de la classe a priori que l on retrouve dans la classe i obtenue par classification. La mesure de précision est définie par P(i,) n i /n.i C est le pourcentae d exemples de la classe i que l on retrouve dans la classe a priori. Master ISI 28 28

29 F F-mesure La F-measure proposée par (Van Risberen, 979) combine les mesures de précision et de rappel entre U et C i. La mesure de rappel est définie par R(i,)n i /n. La mesure de précision est définie par P(i,) n i /n.i La F-measure entre la partition a priori U en roupes et la partition P par la méthode de classification est : ( n. / n) max(2. R(, ). P(, ) ( R(, ) + P(, ))) F mesure pour la classe a priori : F( ) max(2. R(, ). P(, ) ( R(, ) + P(, ))) Master ISI 29 29

30 Résultats d une méthode de classement Run information Scheme: wea.classifiers.trees.j48 -C M 2 Relation: iris Instances: 50 Attributes: 5 sepallenth sepalwidth petallenth petalwidth class Test mode: split 66% train, remainder test Classifier model (full trainin set) J48 pruned tree petalwidth < 0.6: Iris-setosa (50.0) petalwidth > 0.6 petalwidth <.7 petallenth < 4.9: Iris-versicolor (48.0/.0) petallenth > 4.9 petalwidth <.5: Iris-virinica (3.0) petalwidth >.5: Iris-versicolor (3.0/.0) petalwidth >.7: Iris-virinica (46.0/.0) Number of Leaves : 5 Size of the tree : 9 Master ISI 30 30

31 Critères de qualité Evaluation on test split Summary Correctly Classified Instances % Incorrectly Classified Instances % appa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 5 Detailed Accuracy By Class TP Rate FP Rate Precision Recall F-Measure Class 0 Iris-setosa Iris-versicolor Iris-virinica Confusion Matrix a b c <-- classified as a Iris-setosa b Iris-versicolor c Iris-virinica En line les classes d affectation En colonne les classes a priori Master ISI 3 3

32 Critères de qualité Detailed Accuracy By Class TP Rate FP Rate Precision Recall F-Measure Class 0 Iris-setosa Iris-versicolor Iris-virinica TP rate : taux des «vrais positifs» 5/7 R V R NV FP rate : taux des «faux positifs» 0/34 V 5 2 Precision : 5/5 Rappel : «recall» 5/7 NV 0 34 F-Measure : 2**0.882/(+0.882) Master ISI 32 32

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine Cours : Data Mining Enseignant : Professeur. Kilian Stoffel Assistant : Iulian Ciorascu Switzernet Élaboré par : Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine 1 Table des matières Introduction

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Wealth Effect on Labor Market Transitions

Wealth Effect on Labor Market Transitions Wealth Effect on Labor Market Transitions Yann Algan EUREQua - Université de Paris I algan@univ-paris1.fr Arnaud Chéron GAINS - Université du Maine & Cepremap acheron@univ-lemans.fr Jean-Olivier Hairault

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Cours 4 : Agrégats et GROUP BY

Cours 4 : Agrégats et GROUP BY Cours 4 : Agrégats et GROUP BY Agrégat Fonction qui effectue un calcul sur l ensemble des valeurs d un attribut pour un groupe de lignes Utilisation dans une clause SELECT ou dans une clause HAVING 3 types

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Théorie de l estimation et de la décision statistique

Théorie de l estimation et de la décision statistique Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014 Quelques références Decision and estimation theory

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme

Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme Trading system : Trend following Breakout Janvier 1996 - Janvier 2009 Etude de la performance du système Le

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Devoir Data WareHouse

Devoir Data WareHouse Université Paris XIII Institut Galilée Master 2-EID BENSI Ahmed CHARIFOU Evelyne Devoir Data WareHouse Optimisation, Transformation et Mise à jour utilisées par un ETL Mr R. NEFOUSSI Année 2007-2008 FICHE

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes Chapitre 3 Gnuplot Le langage C ne permet pas directement de dessiner des courbes et de tracer des plots. Il faut pour cela stocker résultats dans des fichier, et, dans un deuxième temps utiliser un autre

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

Dérivés Financiers Contrats à terme

Dérivés Financiers Contrats à terme Dérivés Financiers Contrats à terme Mécanique des marchés à terme 1) Supposons que vous prenez une position courte sur un contrat à terme, pour vendre de l argent en juillet à 10,20 par once, sur le New

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). 1 Objectif SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). Excel le tableur de manière général est très populaire auprès des «data scientist» 1. Mais, s il est effectivement performant

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Calcul Formel et Numérique, Partie I

Calcul Formel et Numérique, Partie I Calcul Formel et Numérique N.Vandenberghe nvdb@irphe.univ-mrs.fr Table des matières 1 Introduction à Matlab 2 1.1 Quelques généralités.......................... 2 2 Où trouver des informations 2 3 Opérations

Plus en détail

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading PROJET DE GESTION PORTEFEUILLE Evaluation d une Stratégie de Trading Encadré par M. Philippe Bernard Master 1 Economie Appliquée-Ingénierie Economique et Financière Taylan Kunal 2011-2012 Sommaire 1) Introduction

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Ce cas a pour objectif d étudier le risque de crédit d une entreprise à l aide de la méthode du scoring. Cette méthode statistique

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification,

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free. Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement

Plus en détail

Python - introduction à la programmation et calcul scientifique

Python - introduction à la programmation et calcul scientifique Université de Strasbourg Environnements Informatique Python - introduction à la programmation et calcul scientifique Feuille de TP 1 Avant de commencer Le but de ce TP est de vous montrer les bases de

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles Chapitre 3 Événements indépendants et Probabilités conditionnelles Indépendance Indépendance Probabilité conditionnelle Definition Deux événements A et B sont dits indépendants si P(A B) = P(A).P(B) Attention

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Trouver un vecteur le plus court dans un réseau euclidien

Trouver un vecteur le plus court dans un réseau euclidien Trouver un vecteur le plus court dans un réseau euclidien Damien STEHLÉ http://perso.ens-lyon.fr/damien.stehle Travail en commun avec Guillaume HANROT (INRIA Lorraine) CNRS/LIP/INRIA/ÉNS Lyon/Université

Plus en détail

Aide - mémoire gnuplot 4.0

Aide - mémoire gnuplot 4.0 Aide - mémoire gnuplot 4.0 Nicolas Kielbasiewicz 20 juin 2008 L objet de cet aide-mémoire est de présenter les commandes de base pour faire rapidement de très jolis graphiques et courbes à l aide du logiciel

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones Abdeljelil Farhat Unité de recherche EAS-Mahdia Faculté des sciences économiques

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Avant-après, amont-aval : les couples de tableaux totalement appariés

Avant-après, amont-aval : les couples de tableaux totalement appariés ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061 Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain

Plus en détail

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation Vincent Lemaire, R&D France Telecom 2 avenue Pierre Marzin, 2300 Lannion France email : vincent.lemaire@orange-ftgroup.com

Plus en détail

http://cermics.enpc.fr/scilab

http://cermics.enpc.fr/scilab scilab à l École des Ponts ParisTech http://cermics.enpc.fr/scilab Introduction à Scilab Graphiques, fonctions Scilab, programmation, saisie de données Jean-Philippe Chancelier & Michel De Lara cermics,

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau

Plus en détail

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678 Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Introduction à la présentation graphique avec xmgrace

Introduction à la présentation graphique avec xmgrace Chapitre 6 Introduction à la présentation graphique avec xmgrace Contenu 6.1 Avant-propos....................... 71 6.2 Faire un simple graphe................. 72 6.3 Un graphe avec plusieurs courbes...........

Plus en détail