Introduction aux méthodes statistiques

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Pourquoi l apprentissage?

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Introduction au Data-Mining

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

1 Complément sur la projection du nuage des individus

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction au Data-Mining

Annexe commune aux séries ES, L et S : boîtes et quantiles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse en Composantes Principales

Programmes des classes préparatoires aux Grandes Ecoles

POKER ET PROBABILITÉ

Cours d Analyse. Fonctions de plusieurs variables

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

I- Définitions des signaux.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

L exclusion mutuelle distribuée

Apprentissage Automatique

Analyse de la variance Comparaison de plusieurs moyennes

Évaluation de la régression bornée

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Chapitre 2 Le problème de l unicité des solutions

Application 1- VBA : Test de comportements d'investissements

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Cours Informatique Master STEP

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

(Customer Relationship Management, «Gestion de la Relation Client»)

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1. Vocabulaire : Introduction au tableau élémentaire

Modélisation aléatoire en fiabilité des logiciels

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction. Préambule. Le contexte

La classification automatique de données quantitatives

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Accélérer l agilité de votre site de e-commerce. Cas client

Simulation de variables aléatoires

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

TSTI 2D CH X : Exemples de lois à densité 1

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Chapitre 3. Les distributions à deux variables

Statistiques Descriptives à une dimension

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Extraction d informations stratégiques par Analyse en Composantes Principales

Big Data et Marketing : les competences attendues

L'analyse des données à l usage des non mathématiciens

Analyse des risques financiers

Corrigé des TD 1 à 5

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Résolution de systèmes linéaires par des méthodes directes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

DEVOIR MAISON : THEME : LES CLES DE CONTROLE. I. La clé des codes barres

M2 IAD UE MODE Notes de cours (3)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

FORMULAIRE DE STATISTIQUES

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Que faire lorsqu on considère plusieurs variables en même temps?

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Table des matières. I Mise à niveau 11. Préface

Algorithmes pour la planification de mouvements en robotique non-holonome

4.2 Unités d enseignement du M1

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Utilisation des tableaux sémantiques dans les logiques de description

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Statistique : Résumé de cours et méthodes

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Système binaire. Algèbre booléenne

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Relation entre deux variables : estimation de la corrélation linéaire

Microsoft Excel : tables de données

Cours 7 : Utilisation de modules sous python

Cours de méthodes de scoring

Questions d Entretiens en Finance de Marché Retour 2011/2012

Programmation Linéaire - Cours 1

données en connaissance et en actions?

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Mesure du surendettement en Europe

Resolution limit in community detection

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Régression linéaire. Nicolas Turenne INRA

Introduction à l approche bootstrap

Baccalauréat technologique

Le Modèle Linéaire par l exemple :

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Transcription:

26 Février 2008 Christian CAPARIN christian.caparin@wanadoo.fr

>>Introduction BUT DE LA PREENTATION Faire une présentation non théorique des méthodes statistiques utilisées en pratique Partir des problèmes et voir les exemples de solutions apportées

>>Introduction Champs d'application Finance : analyse de risque, prévision de séries financières Marketing: fidélité client, détection de fraude, validation de campagnes Bioinformatique

>>Introduction Les caractéristiques du problème des statisticiens Un nombre important de variables Parfois des centaines Pas nécessairement de même nature Un nombre important d'individus Notamment à cause de l'apparition de l'outil informatique

>>Introduction Objectif du statisticien Réduire le nombre de variables du problème OU/ET Réduire le nombre d'individus

>>Introduction Deux solutions Modèles non supervisés Aucune variable est privilégiée l'une par rapport à l'autre Volonté de résumer toute l'information Modèles supervisés Explication d'une (ou plusieurs) variable(s) à l'aide des autres

>>Introduction Objectif Étude d'un méthode non supervisée A.C.P. Analyse en composantes principales

>>Problématique Les enjeux Constat: difficulté pour l'être humain de voir dans des espaces de dimension importante Facilité uniquement pour les espaces de dimension 1 et 2 voire trois Objectif: «résumer» des données de dimension importante dans des espaces de dimension acceptable

>>Problématique Un cas simple 1 Y Droite des moindres carrés 0 X 0 1

>>Problématique Problématique Algorithme proposé Utiliser la droite des moindres carrés pour résumer les données Inconvénients Quelle régression choisir? Celle de Y sur X ou celle de X sur Y?

>>Problématique Rappel: Les moindres carrés Hypothèse Y =a X b Estimation de a et b N min a,b i=1 y i a x i b 2

>>Problématique Problématique Décomposition de la variance VAR Y =VAR a X b VAR Y a X b variance expliquée variance résiduelle Non corrélation entre les résidus et le signal cov Y ax b, a X b =0

>>Un modèle non supervisé: L'ACP Vocabulaire 0,5 Variables centrées: E(X)=E(Y)=0 Variables réduites (Var(X)=Var(Y)=1) Axe factorielle=droite Vecteur directeur (a,b) F=a X+b Y Facteur F: Variable aléatoire représentant les coordonnées des points sur cet axe -0,6-0,6-0,1 0,4

>>Problématique Mathématisation Une relation fondamentale VAR X,Y = VAR F u VAR X,Y F u variance expliquée par l'axe variance résiduelle COV F u, X,Y F u =0 Idée d'un nouvel algorithme?

>>Problématique Mathématisation Algorithme pour la dimension 2 Je choisis l'axe qui donne la plus grande variance expliquée L'autre axe factoriel est l'axe orthogonal au précédent (et qui passe par O) A-t-on fini?

>>Problématique Mathématisation Problème i on est en dimension supérieure ou égale à 3, quel sera le deuxième axe factoriel qu'on va choisir? olution Prendre des axes factoriels qui Expliquent le maximum de variance ont non corrélés aux précédents

>>Un modèle non supervisé: L'ACP Données: Algorithme Une population sur laquelle sont renseignées les variables X 1,..., X p quantitatives Initialisation: Je choisis comme premier axe l'axe qui explique la plus grande variance possible Phase itérative Je prends comme axe suivant, l'axe qui explique la plus grande variance possible mais qui en'est pas corrélé avec les axes déjà trouvés.

>>Un modèle non supervisé: L'ACP Algorithme: Phase d'initialisation Je cherche le premier facteur F 1 comme combinaison linéaire des variables initiales F 1 =α 1 X 1 +...+α p X p (α 1,..,α p ) vecteur unitaire Je choisis les α 1,...,α p de façon à ce qu'ils maximisent var F 1.

>>Un modèle non supervisé: L'ACP Données: Algorithme: Phase itérative J'ai déjà trouvé les facteurs F 1, F k-1 Je cherche le facteur F k comme combinaison linéaire des variables initiales F k =β 1 X 1 +...+β p X p Je choisis les β 1,...,β p de façon à ce qu'ils maximisent var F k sous la contrainte: cov(f k,f n )=0 pour 1 n<k

>>Un modèle non supervisé: L'ACP Quelques résultats(i) Les vecteurs solutions sont les vecteurs propres de la matrice de covariance des variables. = cov X i, X j 1 i p,1 j p

>>Un modèle non supervisé: L'ACP Quelques résultats(ii) La somme des variances des F i est égale à la variance totale de l'échantillon ouvent, on ne parle qu'en terme de pourcentage de la variance totale

>>Un modèle non supervisé: L'ACP Quelques résultats(iii) On peut exprimer X i une variable en fonction des facteurs X i =α 1 F 1 +...+α p F p On peut exprimer les α k facilement α k =cov(x i,f k )/var(f k )

>>Un exemple Un exemple Iris Virginica Iris Versicolor Iris etosa

>>Un exemple Un exemple Échantillon de 150 fleurs de ce type (50 de chaque type) Description de chaque fleur avec quatre variables Longueur et largeur du sépale Longueur et largeur de la pétale

>>Un exemple Une petite définition

>>Un exemple Un exemple LONGUEUR EPALE LARGEUR EPALE LONGUEUR PETALE LARGEUR PETALE TYPE 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 4.6 3.1 1.5 0.2 Iris-setosa 5.0 3.6 1.4 0.2 Iris-setosa

>>Un exemple Les graphiques usuels 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 4.0 Longueur_epale 1 2 3 4 5 6 7 2.0 3.0 Largeur_epale 1.5 2.5 Longueur_Petale 2.0 3.0 0.5 Largeur_Petale 1.0 Ty peiris 4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 1.0 1.5 2.0 2.5 3.0 Page 1

>>Un exemple Variance de chaque axe Axe 1 73% Axe 2 22% Axe 3 4% Axe 4 1% 0 0,5 1 1,5 2 2,5 3

>>Un modèle non supervisé: L'ACP Projection des variables 1 Axe factoriel 1 Axe factoriel 2 0 LONGUEUR_PETALE LARGEUR_PETALE Moyenne LONGUEUR_EPALE LARGEUR_EPALE -1-1 0 1

>>Un exemple Projection des individus AXE FACTORIEL 2-2 -1 0 1 2-3 -2-1 0 1 2 3 AXE FACTORIEL 1

>>Un exemple Faibles largeur, longueur de pétales et longueur de sépale Le premier axe Fortes largeur, longueur de pétales et forte longueur de pétale ETOA RGINICA

>>Un exemple Projection des variables 1 Axe factoriel 1 Axe factoriel 2 0 LONGUEUR_PETALE LARGEUR_PETALE Moyenne LONGUEUR_EPALE LARGEUR_EPALE -1-1 0 1

>>Un exemple Projection des individus AXE FACTORIEL 2-2 -1 0 1 2-3 -2-1 0 1 2 3 AXE FACTORIEL 1

>>Un exemple Le second axe Forte largeur de sépale Faible largeur de sépale ETOA RICOLOR

>>Un exemple Le rapport AXE FACTORIEL 2-2 -1 0 1 2-3 -2-1 0 1 2 3 AXE FACTORIEL 1

>>Autres applications Petit bilan Possibilité de réduire de façon intéressante le nombre de variables Possibilité de faire des typologies uniquement à partir des graphiques L'ACP est une technique utilisée dans beaucoup de domaines...

>>Autres applications Réduction de variables Objectif: économiser du temps machine Exemple: réduction de variables pour un logiciel de simulation de risque Objectif: Améliorer les précisions du modèle Cas de la régression

>>Autres applications Résumé/Classification Résumé d'un échantillon Des axes d'opposition dans une population Classification des individus dans une population Trouver des groupes dans une population Expliquer des groupes prédéterminés par une ACP généralisée.