Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Documents pareils

Introduction à la Statistique Inférentielle

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

PROBABILITES ET STATISTIQUE I&II

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Principe d un test statistique

Méthodes de Simulation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 3 : INFERENCE

Loi binomiale Lois normales

TESTS D'HYPOTHESES Etude d'un exemple

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Introduction à l approche bootstrap

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours de Tests paramétriques

Économetrie non paramétrique I. Estimation d une densité

TABLE DES MATIERES. C Exercices complémentaires 42

Principe de symétrisation pour la construction d un test adaptatif

Quantification Scalaire et Prédictive

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Introduction à la statistique non paramétrique

IFT3245. Simulation et modèles

Commun à tous les candidats

Programmes des classes préparatoires aux Grandes Ecoles

CAPTEURS - CHAINES DE MESURES

Moments des variables aléatoires réelles

3 Approximation de solutions d équations

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Modélisation et simulation

Précision d un résultat et calculs d incertitudes

Table des matières. I Mise à niveau 11. Préface

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

3. Caractéristiques et fonctions d une v.a.

1. Vocabulaire : Introduction au tableau élémentaire

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

M2 IAD UE MODE Notes de cours (3)

Le Modèle Linéaire par l exemple :

Soutenance de stage Laboratoire des Signaux et Systèmes

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Travaux dirigés d introduction aux Probabilités

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Suites numériques 3. 1 Convergence et limite d une suite

CHAPITRE VIII : Les circuits avec résistances ohmiques

Estimation et tests statistiques, TD 5. Solutions

Chapitre 2 Le problème de l unicité des solutions

Programmation linéaire

I. Polynômes de Tchebychev

4 Distributions particulières de probabilités

Introduction aux Statistiques et à l utilisation du logiciel R

OUTILS STATISTIQUES ET NUMÉRIQUES

Annexe commune aux séries ES, L et S : boîtes et quantiles

Résolution d équations non linéaires

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

TSTI 2D CH X : Exemples de lois à densité 1

NON-LINEARITE ET RESEAUX NEURONAUX

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Théorie de l estimation et de la décision statistique

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Régression linéaire. Nicolas Turenne INRA

Continuité d une fonction de plusieurs variables

Package TestsFaciles

VI. Tests non paramétriques sur un échantillon

Econométrie et applications

Probabilités III Introduction à l évaluation d options

Fonctions de plusieurs variables

Statistiques Descriptives à une dimension

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Modélisation aléatoire en fiabilité des logiciels

Sur certaines séries entières particulières

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Cours de méthodes de scoring

1 Complément sur la projection du nuage des individus

FIMA, 7 juillet 2005

Peut-on imiter le hasard?

Programmation linéaire

Introduction à la théorie des files d'attente. Claude Chaudet

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Coup de Projecteur sur les Réseaux de Neurones

Cours d introduction à la théorie de la détection

FORMULAIRE DE STATISTIQUES

Simulation de variables aléatoires

La classification automatique de données quantitatives

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Etude de fonctions: procédure et exemple

Au-delà du coalescent : quels modèles pour expliquer la di

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

CHAPITRE 5. Stratégies Mixtes

Optimisation, traitement d image et éclipse de Soleil

Évaluation de la régression bornée

Transcription:

Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr

Infos et support du cours Slide 2 http://maths.cnam.fr/spip.php?article51 http://emploidutemps.cnam.fr/emploidutemps2 Giorgio Russolillo STA102

Slide 3 Variables Aléatoires

Définition de variable aléatoire Slide 4 Une variable aléatoire est une application définie sur l'ensemble des résultats possibles d'une expérience aléatoire Les variables aléatoires discrètes a un nombre fini de possible valeurs distinctes Le variables aléatoires continues ont un nombre infini de possibles valeurs distinctes

Loi et fonction de repartition (cas discret) Slide 5 f ( x ) = f ( x ) = f ( x ) = f ( x ) = F ( x 0) = F ( x 2) = F ( x 3) = ( ) f(x) Exemple: trois lancers de piéce F ( x) = P ( X = x) 0 1 8 1 3 8 2 v.a. X 3 8 3 1 8 Nombre de Faces ( ) = P ( X x) F x F(x) 1 8 4 8 7 8 F x = 4 1 0 1 2 3 X 0 1 2 3 X

Variables aléatoires continues Slide 6 La probabilité qu'une variable aléatoire continue prends une valeur quelconque est zéro à Fonction de densité Ex. Fonctions de densité et de repartition d une loi Normale: b ( ) ( ) P a X b = f x dx a ( ) ( ) ( ) x F x P X x f x dx = =

Modèles statistiques Slide 7 Lors de l'étude des phénomènes réels, l'un des problèmes est de comprendre si la variable aléatoire nécessaire pour les décrire doit être construite ad hoc ou nous pouvons nous référer à une v.a. dont les caractéristiques et les propriétés sont déjà connues. à Il y a beaucoup de variables aléatoires discrètes et continues qui représentent effectivement des modèles probabilistes qui permettent de décrire la réalité avec une bonne approximation.

Slide 8 Variables aléatoires continues: - Normale - Chi-deux - F de Fisher-Snedecor - T de Student

La Loi Normale (ou de Laplace-Gauss) Slide 9

La Loi Normale Slide 10 Une variable aléatoire continue X suit une distribution normale, avec une moyenne μ et de variance σ 2, si sa fonction de densité de probabilité est donnée par: 1 f ( x) = e 2 2πσ 1 2 ( x µ ) 2 σ 2 Où e = 2.71828 π = 3.14159 µ = espérance mathématique σ = écart-type X = une valeur quelconque de la variable aléatoire

La Loi Normale Slide 11 1 f ( x) = e 2 2πσ 1 2 ( x µ ) 2 σ 2 Characteristiques de la loi Normale 1. Curbe en cloche et forme symmetrique f(x) 2. Point d inflection à une distance d un écarttype de la moyenne µ-σ µ µ+σ X

Loi Normale Standardisée Slide 12 F(z) La loi normale peut être transformée en une distribution de moyenne = 0 et de variance = 1 par: Z = X µ σ ~ N(0,1) 0 Z E( Z) Var ( Z ) x µ = E σ x µ = Var σ 1 E x µ σ 1 E x E µ σ = ( ) = ( ) ( ) ( ) 1 Var x µ 2 σ = ( ) = ( ) ( ) 1 Var x Var µ 2 σ 1 = µ µ = 0 σ = 1 σ = 1 2 2 σ

Table de la Normale Standardisée Slide 13 Les entrées dans le tableau donnent l'aire sous la courbe entre la moyenne (0) et Z. Par exemple, pour z = 1,15 l'aire sous la courbe comprise entre 0 et 1,15 (la probabilité d'avoir une valeur de z comprise entre 0 et 1,15) est 0,3749

Une Propriété de la Loi Normale Slide 14 La combinaison linéaire de variables aléatoires normales indépendantes est encore une variable aléatoire normale 2 ( ) X ~ N µ, σ i=1,2,,n a 1, a 2,, a n n i = 1 i i i 2 ( ) ax ~ N µσ, i i with: n µ = aiµ i i = 1 σ n 2 2 2 = aiσ i i = 1

La variable aléatoire du Chi-deux Slide 15 La somme Y de g v.a. normales standardisées indépendantes au carré est une variable aléatoire continue appelé Chi-deux avec g degrés de liberté : si Z i ~ N(0,1) alors Y = Z i 2 ~ g i=1 2 χ g ( )

Loi du Chi-deux Slide 16

La variable aléatoire de Fisher-Snedecor Slide 17 Le rapport entre deux variables aléatoires Chi-deux indépendantes divisées par les degrés de liberté correspondants, est défini comme Loi de Fisher-Snedecor : 2 Y 1 ~ χ g ( ) 2 Y 2 ~ χ g 1 ( ) 2 F g g F = Y g 1 1~ ( 1, 2) Y 2 g 2

La loi de Fisher-Snedecor Slide 18 Giorgio Russolillo STA102

La loi de Student Slide 19 Le rapport entre une v.a. normale standardisée et une v.a. du Chideux (avec g degrés de liberté) indépendantes, suit une loi T de Student : Z ~ N(0,1) T = Z Y ~ T ( g) Y ~ χ g 2 ( ) g

The Student s t distribution Slide 20.....................

Slide 21 Inférence

Inférence Statistique Paramètres inconnus Pop On utilise l information donnée par l échantillon pour induire information sur la population estimation Tirage aléatoire E Statistiques observées Estimation Ponctuelle et par intervalles Test d hypothèses

Estimation ponctuelle et pas intervalles Slide 23 Estimation Ponctuelle Une valeur unique est utilisée pour estimer un paramètre inconnu de la population Par Intervalles de confiance Un intervalle de valeurs est utilisée pour estimer un paramètre inconnu de la population

Estimateur et Estimation Slide 24 Estimateur: T n est une v.a. car il est fonction des éléments d une échantillon aléatoire (X 1, X 2,, X n ), de taille n, i.e. n v.a. i.i.d. Estimation: est une valeur, i.e. la réalisation de T n pour un échantillon spécifique (x 1, x 2,, x n ).

Loi d échantillonage Slide 25 La loi d'échantillonnage d'une statistique est la distribution de cette statistique, considérée comme une variable aléatoire, issue d'un échantillon aléatoire de taille n.

Théorème Centrale Limite Soit X 1, X 2,..., X n un ensemble de variables aléatoires, indépendantes et identiquement distribuées (cette deuxième condition n est pas toujours nécessaire) de variance finie. Soit X n = X 1 + X 2 + n + X n lorsque n, X n ~ N Donc Z n = X n E X n Var X n ( ) ( ) ~ N(0,1)

Slide 27 Propriétés des estimateurs ponctuels

Estimateur non biaisé Slide 28 Biais Etant donné estimateur T n du parametre Θ, nous disons que T n n est pas biaisé si: E ( T ) = θ n Le biais est défini comme: D = E ( T ) θ n

Variabilité d un estimateur Slide 29 On measure la variabilité des estimations par l Erreur Quadratique Moyen (MSE): MSE ( T ) = Var ( T ) + D 2 Si l estimateur est sans biais, MSE = var(t)

Efficacité d un estimateur Slide 30 Borne de Fréchet-Darmois-Cramér-Rao L'inverse de l'information de Fisher d'un paramètre θ, est une borne inférieure de la variance d'un estimateur (T) sans biais de ce paramètre. var T ' ) ( ) ( n E # * )! $ logf ( x;θ )& " θ % 2 + ), - ) 1 Dans certains cas, aucun estimateur non biaisé n'atteint la borne inférieure

Convergence (Consistance) d un estimateur Slide 31 L estimateur T n est un estimateur consistant pour θ s il converge en propabilité vers θ lorsque n tend vers l infini: plim n ( ) = θ T n Une condition suffisent (mais pas nécessaire), parce que T n soit a un estimateur consistant (ou convergent) de θ, est que T n soit asymptotiquement non biaisé et que sa variance tend à 0 lorsque n tend vers l infini: lim n ( ) = θ Var ( Tn ) E T n lim = 0 n Autrement dit, MSE tend à 0 lorsque n tends vers l infini : ( ) lim EQM MSE T n = 0 n

Slide 32 Méthodes d estimation

Méthode des moindres carrés Slide 33 Considérons une v.a. X, avec une moyenne µ, définie sur la population dés la quelle un échantillon aléatoire (X 1,, X n ) est tiré. Chaque unité d'échantillonnage peut être considérée comme une somme d'une composante fixe, µ, et une composante aléatoire e i : X i = µ + e i Une méthode qui permet de construire un estimateur pour µ consiste à choisir une fonction de l'échantillon qui minimise e i ou, plus exactement, la somme de leurs carrés: S n ( µ ) ( X ) 2 i µ = = i = 1 min

Propriétés des estimateurs des moindres carrés Slide 34 Les estimateurs construits par la méthode des moindre carrés sont: à BLUE (Best Linear Unbiased Estimators) à Convergents à Asymptotiquement Normales Ce méthode de construction des estimateurs ne demande pas d hypothèses sur la loi de la population

La vraisemblance Slide 35 X=(X 1, X 2,, X n ) est un vecteur de n v.a. independentes tirées d une loi décrite par la fonction de densité f(x;θ) à La loi de l échantillon aléatoire est : f ( x;θ ) = f ( x, x,, x ;θ ) = f ( x ;θ ) f ( x ;θ ) f ( x ;θ ) 1 2 n 1 2 n Fonction de X, θ fixé à La fonction de vraisemblance est : L ( θ;x) = f ( x, x,, x ;θ ) = f ( x ;θ ) f ( x ;θ ) f ( x ;θ ) 1 2 n 1 2 n Fonction de θ, l échantillon fixé

Méthode du maximum de vraisemblance (MV) Slide 36 Le principe de base de cette méthode est la suivante: parmi toutes les valeurs possibles de θ, on préfère celui qui correspond à la probabilité la plus élevée (maximum de vraisemblance) d'avoir tiré les données observées. x 1 x 3 x x 2 x 5 x 4 X m A m B m C m D L estimation du maximum de vraisemblance recherche les valeurs des paramètres qui sont les plus susceptibles d'avoir produit la loi observée. ˆθ ML = max θ { logl(θ;x 1,..., x n )}

Propriétés des estimateurs de MV Slide 37 Les estimateurs du maximum de vraisemblance ont de propriétés asymptotiques optimaux : à Ils sont estimateurs suffisants : Pr(X T,Θ) = Pr(X T) c.à.d ils contiennent toutes les informations nécessaires pour calculer une estimation du paramètre Θ à Sous des conditions de régularité (normalement verifiées), ils sont convergents et asymptotiquement sans biais à Ils sont asymptotiquement normals : d T ML " N $ θ, 1 $ # I n % ' ( θ ) ' & Information de Fischer

Intervalle aléatoire et intervalle de confiance Slide 38 Soit X 1, X 2, X n un échantillon aléatoire de taille n; on cherche deux bornes B 1 =f (X 1, X 2, X n ) and B 2 =f (X 1, X 2, X n ) telles que définissent un intervalle aléatoire avec une probabilité 1-α pour le paramètre Θ Pr{ B 1 <θ < B 2 } =1 α Proba que l intervalle aléatoire [B 1 and B 2 ] contient Θ Soit x 1, x 2, x n un échantillon observé, alors b 1 =f (x 1, x 2, x n ) et b 2 =f (x 1, x 2, x n ) sont le réalisations de B 1 and B 2 IC 1 α :[ b 1 < θ < b ] 2 [b 1 ; b 2 ] est un intervalle de confiance de niveau 1-α N.B.:Pr{ b 1 < θ < b 2 } { 0,1}

Le niveau de confiance Slide 39 Le niveau de confiance est une mesure du degré de fiabilité de l intervalle. Sample Number Nous nous attendons que, en moyenne, le 100*(1-α)% des fois, l'intervalle de confiance contient la valeur du paramètre.

Test statistique Slide 40 Un test statistique est une règle de décision qui permet de décider si une hypothèse concernant la population (hypothèse nulle, H0) doit être rejetée en faveur d'une hypothèse alternative H1 ou pas. Nous supposons que la population suit une lois spécifique et nous souhaitons tester une hypothèse sur ces paramètres TEST PARAMETRIQUE On a pas d hypotheses sur la loi de la popolation TEST NON PARAMETRIQUE

Test statistique Slide 41 La définition de la règle de décision pour le choix entre H0 et H1 (selon la preuve empirique) est basée sur : à une statistique de test T, qui est une fonction de l échantillon aléatoire à Une région critique R, définit un sous-ensemble de valeurs pour les statistiques de test qui nous conduit à un rejet de l'hypothèse nulle Si la réalisation de la statistique de test appartient à la région critique on rejet H 0 : T R θ Θ 0

Région critique Slide 42 Région critique pour un test unilateral : H : θ = θ H 0 1 : θ > θ 0 0 Région d acceptation A Région critique R Région critique pour un test bilateral : H H 0 1 : θ = θ : θ θ 0 0 Région critique R Valeur critique Espace des valeurs possibles pour le paramètre Région d acceptation A Région critique R Valeur critique

Test d hypothèse et erreurs Slide 43 La réalisation de la statistique de test (et donc la décision finale) depend de l échantillon : c est une décision aléatoire L une des deux hypothèses est vrai.. Laquelle? On a besoin d une règle de décision qui minimise le risque de se tromper.. Lequel? H 0 n est pas rejetée Realité H 0 True H 0 False Pas d erreur Erreur de Type II P[T R θ Θ 0 ] = 1 α P[T R θ Θ 1 ] = β Décision H 0 est rejetée Erreur de Type I P[T R θ Θ 0 ] = α Pas d erreur P[T R θ Θ 1 ] = 1 β

Niveau de signification et puissance du test Slide 44 Le niveau de signification (alpha) est la probabilité d'erreur de type I, à savoir la probabilité de rejeter H0 lorsque elle est en effet vraie P[T R θ Θ 0 ] = α La puissance d'un test est la probabilité de prendre la bonne décision en rejetant l'hypothèse nulle P[T R θ Θ 1 ] =1 β

Les etapes de la procedure classique Slide 45 1. Nous définissons les hypothèses nulle (H0) et alternative (H1); 2. Nous fixons l'erreur de type I (α); 3. Nous choisissons la statistique de test; 4. Nous définissons la règle de décision et calculons le seuil (par exemple, v) associé à α; 5. Nous tirons l'échantillon; 6. Nous calculons la valeur de la statistique de test et comparons sa valeur au seuil (v); 7. L'hypothèse nulle est acceptée ou rejetée avec une certain probabilité de faire une erreur.

La procedure classique Slide 46 H 0 est rejetée Loi de la statistique sous H 0 Valeur observée de la statistique Loi de la statistique sous H 1 µ 0 v t µ 1 Région d acceptation Région de rejet

La procedure classique Slide 47 H 0 n est pas rejetée Loi de la statistique sous H 0 Valeur observée de la statistique Loi de la statistique sous H 1 µ 0 t v µ 1 Région d acceptation Région de rejet

La procedure classique Slide 48 Decision rule: if l hypothèse nulle n est pas rejetée if T < v T > v l hypothèse nulle est rejetée β = P ( X < ) α = P ( X > ) v H 1 v H 0 Distribution of test statistic under H 0 Distribution of test statistic under H 1 1 α 1 β µ 0 v µ 1 Region of acceptance of H 0 Region of rejection of H 0

L approche de la P-valeur Slide 49 La p-valeur (en anglais p-value) est la probabilité d'obtenir la même valeur (ou une valeur encore plus extrême) du test si l'hypothèse nulle était vraie. LaP-valeur est une mesure de la consistance entre H0 et les données observées. Règle de décision: si la p-valeur α l hypothese nulle n est pas rejetée si la p-valeur α l hypothese nulle est rejetée H 0 1 α ( ) α = P T > v H 0 ( ) P valeur = P T > t H 0 µ 0 v t µ 1 Region of acceptance of H 0 Region of rejection of H 0