Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr
Infos et support du cours Slide 2 http://maths.cnam.fr/spip.php?article51 http://emploidutemps.cnam.fr/emploidutemps2 Giorgio Russolillo STA102
Slide 3 Variables Aléatoires
Définition de variable aléatoire Slide 4 Une variable aléatoire est une application définie sur l'ensemble des résultats possibles d'une expérience aléatoire Les variables aléatoires discrètes a un nombre fini de possible valeurs distinctes Le variables aléatoires continues ont un nombre infini de possibles valeurs distinctes
Loi et fonction de repartition (cas discret) Slide 5 f ( x ) = f ( x ) = f ( x ) = f ( x ) = F ( x 0) = F ( x 2) = F ( x 3) = ( ) f(x) Exemple: trois lancers de piéce F ( x) = P ( X = x) 0 1 8 1 3 8 2 v.a. X 3 8 3 1 8 Nombre de Faces ( ) = P ( X x) F x F(x) 1 8 4 8 7 8 F x = 4 1 0 1 2 3 X 0 1 2 3 X
Variables aléatoires continues Slide 6 La probabilité qu'une variable aléatoire continue prends une valeur quelconque est zéro à Fonction de densité Ex. Fonctions de densité et de repartition d une loi Normale: b ( ) ( ) P a X b = f x dx a ( ) ( ) ( ) x F x P X x f x dx = =
Modèles statistiques Slide 7 Lors de l'étude des phénomènes réels, l'un des problèmes est de comprendre si la variable aléatoire nécessaire pour les décrire doit être construite ad hoc ou nous pouvons nous référer à une v.a. dont les caractéristiques et les propriétés sont déjà connues. à Il y a beaucoup de variables aléatoires discrètes et continues qui représentent effectivement des modèles probabilistes qui permettent de décrire la réalité avec une bonne approximation.
Slide 8 Variables aléatoires continues: - Normale - Chi-deux - F de Fisher-Snedecor - T de Student
La Loi Normale (ou de Laplace-Gauss) Slide 9
La Loi Normale Slide 10 Une variable aléatoire continue X suit une distribution normale, avec une moyenne μ et de variance σ 2, si sa fonction de densité de probabilité est donnée par: 1 f ( x) = e 2 2πσ 1 2 ( x µ ) 2 σ 2 Où e = 2.71828 π = 3.14159 µ = espérance mathématique σ = écart-type X = une valeur quelconque de la variable aléatoire
La Loi Normale Slide 11 1 f ( x) = e 2 2πσ 1 2 ( x µ ) 2 σ 2 Characteristiques de la loi Normale 1. Curbe en cloche et forme symmetrique f(x) 2. Point d inflection à une distance d un écarttype de la moyenne µ-σ µ µ+σ X
Loi Normale Standardisée Slide 12 F(z) La loi normale peut être transformée en une distribution de moyenne = 0 et de variance = 1 par: Z = X µ σ ~ N(0,1) 0 Z E( Z) Var ( Z ) x µ = E σ x µ = Var σ 1 E x µ σ 1 E x E µ σ = ( ) = ( ) ( ) ( ) 1 Var x µ 2 σ = ( ) = ( ) ( ) 1 Var x Var µ 2 σ 1 = µ µ = 0 σ = 1 σ = 1 2 2 σ
Table de la Normale Standardisée Slide 13 Les entrées dans le tableau donnent l'aire sous la courbe entre la moyenne (0) et Z. Par exemple, pour z = 1,15 l'aire sous la courbe comprise entre 0 et 1,15 (la probabilité d'avoir une valeur de z comprise entre 0 et 1,15) est 0,3749
Une Propriété de la Loi Normale Slide 14 La combinaison linéaire de variables aléatoires normales indépendantes est encore une variable aléatoire normale 2 ( ) X ~ N µ, σ i=1,2,,n a 1, a 2,, a n n i = 1 i i i 2 ( ) ax ~ N µσ, i i with: n µ = aiµ i i = 1 σ n 2 2 2 = aiσ i i = 1
La variable aléatoire du Chi-deux Slide 15 La somme Y de g v.a. normales standardisées indépendantes au carré est une variable aléatoire continue appelé Chi-deux avec g degrés de liberté : si Z i ~ N(0,1) alors Y = Z i 2 ~ g i=1 2 χ g ( )
Loi du Chi-deux Slide 16
La variable aléatoire de Fisher-Snedecor Slide 17 Le rapport entre deux variables aléatoires Chi-deux indépendantes divisées par les degrés de liberté correspondants, est défini comme Loi de Fisher-Snedecor : 2 Y 1 ~ χ g ( ) 2 Y 2 ~ χ g 1 ( ) 2 F g g F = Y g 1 1~ ( 1, 2) Y 2 g 2
La loi de Fisher-Snedecor Slide 18 Giorgio Russolillo STA102
La loi de Student Slide 19 Le rapport entre une v.a. normale standardisée et une v.a. du Chideux (avec g degrés de liberté) indépendantes, suit une loi T de Student : Z ~ N(0,1) T = Z Y ~ T ( g) Y ~ χ g 2 ( ) g
The Student s t distribution Slide 20.....................
Slide 21 Inférence
Inférence Statistique Paramètres inconnus Pop On utilise l information donnée par l échantillon pour induire information sur la population estimation Tirage aléatoire E Statistiques observées Estimation Ponctuelle et par intervalles Test d hypothèses
Estimation ponctuelle et pas intervalles Slide 23 Estimation Ponctuelle Une valeur unique est utilisée pour estimer un paramètre inconnu de la population Par Intervalles de confiance Un intervalle de valeurs est utilisée pour estimer un paramètre inconnu de la population
Estimateur et Estimation Slide 24 Estimateur: T n est une v.a. car il est fonction des éléments d une échantillon aléatoire (X 1, X 2,, X n ), de taille n, i.e. n v.a. i.i.d. Estimation: est une valeur, i.e. la réalisation de T n pour un échantillon spécifique (x 1, x 2,, x n ).
Loi d échantillonage Slide 25 La loi d'échantillonnage d'une statistique est la distribution de cette statistique, considérée comme une variable aléatoire, issue d'un échantillon aléatoire de taille n.
Théorème Centrale Limite Soit X 1, X 2,..., X n un ensemble de variables aléatoires, indépendantes et identiquement distribuées (cette deuxième condition n est pas toujours nécessaire) de variance finie. Soit X n = X 1 + X 2 + n + X n lorsque n, X n ~ N Donc Z n = X n E X n Var X n ( ) ( ) ~ N(0,1)
Slide 27 Propriétés des estimateurs ponctuels
Estimateur non biaisé Slide 28 Biais Etant donné estimateur T n du parametre Θ, nous disons que T n n est pas biaisé si: E ( T ) = θ n Le biais est défini comme: D = E ( T ) θ n
Variabilité d un estimateur Slide 29 On measure la variabilité des estimations par l Erreur Quadratique Moyen (MSE): MSE ( T ) = Var ( T ) + D 2 Si l estimateur est sans biais, MSE = var(t)
Efficacité d un estimateur Slide 30 Borne de Fréchet-Darmois-Cramér-Rao L'inverse de l'information de Fisher d'un paramètre θ, est une borne inférieure de la variance d'un estimateur (T) sans biais de ce paramètre. var T ' ) ( ) ( n E # * )! $ logf ( x;θ )& " θ % 2 + ), - ) 1 Dans certains cas, aucun estimateur non biaisé n'atteint la borne inférieure
Convergence (Consistance) d un estimateur Slide 31 L estimateur T n est un estimateur consistant pour θ s il converge en propabilité vers θ lorsque n tend vers l infini: plim n ( ) = θ T n Une condition suffisent (mais pas nécessaire), parce que T n soit a un estimateur consistant (ou convergent) de θ, est que T n soit asymptotiquement non biaisé et que sa variance tend à 0 lorsque n tend vers l infini: lim n ( ) = θ Var ( Tn ) E T n lim = 0 n Autrement dit, MSE tend à 0 lorsque n tends vers l infini : ( ) lim EQM MSE T n = 0 n
Slide 32 Méthodes d estimation
Méthode des moindres carrés Slide 33 Considérons une v.a. X, avec une moyenne µ, définie sur la population dés la quelle un échantillon aléatoire (X 1,, X n ) est tiré. Chaque unité d'échantillonnage peut être considérée comme une somme d'une composante fixe, µ, et une composante aléatoire e i : X i = µ + e i Une méthode qui permet de construire un estimateur pour µ consiste à choisir une fonction de l'échantillon qui minimise e i ou, plus exactement, la somme de leurs carrés: S n ( µ ) ( X ) 2 i µ = = i = 1 min
Propriétés des estimateurs des moindres carrés Slide 34 Les estimateurs construits par la méthode des moindre carrés sont: à BLUE (Best Linear Unbiased Estimators) à Convergents à Asymptotiquement Normales Ce méthode de construction des estimateurs ne demande pas d hypothèses sur la loi de la population
La vraisemblance Slide 35 X=(X 1, X 2,, X n ) est un vecteur de n v.a. independentes tirées d une loi décrite par la fonction de densité f(x;θ) à La loi de l échantillon aléatoire est : f ( x;θ ) = f ( x, x,, x ;θ ) = f ( x ;θ ) f ( x ;θ ) f ( x ;θ ) 1 2 n 1 2 n Fonction de X, θ fixé à La fonction de vraisemblance est : L ( θ;x) = f ( x, x,, x ;θ ) = f ( x ;θ ) f ( x ;θ ) f ( x ;θ ) 1 2 n 1 2 n Fonction de θ, l échantillon fixé
Méthode du maximum de vraisemblance (MV) Slide 36 Le principe de base de cette méthode est la suivante: parmi toutes les valeurs possibles de θ, on préfère celui qui correspond à la probabilité la plus élevée (maximum de vraisemblance) d'avoir tiré les données observées. x 1 x 3 x x 2 x 5 x 4 X m A m B m C m D L estimation du maximum de vraisemblance recherche les valeurs des paramètres qui sont les plus susceptibles d'avoir produit la loi observée. ˆθ ML = max θ { logl(θ;x 1,..., x n )}
Propriétés des estimateurs de MV Slide 37 Les estimateurs du maximum de vraisemblance ont de propriétés asymptotiques optimaux : à Ils sont estimateurs suffisants : Pr(X T,Θ) = Pr(X T) c.à.d ils contiennent toutes les informations nécessaires pour calculer une estimation du paramètre Θ à Sous des conditions de régularité (normalement verifiées), ils sont convergents et asymptotiquement sans biais à Ils sont asymptotiquement normals : d T ML " N $ θ, 1 $ # I n % ' ( θ ) ' & Information de Fischer
Intervalle aléatoire et intervalle de confiance Slide 38 Soit X 1, X 2, X n un échantillon aléatoire de taille n; on cherche deux bornes B 1 =f (X 1, X 2, X n ) and B 2 =f (X 1, X 2, X n ) telles que définissent un intervalle aléatoire avec une probabilité 1-α pour le paramètre Θ Pr{ B 1 <θ < B 2 } =1 α Proba que l intervalle aléatoire [B 1 and B 2 ] contient Θ Soit x 1, x 2, x n un échantillon observé, alors b 1 =f (x 1, x 2, x n ) et b 2 =f (x 1, x 2, x n ) sont le réalisations de B 1 and B 2 IC 1 α :[ b 1 < θ < b ] 2 [b 1 ; b 2 ] est un intervalle de confiance de niveau 1-α N.B.:Pr{ b 1 < θ < b 2 } { 0,1}
Le niveau de confiance Slide 39 Le niveau de confiance est une mesure du degré de fiabilité de l intervalle. Sample Number Nous nous attendons que, en moyenne, le 100*(1-α)% des fois, l'intervalle de confiance contient la valeur du paramètre.
Test statistique Slide 40 Un test statistique est une règle de décision qui permet de décider si une hypothèse concernant la population (hypothèse nulle, H0) doit être rejetée en faveur d'une hypothèse alternative H1 ou pas. Nous supposons que la population suit une lois spécifique et nous souhaitons tester une hypothèse sur ces paramètres TEST PARAMETRIQUE On a pas d hypotheses sur la loi de la popolation TEST NON PARAMETRIQUE
Test statistique Slide 41 La définition de la règle de décision pour le choix entre H0 et H1 (selon la preuve empirique) est basée sur : à une statistique de test T, qui est une fonction de l échantillon aléatoire à Une région critique R, définit un sous-ensemble de valeurs pour les statistiques de test qui nous conduit à un rejet de l'hypothèse nulle Si la réalisation de la statistique de test appartient à la région critique on rejet H 0 : T R θ Θ 0
Région critique Slide 42 Région critique pour un test unilateral : H : θ = θ H 0 1 : θ > θ 0 0 Région d acceptation A Région critique R Région critique pour un test bilateral : H H 0 1 : θ = θ : θ θ 0 0 Région critique R Valeur critique Espace des valeurs possibles pour le paramètre Région d acceptation A Région critique R Valeur critique
Test d hypothèse et erreurs Slide 43 La réalisation de la statistique de test (et donc la décision finale) depend de l échantillon : c est une décision aléatoire L une des deux hypothèses est vrai.. Laquelle? On a besoin d une règle de décision qui minimise le risque de se tromper.. Lequel? H 0 n est pas rejetée Realité H 0 True H 0 False Pas d erreur Erreur de Type II P[T R θ Θ 0 ] = 1 α P[T R θ Θ 1 ] = β Décision H 0 est rejetée Erreur de Type I P[T R θ Θ 0 ] = α Pas d erreur P[T R θ Θ 1 ] = 1 β
Niveau de signification et puissance du test Slide 44 Le niveau de signification (alpha) est la probabilité d'erreur de type I, à savoir la probabilité de rejeter H0 lorsque elle est en effet vraie P[T R θ Θ 0 ] = α La puissance d'un test est la probabilité de prendre la bonne décision en rejetant l'hypothèse nulle P[T R θ Θ 1 ] =1 β
Les etapes de la procedure classique Slide 45 1. Nous définissons les hypothèses nulle (H0) et alternative (H1); 2. Nous fixons l'erreur de type I (α); 3. Nous choisissons la statistique de test; 4. Nous définissons la règle de décision et calculons le seuil (par exemple, v) associé à α; 5. Nous tirons l'échantillon; 6. Nous calculons la valeur de la statistique de test et comparons sa valeur au seuil (v); 7. L'hypothèse nulle est acceptée ou rejetée avec une certain probabilité de faire une erreur.
La procedure classique Slide 46 H 0 est rejetée Loi de la statistique sous H 0 Valeur observée de la statistique Loi de la statistique sous H 1 µ 0 v t µ 1 Région d acceptation Région de rejet
La procedure classique Slide 47 H 0 n est pas rejetée Loi de la statistique sous H 0 Valeur observée de la statistique Loi de la statistique sous H 1 µ 0 t v µ 1 Région d acceptation Région de rejet
La procedure classique Slide 48 Decision rule: if l hypothèse nulle n est pas rejetée if T < v T > v l hypothèse nulle est rejetée β = P ( X < ) α = P ( X > ) v H 1 v H 0 Distribution of test statistic under H 0 Distribution of test statistic under H 1 1 α 1 β µ 0 v µ 1 Region of acceptance of H 0 Region of rejection of H 0
L approche de la P-valeur Slide 49 La p-valeur (en anglais p-value) est la probabilité d'obtenir la même valeur (ou une valeur encore plus extrême) du test si l'hypothèse nulle était vraie. LaP-valeur est une mesure de la consistance entre H0 et les données observées. Règle de décision: si la p-valeur α l hypothese nulle n est pas rejetée si la p-valeur α l hypothese nulle est rejetée H 0 1 α ( ) α = P T > v H 0 ( ) P valeur = P T > t H 0 µ 0 v t µ 1 Region of acceptance of H 0 Region of rejection of H 0