Statistique élémentaire avec R Partie 1 : Probabilités, Statistiques Descriptives, Estimation

Documents pareils
3. Caractéristiques et fonctions d une v.a.

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Calculs de probabilités conditionelles

Moments des variables aléatoires réelles

Calculs de probabilités avec la loi normale

Programmes des classes préparatoires aux Grandes Ecoles

Variables Aléatoires. Chapitre 2

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Probabilités sur un univers fini

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Annexe commune aux séries ES, L et S : boîtes et quantiles

Représentation d une distribution

Simulation de variables aléatoires

Statistiques Descriptives à une dimension

PROBABILITES ET STATISTIQUE I&II

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Espérance conditionnelle

4 Distributions particulières de probabilités

Que faire lorsqu on considère plusieurs variables en même temps?

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Qu est-ce qu une probabilité?

Lois de probabilité. Anita Burgun

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Méthodes de Simulation

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Estimation et tests statistiques, TD 5. Solutions

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

FORMULAIRE DE STATISTIQUES

Biostatistiques : Petits effectifs

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Probabilités III Introduction à l évaluation d options

Statistique Descriptive Élémentaire

Travaux dirigés d introduction aux Probabilités

Logiciel XLSTAT version rue Damrémont PARIS

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

NOTES DE COURS STT1700. Introduction à la statistique. David Haziza

Loi binomiale Lois normales

Probabilités et statistique. Benjamin JOURDAIN

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Résumé du Cours de Statistique Descriptive. Yves Tillé

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Probabilités. C. Charignon. I Cours 3

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Probabilités sur un univers fini

Loi d une variable discrète

Bases : Probabilités, Estimation et Tests.

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Statistique : Résumé de cours et méthodes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Fluctuation d une fréquence selon les échantillons - Probabilités

EI - EXERCICES DE PROBABILITES CORRIGES

Statistiques descriptives

P1 : Corrigés des exercices

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

MA6.06 : Mesure et Probabilités

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

1. Vocabulaire : Introduction au tableau élémentaire

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

3. Conditionnement P (B)

Cours de méthodes de scoring

Le modèle de Black et Scholes

Cours de Probabilités et de Statistique

Probabilités et Statistique

Calcul élémentaire des probabilités

Lire ; Compter ; Tester... avec R

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Introduction à la théorie des files d'attente. Claude Chaudet

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Processus aléatoires avec application en finance

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Cours de probabilité et statistique

4. Martingales à temps discret

Probabilités avancées. Florin Avram

Espaces probabilisés

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

MODELES DE DUREE DE VIE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Intégration et probabilités TD1 Espaces mesurés Corrigé

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction à la statistique non paramétrique

Probabilités conditionnelles Loi binomiale

OUTILS STATISTIQUES ET NUMÉRIQUES

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Sujet 4: Programmation stochastique propriétés de fonction de recours

Transcription:

Statistique élémentaire avec R Partie 1 : Probabilités, Statistiques Descriptives, Estimation Julien JACQUES Université Lumière Lyon 2 1 / 64

Plan Notions de probabilités Statistiques descriptives Estimation 2 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 3 / 64

Probabilités Le formalisme E : expérience aléatoire Ω : ensemble des résultats possibles de E (univers) A Ω : événement Opérations sur les événements union A B : A ou B (ou les 2) est réalisé intersection A B : A et B sont réalisés en même temps si A B =, A et B sont incompatibles complémentaire Ā : A n est pas réalisé Propriété : A (B C) = (A B) (A C) 4 / 64

Probabilités Définition d une probabilité Probabilité : P : Ω [0, 1] A P(A) où P(A) évaluation des chances de réalisation de A lors d une expérience aléatoire. 0 P(A) 1 pour tout A Ω P(Ω) = 1 A, B Ω tels que A B = : P(A B) = P(A)+P(B) on dit que A et B sont incompatibles 5 / 64

Probabilités Propriétés P( ) = 0 P( Ā) = 1 P(A) si A B : P(A) P(B) si A B : P(A B) = P(A)+P(B) P(A B) Quelques définitions probabilité conditionnelle que A soit réalisé sachant que B l est P(A B) = P(A B) P(B) indépendance : A et B sont indépendants si P(A B) = P(A) P(A B) = P(A)P(B) 6 / 64

Probabilités Formule des probabilités totales Soit A 1, A 2,...,A n un système complets d événements, i.e. : Ai A j = pour tout i j, A1 A 2... A n = Ω. Alors pour tout B : P(B) = n P(B A i ) i=1 7 / 64

Probabilités Formules de Bayes P(A B) = P(B A)P(A) P(B) et si A 1, A 2,...,A n est un système complets d événements P(A i B) = P(B A i)p(a i ) n i=1 P(B A i) = P(B A i )P(A i ) n i=1 P(B A i)p(a i ) 8 / 64

Probabilités Calculer une probabilité Lorsqu on sait dénombrer les événements : P(A) = nombre de cas favorables nombre de cas possibles valide lorsque tous les cas sont équiprobables Dénombrement n! = 1 2... n (nombre de permutations de n objets) : nombre de façons de ranger n objets C k n (combinaisons de k parmi n) : nombre de choix possibles de k objets parmi n C k n = n! k!(n k)! 9 / 64

Variables aléatoires Variable aléatoire X : Ω E Ω : ensemble d événements possibles ou d individus E : valeurs possibles de X Les différents types de variables aléatoires quantitative discrète : nombre de clients E = {1, 2, 3,...} continue : taille, poids E = R qualitative nominale : couleur des yeux E = {bleu, vert, noir,...} ordinale : mention au BAC E = {P, AB, B, TB...} 10 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 11 / 64

Variables aléatoires quantitatives discrètes X : Ω E avec E = {x 1,...,x k } Distribution (loi) de X ( x1... x X i... x k p 1... p i... p k ) où p i = P(X = x i ) ( k i=1 p i = 1) On supposera (par convention). 12 / 64 x 1... x i... x k

Caractéristiques d une variable discrète Fonction de répartition 0 si x < x 1 p 1 si x 1 x < x 2 F X (x) = P(X x) = p 1 + p 2 si x 2 x < x 3. 1 si x x k 13 / 64

Caractéristiques d une variable discrète Espérance E[X] = k p i x i i=1 valeur théorique moyenne à laquelle on peut s attendre pour X Propriétés on note E[X] = µ si X et Y sont deux variables aléatoires, et a une constante : E[aX + Y + b] = ae[x]+e[y]+b E[XY] E[X]E[Y] sauf si X et Y sont indépendantes 14 / 64

Caractéristiques d une variable discrète Variance V(X) = E[(X E[X]) 2 ] = k p i (x i µ) 2 = i=1 k i=1 p i x 2 i µ 2 moyenne des carrés des écarts de X à sa moyenne µ Propriétés : on note V(X) = σ 2 on appelle écart-type : σ = V(X) V(a+X) = V(X) et V(aX) = a 2 V(X) V(X + Y) V(X)+V(Y) sauf si X et Y sont indépendantes 15 / 64

Exemples de lois discrètes Soit A Ω tel que P(A) = p. Bernoulli B(p) On réalise une expérience aléatoire E et on définit X = 1 si A est réalisé, 0 sinon ( X 0 1 1 p p ) E[X] = p V(X) = p(1 p) 16 / 64

Exemples de lois discrètes Soit A Ω tel que P(A) = p. binomiale B(n, p) On répète n fois de façon indépendante et dans les mêmes conditions l expérience aléatoire E X = nombre de fois où A est réalisé. X ( ) 0 1... n p 0 p 1... p n avec p j = P(X = j) = C j np j (1 p) n j Propriétés: E[X] = np V(X) = np(1 p) 17 / 64

Exemples de lois discrètes Poisson P(λ) On compte un nombre d événements A indépendants se produisant dans un intervalle de temps fixé X = nombre d événements A réalisés. X N λ λj avec P(X = j) = e j! Propriétés: E[X] = λ V(X) = λ 18 / 64

Exercice sur la loi binomiale Lancer de dé je lance un dé non truqué. Quelle est la probabilité d obtenir 6? je lance deux dés non truqués. Quelle est la probabilité d obtenir au moins un 6? je lance dix dés non truqués. Quelle est la probabilité d obtenir au moins un 6? 19 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 20 / 64

Variables aléatoires quantitatives continues X : Ω E avec E R P(X = x) = 0 pour tout x E car E non dénombrable. On s intéresse plutôt à P(X [a, b]). Distribution et fonction de densité X est caractérisée par sa fonction de densité f X : R R + P(X [a, b]) = P(X ]a, b]) = b a f X (x)dx 21 / 64

Variables aléatoires quantitatives continues X : Ω E avec E R Fonction de répartition X peut également être caractérisée par sa fonction de répartition F X : R [0, 1] P(X a) = P(X < a) = a f X (x)dx 22 / 64

Caractéristiques d une variable continue Espérance E[X] = + x f X (x)dx = µ valeur théorique moyenne à laquelle on peut s attendre pour X De plus, pour toute fonction h : E[h(X)] = + h(x)f X(x)dx Variance V(X) = + (x µ) 2 f X (x)dx = + x 2 f X (x)dx µ 2 moyenne des carrés des écarts de X à sa moyenne µ 23 / 64

Caractéristiques d une variable continue Quantile On appelle quantile d ordre α, le nombre q α tel que : P(X q α ) = α et P(X q α ) = 1 α Pour une loi discrète, il peut exister une infinité de valeur respectant ces deux conditions. On prendra par convention la plus petite. Pour une loi continue, les deux égalités sont vérifiées. Médiane On appelle médiane le quantile d ordre α = 50%. 24 / 64

Exemple de loi continue : la loi normale normale N(µ,σ 2 ) Densité de la loi normale (gaussienne) de paramètres µ et σ 2 : ( f X (x) = 1 σ 2π exp 1 ( ) ) 2 x µ 2 σ Propriétés : E[X] = µ V(X) = σ 2 symétrie : P(X < µ a) = P(X > µ+a) 25 / 64

Exemple de loi continue : la loi normale Cas particulier normale centrée réduite N(0, 1) Il existe des tables permettant de lire P(X < u) pour u > 0. La fonctionpnorm de R donne également P(X < u) pour u donné. Exemples : P(X < 1.6449) = 95% P(X < 1.96) = 97.5% 26 / 64

Exemple de loi continue : la loi normale Cas particulier normale centrée réduite N(0, 1) La fonctionqnorm donne la valeur du quantile d ordre α, souvent notée u α pour la loi normale centrée réduite. 27 / 64

Exemple de loi continue : la loi normale Utilité de la N(0, 1) Si X N(µ,σ 2 ) d où Z = X µ σ N(0, 1) ( X µ P(X < a) = P < a µ ) ( = P Z < a µ ) σ σ σ et on utilise la table. 28 / 64

Exercice sur la loi normale Calcul de probabilité normale Soit X N(2, 4). Calculer, à l aide des tables statistiques P(X = 2) P(X > 2) et P(X 2) P(0 < X < 4) et P( 2 < X < 6) Soit Y N(0, 1). Quel lien y-a-t il entre P(X > 4) et P(Y > 1)? 29 / 64

Exemple de loi continue : la loi exponentielle exponentielle E(λ) Modélise des durées (de vie en fiabilité, pour matériel sans usure ni fatigue) Densité de la loi exponentielle de paramètre λ : f X (x) = λe λx si x > 0 Propriétés: E[X] = 1/λ V(X) = 1/λ 2 30 / 64

Exemple de loi continue : la loi de Weibull Weibull W(α, β) Modélise des durées de vie en fiabilité Densité de la loi de Weibull de paramètre α, β : f X (x) = α β ( ) α 1 x λe (x/β)α si x > 0 β Propriétés: α lié au vieillissement: α = 1 loi E(1/β), α > 1 matériel qui se fatigue β lié à la durée de vie médiane: β = mediane/((ln 2) 1/α ) 31 / 64

Exemple de loi continue : la loi de Gumbel Gumbel standard G Modélise des valeurs extrêmes (crues/magnitudes maximales annuelles...) Densité : f X (x) = e x e x si x > 0 Fonction de répartition : F X (x) = p(x < x) = e e x si x > 0 32 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 33 / 64

Liaison entre deux variables aléatoires quantitatives Covariance On définit la covariance entre deux variables aléatoires X et Y par Cov(X, Y) = E[(X µ X )(Y µ Y )] = E[XY] µ X µ Y. Interprétation : Exprime la présence d une relation du type Y = ax + b Cov(X, Y) > 0 : les variables varient dans le même sens par rapport à leur moyenne, Cov(X, Y) < 0 : les variables varient en sens inverse, Cov(X, Y) = 0 : les variables ne sont pas corrélées linéairement (Attention : cela n implique pas l indépendance (sauf si les variables sont normales) Remarque : Cov(X, X) = V(X) 34 / 64

Liaison entre deux variables aléatoires quantitatives Corrélation Comme la covariance n est pas bornée, on définit la corrélation entre deux variables aléatoires X et Y par ρ X,Y = Cov(X, Y) σ X σ Y. Propriété : ρ X,Y [ 1, 1] 35 / 64

Liaison entre deux variables aléatoires quantitatives Indépendance Deux variables aléatoires X et Y sont indépendantes si Propriétés : P({X A} {Y B}) = P({X A})P({Y B}). si X et Y sont à densité, X et Y indépendantes f X,Y (x, y) = f X (x)f Y (y) X et Y indépendantes Cov(X, Y) = 0 = ρx,y (Attention ) X et Y indépendantes f X+Y (z) = f X (x) f Y (y) = R f X(u)f Y (z u)du 36 / 64

Liaison entre deux variables aléatoires quantitatives Calcul d inégalité aléatoire Si X et Y sont indépendantes P(X > Y) = = x ( x f Y (y)f X (x)dxdy ) f Y (y)dy f X (x)dx Exemple d application : X : resistance d un matériau Y : force appliquée sur le matériau P(X > Y) : probabilité que le matériau résiste 37 / 64

Plan Notions de probabilités Statistiques descriptives Estimation 38 / 64

Notion d échantillon Soit X la variable aléatoire d intérêt. Échantillon On appelle échantillon toute suite X 1,...,X n de variables aléatoires indépendantes et de même loi que la variable aléatoire X d intérêt. Exemple : X : taille des individus de la population française X 1,...,X n : taille de n individus choisis au hasard dans la population française. On notera x 1,...,x n l observation de l échantillon aléatoire X 1,...,X n. 39 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 40 / 64

Résumés numériques d une variable quantitative Tendance centrale Moyenne : X = 1 n n i=1 X i Médiane : valeur M qui partage l échantillon ordonné en 2 M = X n+1 2 si n impair, et M = X n 2 + X n 2 +1 2 en supposant que l échantillon X 1,...,X n est classé par ordre croissant Mode : valeur la plus observée (pour variables discrètes) Rq : X et M sont des variables aléatoires, leurs observations sur un échantillon sont notées x = 1 n n i=1 x i et m. 41 / 64

Résumés numériques d une variable quantitative Dispersion Variance (empirique) : V 2 = 1 n n i=1 (X i X) 2 Étendue : Xmax X min Intervalle inter-quartile : [Q1, Q 3 ] où le premier quartile Q 1 est la valeur telle qu 1/4 des observations lui soient inférieures et 3/4 supérieures (et l inverse pour le troisième quartile Q 3 ) 42 / 64

Résumés numériques d une variable quantitative Forme skewness : coefficient d asymétrie γ1 = 1 n kurtosis : coefficient aplatissement γ2 = 1 n n i=1 (X i X) 3 ( n/(n 1)V) 3 n i=1 (X i X) 4 (n/(n 1)) 2 V 4 Propriétés : X N γ1 = 0 et γ 2 = 3 (0 pour Excel) γ1 > 0 : distribution décalée vers la gauche γ2 > 3 : distribution plus aplatie qu une gaussienne 43 / 64

Représentation graphique d une variable quantitative Boîte à moustaches 20 30 40 50 60 70 trait centré au milieu de la boîte : médiane la boîte est formée par les 1er quartile q1 et 3ème quartile q 3 les moustaches sont définies par les valeurs observées les plus extrêmes dans l intervalle[q 1 1.5(q 3 q 1 ), q 3 + 1.5(q 3 q 1 )] : valeurs extrêmes hors des moustaches 44 / 64

Représentation graphique d une variable quantitative Histogramme : surface de chaque barre proportionnelle à l effectif de la classe d observations correspondante otsihgramofdata[,13] Density 0.00 0.01 0.02 0.03 0.04 20 30 40 50 60 70 data[, 13] Rq : si la variable est quantitative discrète, les barres sont remplacées par des 45 / 64 bâtons.

Représentation graphique d une variable quantitative Fonction de répartition empirique : F n (x) = N x n où N x = #{X i : X i x, 1 i n} est le nombre de données inférieures ou égales à X. ecdf(x) Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 46 / 64 20 30 40 50 60 70 80 x

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 47 / 64

Résumé numérique d une variable qualitative Si X est une variable aléatoire qualitative prenant les modalités {m 1,...,m p } on s intéresse à Nj = #{X i : X i = m j, 1 i n} : le nombre d occurrences (effectif) de la modalité m j dans l échantillon Fi = N i n : la fréquence de la modalité m j dans l échantillon 48 / 64

Représentation graphique d une variable qualitative Diagramme en camembert (pie-chart, gauche) et en barres (droite) A93 A92 A91 A94 A91 A92 A93 A94 0 100 200 300 400 500 49 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 50 / 64

Décrire la liaison entre deux variables quantitatives Numérique : le coefficient de corrélation linéaire ρ X,Y = Graphique : le nuage de points : Cov(X, Y) σ X σ Y. data[, 5] 0 5000 10000 15000 51 / 64 10 20 30 40 50 60 70 data[, 2]

Décrire la liaison entre Y quantitative et X qualitative Numérique : le rapport de corrélation : R Y X = VX 2/V 2 où V 2 X = 1 n R j=1 N j(ȳj Ȳ)2 exprime la part de variabilité due à X (Ȳj étant la moyenne des Y observés lorsque X = jème modalité) Graphique : le boxplot : 20 30 40 50 60 70 52 / 64 A91 A92 A93 A94

Décrire la liaison entre deux variables qualitatives X : modalités m 1,...,m R Y : modalités o 1,...,o C o 1 o c o C sommes m 1 N 11 N 1c N 1C N 1..... m r N r1 N rc N rc N r..... m R N R1 N Rc N RC N R sommes N 1 N c N C n Table : Table de contingence 53 / 64

Décrire la liaison entre deux variables qualitatives Mesure de liaison le χ 2 (non borné): χ 2 = R r=1 c=1 ( C Nrc Nr N c N r N c n n ) 2 = n [ R C r=1 c=1 N 2 rc N r N c 1 ] le Φ 2 = χ2 n (dépend encore de C et de R) le C de Cramer ( [0, 1]) C = Φ 2 inf(r,c) 1 le T de Tschuprow ( [0, 1]) T = Φ 2 (R 1)(C 1) 54 / 64

Plan Notions de probabilités Statistiques descriptives Estimation 55 / 64

Notion d estimation X une variable aléatoire θ un paramètre caractérisant X dans une population donnée. Ex : θ : la moyenne de X, E[X] = µ θ : la variance de X, V(X) = σ 2 θ : la proportion de telle modalité, lorsque X est qualitative... 56 / 64

Notion d estimation X une variable aléatoire θ un paramètre caractérisant X dans une population donnée. Ex : θ : la moyenne de X, E[X] = µ θ : la variance de X, V(X) = σ 2 θ : la proportion de telle modalité, lorsque X est qualitative... Généralement, θ n est pas connu car on ne dispose pas de mesure de X sur toute la population on va chercher à estimer θ à partir d un échantillon X 1,...,X n estimation ponctuelle : donner une valeur approchée de θ estimation par intervalle : donner un intervalle encadrant la vraie valeur de θ avec une certaine probabilité 56 / 64

Notion d estimateur Estimateur Une statistique T fonction de l échantillon : T(X 1,...,X n ) dont on appréciera les qualités suivantes : convergent : T(X1,...,X n ) n θ sans biais : E[T θ] = 0 de variance V(T) = E[(T θ) 2 ] minimale 57 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 58 / 64

Estimateur de l espérance et de la variance Estimateur de l espérance La statistique X = 1 n n i=1 X i est le meilleur estimateur de µ convergent : X n µ sans biais : E[ X] = µ de variance V( X) = σ 2 n minimale 59 / 64

Estimateur de l espérance et de la variance Estimateur de l espérance La statistique X = 1 n n i=1 X i est le meilleur estimateur de µ convergent : X n µ sans biais : E[ X] = µ de variance V( X) = σ 2 n minimale Estimateur de la variance La statistique S 2 = 1 n n 1 i=1 (X i X) 2 est le meilleur estimateur de σ 2 convergent : S 2 n σ 2 sans biais : E[S 2 ] = σ 2 de variance minimale Rq : V 2 vu précédemment est biaisé E[V 2 ] = n 1 n σ2 59 / 64

Estimateur d une proportion On s intéresse à la proportion p d individus ayant une certaine caractéristique dans une population. Estimateur d une proportion n F = X i=1 = X i, n où X i est une v.a. de Bernoulli de paramètre p, définie par : { 1 si l individu i possède la caractère C X i = 0 sinon. 60 / 64

Plan Notions de probabilités Généralités Variables aléatoires discrètes et lois associées Variables aléatoires continues et lois associées Liaison entre deux variables aléatoires quantitatives Statistiques descriptives Description d une variable quantitative Description d une variable qualitative Description conjointe de plusieurs variables Estimation Estimation ponctuelle Intervalles de confiance 61 / 64

Intervalle de confiance sur l espérance Loi de X Xi N(µ,σ 2 ) X N(µ, σ2 n ) lorsque les Xi ne sont pas gaussiens n Théorème centrale limite : X N(µ, σ2 n ) Intervalle de confiance sur µ IC 1 α (µ) loi normale ou n 30 σ 2 connue σ 2 inconnue [ x + uα 2 σ n, x uα 2 σ n ] [ x + t n 1, α 2 S n, x t n 1, α 2 S n ] 62 / 64

Intervalle de confiance sur la variance Loi de X Xi N(µ,σ 2 ) n 1 S 2 χ 2 σ 2 n 1 Intervalle de confiance sur σ 2 [ µ connue nv 2 µ χ 2 n,1 α 2, nv 2 µ χ 2n,α 2 ] IC 1 α (σ 2 ) loi normale µ inconnue [ (n 1)s2 χ 2 n 1,1 α 2, (n 1)s2 ] χ 2 n 1, α 2 63 / 64

Intervalle de confiance sur une proportion Loi de F F = n i=1 X i n avec X i B(p) nf = n i=1 X i B(n, p) si n est suffisamment grand (np > 5 et n(1 p) > 5) : F N(p, p(1 p) ) n Intervalle de confiance sur p [f + uα 2 IC 1 α (p) np > 5 et n(1 p) > 5 f(1 f) n, f uα 2 f(1 f) n ] 64 / 64