INTRODUCTION ça L'INFçERENCE STATISTIQUE 1. Introduction 2. Notion de variable alçeatoire íprçesentation ívariables alçeatoires discrçetes ívariables alçeatoires continues 3. Reprçesentations d'une distribution í Reprçesentations graphiques írçesumçes numçeriques í Reprçesentations semi-graphiques. 4. Estimation FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1
INTRODUCTION Populations - çechantillons En statistique, on appelle population une collection d'çelçements possçedant au moins une caractçeristique commune permettant de les regrouper. Un çelçement est un individu ou une unitçe statistique. Si le nombre d'çelçements est limitçe, la population est dite ænie. Si ce nombre est illimitçe ou diæcilement calculable, la population est dite inænie. On dçeænit un çechantillon comme un sous-ensemble de la population statistique. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 2
INTRODUCTION Les deux types de dçemarches statistiques POPULATION inænie et connue ænie, petite et connue - RECENSEMENT SONDAGE? çechantillon - STATISTIQUE EXPLORATOIRE on ne s'intçeresse qu'aux individus dont on a les mesures?? STATISTIQUE INF ç ERENTIELLE FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 3
VARIABLE ALçEATOIRE Notion de phçenomçene alçeatoire Dans de nombreux cas, la rçepçetition d'une expçerience dans des conditions apparemment identiques ne conduit pas toujours au m^eme rçesultat. Exemples: ímçelange ça parts çegales d'un produit A et d'un produit B et examen du rçesultat du mçelange: produit C; í semis de graines dans une terrine et comptage du nombre de levçees aprçes 5 jours; í lancement d'une piçece de monnaie; í jet d'un dçe et examen du nombre indiquçe sur la face supçerieure. Si le rçesultat d'une expçerience ne peut ^etre dçeterminçe par la connaissance des conditions initiales, nous dirons que le phçenomçene est alçeatoire. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 4
VARIABLE ALçEATOIRE Dçeænition d'une variable Une variable X est une application d'un ensemble æ d'çevçenements dans un ensemble S de valeurs numçeriques ou non appelçees rçealisations. æ est un ensemble discret d'objets, d'individus, d'occasions,...: æ=f! 1 ;! 2 ;æææ;! n g alors que S peut ^etre n'importe quoi. En particulier, les valeurs de S peuvent^etre numçeriques, ordinales ou nominales. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 5
VARIABLE ALçEATOIRE Exemples de variables Exemples: Soit æ une population d'individus et í X 1 la variable sexe prenant ses valeurs dans S =fhomme, femmeg; í X 2 la variable dipl^ome prenant ses valeurs dans S = fcertiæcat d'çetude,..., thçese g í X 3 la variable poids en kg prenant ses valeurs dans l'intervalle S = ë0;200ë; FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 6
VARIABLE ALçEATOIRE Dçeænition Une variable alçeatoire X est une variable associçee ça une expçerience alçeatoire et servant ça caractçeriser le rçesultat de cette expçerience. Autrement dit, ça chaque rçealisation valeur de S est associçee í une probabilitçe si la variable est discrçete; í une densitçe de probabilitçe si la variable est continue Ces deux notions seront vues plus loin. Exemples í On jette un dçe bleu et un dçe rouge et on considçere la somme X du dçe bleu et du dçe rouge; í On jette un dçe bleu et un dçe rouge et on considçere la valeur Y correspondant ça lavaleur absolue de la diæçerence entre les valeurs des 2 dçes. í On prend au hasard un ananas dans la rçecolte d'un champ et on considçere le poids Z de l'ananas. X, Y, Z sont des variables alçeatoires. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 7
VARIABLE ALçEATOIRE Il existe plusieurs types de variable alçeatoire. Les types les plus frçequents qui seront dçeænis sont: í les variables alçeatoires discrçetes Ex: somme de 2 dçes,... í les variables alçeatoires continues Ex: taille des individus dans une population,... FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 8
VARIABLE ALçEATOIRE DISCRçETE Dçeænition í l'ensemble des rçealisations possibles S d'une telle variable alçeatoire notçee X a un nombre æni ou inæni dçenombrable d'çelçements íça chacune des valeurs x 2 S que peut prendre la variable alçeatoire X, correspond une probabilitçe P x oup x ; Px=P x =PX=x í l'ensemble des valeurs x et des probabilitçes correspondantes P x dçeænit une distribution de probabilitçe; í l'ensemble des probabilitçes cumulçees dçeænit une fonction de rçepartition: F x =PXçx FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 9
VARIABLE ALçEATOIRE DISCRçETE Exemple Exemple: Jet de 2 dçes et calcul de la somme. x PrfX = xg F x 2 136 136 3 236 336 4 336 636 5 436 1036 6 536 1536 7 636 2136 8 536 2636 9 436 3036 10 336 3336 11 236 3536 12 136 3636 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 10
VARIABLE ALçEATOIRE CONTINUE Dçeænition í l'ensemble des rçealisations possibles d'une telle variable alçeatoire notçee X a un nombre de valeurs non dçenombrables; í il n'est plus possible d'associer ça chacune des valeurs x que peut prendre la variable alçeatoire X une probabilitçe P x oup x ; í par contre, il est possible de dçeænir une fonction de rçepartition: F x =PXçx í de m^eme on peut dçeænir la probabilitçe d'observer une valeur comprise dans un intervalle donnçe ëa;bë PaçXçb=Fb,Fa í si F est dçerivable on peut encore çecrire í F x +æx,fx lim æx!0 æx F x = æf = lim æx!0 æx = f x Z x,1 f xdx f est appelçee densitçe FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 11
REPRçESENTATION DES DONNçEES Exemple: rçepartition par ^age des agents INRA ^Age Eæectif Eæectif Frçequence cumulçe Frçequence cumulçee 19 2 2 0.0002 0.0002 20 0 2 0.0000 0.0002 21 7 9 0.0008 0.0010 22 41 50 0.0049 0.0059 23 66 116 0.0079 0.0138 24 121 237 0.0145 0.0283 25 128 365 0.0153 0.0436 26. 191. 556. 0.0230. 0.0666. 59 152 7992 0.0183 0.9604 60 102 8094 0.0123 0.9727 61 66 8160 0.0079 0.9806 62 62 8222 0.0075 0.9881 63 52 8274 0.0063 0.9944 64 42 8316 0.0050 0.9994 65 5 8321 0.0006 1.0000 8321 1.0000 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 12
REPRçESENTATION DES DONNçEES Les reprçesentations graphiques í Diagramme en B^atons í Histogramme í Densitçe ífonction de rçepartition Les reprçesentations numçeriques í de tendance centrale: mçediane, moyenne í de dispersion: variance, çecart-type, quantiles, çetendue Les reprçesentations semi-graphiques í bo^çte ça pattes box-plot í branchage stem and leaf FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 13
LES REPRçESENTATIONS GRAPHIQUES Diagramme en b^aton de la population INRA effectif 0 100 200 300 20 30 40 50 60 age FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 14
effectif LES REPRçESENTATIONS GRAPHIQUES Histogramme des eæectifs des ^ages des agents INRA 0 200 400 600 800 1000 1200 1400 20 30 40 50 60 age FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 15
frequence 0.0 0.02 LES REPRçESENTATIONS GRAPHIQUES Polygone des frçequences - Courbe de densitçe 20 30 40 50 60 age histogramme et polygone des frçequences d'^ages densite 0.0 0.02 0.04 20 30 40 50 60 70 courbe de densitçe pour une variable continue FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 16
freq. cumulee 0.0 0.4 0.8 LES REPRçESENTATIONS GRAPHIQUES Polygone des frçequences cumulçees Courbe de fonction de rçepartition 10 20 30 40 50 60 70 age histogramme et polygone des frçequences cumulçees d'^ages freq. cumulee 0.0 0.4 0.8 20 30 40 50 60 70 courbe de fonction de rçepartition pour une variable continue FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 17
RçESUMçES NUMçERIQUES: Tendance centrale : espçerance et mçediane effectif 0 100 200 300 20 30 40 50 60 age (mu= 41.7,m= 41 ) espçerance :moyenne arithmçetique des rçealisations pondçerçees par leur probabilitçe. EX=ç= X xp x : x2s mçediane :valeur m telle que PXém'PXém'1=2: FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 18
RçESUMçES NUMçERIQUES : Stabilitçe delamçediane effectif 20 30 40 50 60 age (mu= 41.7,m= 41 ) effectif 0 100 200 300 0 100 200 300 20 30 40 50 60 age (mu= 42.2,m= 41 ) FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 19
RçESUMçES NUMçERIQUES: tendance centrale 6= dispersion 0.0 0.2 0.4-4 -2 0 2 4 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 20
RçESUMçES NUMçERIQUES: Dispersion : variance et çecart-type çecart ça l'espçerance : X, ç. Mesurer la dispersion par E X, ç? = 0 Carrçe del'çecart ça l'espçerance ç : X, ç 2. Variance : ç 2 =E X,ç 2ç. Formule de calcul : ç 2 = X x2s x, ç 2 P x : çecart-type : ç. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 21
RçESUMçES NUMçERIQUES Dispersion : çetendue, quartiles et IQR effectif 0 100 200 300 min mediane max 20 30 40 50 60 çetendue :valeur maximale, valeur minimale age effectif 0 100 200 300 25% Q1 25% Q2 25% Q3 25% 20 30 40 50 60 age Quartiles : Q 1 ;Q 2 ;Q 3. Intervalle interquartile : Q 3, Q 1. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 22
RçESUMçES NUMçERIQUES Dispersion : quantiles k parties : 1 2 3 i rrr rrr - k, 1 k min Q 1 Q 2 Q 3 Q i,1 Q i Q k,2 Q k,1 max 100 i k des observations ont une valeur infçerieure ça Q i FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 23
RçESUMçES NUMçERIQUES Dispersion : quantiles prob. cumulee 0.75 0.50 0.25 Q1 Q2 Q3 courbe de fonction de rçepartition densite Q1 Q2 Q3 courbe de densitçe FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 24
LES REPRçESENTATIONS SEMI-GRAPHIQUES La bo^çte ça pattes - min Q 1 Q 2 Q 3 max 50 ç - IQR min Q 1 Q 2 Q 3 max FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 25
LES REPRçESENTATIONS SEMI-GRAPHIQUES Exemple : la bo^çte ça pattes de l'^age des agents INRA 20 30 40 50 60 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 26
LES REPRçESENTATIONS SEMI-GRAPHIQUES Exemples de bo^çtes ça pattes distribution uniforme distribution ëpointue" distribution ëcreuse" distribution bimodale FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 27
LES REPRçESENTATIONS SEMI-GRAPHIQUES Exemple : branchage de l'^age des agents INRA Histogramme des ^ages des 139 agents de Lille effectif 0 10 20 30 20 30 40 50 60 age Branchage des ^ages du Centre de Lille N = 139 Median = 36 Quartiles = 31, 42 Decimal point is 1 place to the right of the colon 1: 9 2: 13444 2: 55666666677788889999 3: 00000011111111111122222233333334444 3: 55555666666777777888888899999999 4: 000000112222222334444 4: 5566667889 5: 0004 5: 55566 6: 012233 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 28
ESTIMATION estimation empirique 1 Sondage : 40 agents environ 0:5 de la population totale 24 31 36 36 38 42 51 55 27 31 36 36 38 43 52 56 27 32 36 37 40 44 53 56 29 34 36 37 40 44 53 58 29 34 36 38 42 49 54 59 Distribution de la population et distribution de l'çechantillon -0.02 0.02 0.06 20 30 40 50 60 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 29
ESTIMATION estimation empirique 2 Bo^çtes ça pattes 20 30 40 50 60 population echantillon Rçesumçes numçeriques paramçetres population çechantillon espçerance 41.7 40.7 variance 105.9 92.5 Q 1 33.0 35.5 Q 2 41.0 38.0 Q 3 50.0 49.5 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 30
PARAMçETRES - ESTIMATEURS Dçeænitions On appelle paramçetre la caractçeristique quantitative qui permet une reprçesentation condensçee de l'information contenue dans une ou plusieurs populations. L'expression mathçematique permettant de mesurer, ça partir des donnçees de l'çechantillon, un paramçetre de la population s'appelle un estimateur d'un paramçetre. C'est une variable alçeatoire dont on espçere que la valeur sera ësouvent proche" du paramçetre que l'on cherche ça estimer. EXEMPLE : Si on a observçe S = f1; 1; 4; 5g; alors la moyenne arithmçetique des observations X = 1 4 1+1+4+5 est un estimateur de l'espçerance ç. Formule gçençerale : X = 1 n nx X n : i=1 FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 31
PARAMçETRES - ESTIMATEURS Propriçetçes des estimateurs estimateurs biaisés avec grande variance estimateurs non biaisés avec grande variance estimateurs biaisés avec petite variance estimateurs non biaisés avec petite variance FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 32
ESTIMATION Dçeænition L'estimation est la valeur prise par un estimateur pour un çechantillon particulier. L'estimation d'un paramçetre ça partir d'un çechantillon unique ne conduit gçençeralement pas ça la vraie valeur du paramçetre. Cette estimation va varier d'un çechantillon ça l'autre. La rçealisation d'un trçes grand nombre d'çechantillons de m^eme taille permet de construire la distribution d'çechantillonnage de l'estimateur. L'estimation d'un paramçetre peut ^etre ponctuelle ou par intervalle. FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 33
PARAMçETRES - ESTIMATEURS POPULATION ç ECHANTILLON æxe alçeatoire paramçetres thçeoriques versions empiriques = estimateurs ëtout est connu" INF ç ERENCE ëinformation" sur les paramçetres de la population inconnue FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 34
PARAMçETRES - ESTIMATEURS NOTATIONS paramçetres thçeoriques population version empiriques çechantillon mçediane m g X dm moyenne ç X cç variance ç 2 cç 2 S 2 fonction de rçepartition F c F FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 35