Rappel sur les concepts de base de statistiques et statistiques descriptives Atelier de formation à l'analyse des données pour l'estimation des stocks de carbone forestier, 30 juin4 juillet 2014, Yaoundé Nicolas Picard nicolas.picard@cirad.fr Projet de renforcement des capacités institutionnelles en matière de REDD+ pour la gestion durable des forêts dans le bassin du Congo PREREDD (COMIFAC) Rappel sur les concepts de base de statistiques et statistiques descriptives I 1 / 9
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 1 / 106
Utilité des statistiques en foresterie Quelques exemples Inventorier une ressource forestière (stock de bois... ) on ne peut pas tout mesurer Z quelle règle d échantillonnage pour estimer la ressource avec une précision donnée? Mesurer des arbres (dendrométrie) tarifs de cubage : prédire le volume en fonction du diamètre et/ou de la hauteur relation hauteur / diamètre Z comment établir une relation alors qu il y a naturellement de la variabilité? Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106
Utilité des statistiques en foresterie Quelques exemples Inventorier une ressource forestière (stock de bois... ) on ne peut pas tout mesurer Z quelle règle d échantillonnage pour estimer la ressource avec une précision donnée? échantillonnage Mesurer des arbres (dendrométrie) tarifs de cubage : prédire le volume en fonction du diamètre et/ou de la hauteur relation hauteur / diamètre Z comment établir une relation alors qu il y a naturellement de la variabilité? modélisation Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106
Utilité des statistiques en foresterie Quelques exemples (suite) Comprendre l écologie des espèces relation sol / espèce Z comment tester une relation qui n est pas univoque? Analyser des données d inventaire d aménagement décrire la structuration des données définir des types de formations végétales comment extraire l information d une masse de données? Z comment classer des observations? Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106
Utilité des statistiques en foresterie Quelques exemples (suite) Comprendre l écologie des espèces relation sol / espèce Z comment tester une relation qui n est pas univoque? test statistique Analyser des données d inventaire d aménagement décrire la structuration des données définir des types de formations végétales Z comment extraire l information d une masse de données? Z comment classer des observations? statistiques descriptives (analyses multivariées) Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106
Statistiques et probabilités Probabilité : théorie mathématique traitant des événements aléatoires Statistique : dès que l on a affaire à des observations, des données Z les statistiques s appuient sur les probabilités... mais une partie des statistiques (en particulier les statistiques descriptives) ne font pas référence aux probabilités Ce cours n est pas un cours de mathématiques : approche intuitive savoir quand utiliser les méthodes adéquates savoir interpréter les résultats savoir chercher de l aide pour les analyses plus poussées! Nicolas Picard (CIRAD / IRET) December 1, 2011 4 / 106
Panorama : probabilités Probabilités Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : probabilités Probabilités Variable aléatoire fonction de répartition densité moments lois continues lois discrètes fonction caractéristique Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : probabilités Probabilités Variable aléatoire Couple de VA fonction de loi jointe répartition loi marginale densité loi condition- moments -nelle lois continues lois discrètes fonction caractéristique Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : probabilités Probabilités Variable aléatoire Couple de VA fonction de loi jointe répartition loi marginale densité loi condition- moments -nelle lois continues lois discrètes fonction caractéristique Vecteur aléatoire Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : probabilités Probabilités Variable aléatoire Couple de VA fonction de loi jointe répartition loi marginale densité loi condition- moments -nelle lois continues lois discrètes fonction caractéristique Vecteur aléatoire Processus aléatoire processus temporel processus ponctuel Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : probabilités Probabilités Variable aléatoire Couple de VA fonction de loi jointe répartition loi marginale densité loi condition- moments -nelle lois continues lois discrètes fonction caractéristique Vecteur aléatoire Processus aléatoire processus temporel processus ponctuel Journée 1 Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Description d une variable moyenne médiane quantiles écart-type graphiques Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Description d une variable moyenne médiane quantiles écart-type graphiques Liaison entre deux variables graphiques numériques ordinales qualitatives quantitative et qualitative Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Description d une variable moyenne médiane quantiles écart-type graphiques Liaison entre deux variables graphiques numériques ordinales qualitatives quantitative et qualitative Journée 1 Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Analyse d un tableau ACP AFC AFCM Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Analyse d un tableau ACP AFC AFCM Couplage de 2 tableaux variables instrumentales co-inertie canonique Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Analyse d un tableau ACP AFC AFCM Couplage de 2 tableaux variables instrumentales co-inertie canonique Classification automatique hiérarchique non hiérarchique Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique exploratoire Statistique exploratoire Statistiques descriptives Analyses multivariées Analyse d un tableau ACP AFC AFCM Couplage de 2 tableaux variables instrumentales co-inertie canonique Journées 5 & 6 Classification automatique hiérarchique non hiérarchique Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Distribution d un échantillon fonction de répartition empirique moyenne empirique variance empirique échantillon gaussien Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Distribution d un échantillon fonction de répartition empirique moyenne empirique variance empirique échantillon gaussien Estimation maximum de vraisemblance moments intervalle de confiance taille de population Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Distribution d un échantillon fonction de répartition empirique moyenne empirique variance empirique échantillon gaussien Estimation maximum de vraisemblance moments intervalle de confiance taille de population Échantillonnage Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Distribution d un échantillon fonction de répartition empirique moyenne empirique variance empirique échantillon gaussien Estimation maximum de vraisemblance moments intervalle de confiance taille de population Tests ajustement comparaison de 2 moyennes comparaison multiple de moyennes comparaison de variance du χ 2 Échantillonnage Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle Statistique inférentielle (1) Distribution d un échantillon fonction de répartition empirique moyenne empirique variance empirique échantillon gaussien Estimation maximum de vraisemblance moments intervalle de confiance taille de population Échantillonnage Tests ajustement comparaison de 2 moyennes comparaison multiple de moyennes comparaison de variance du χ 2 Journée 2 Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Modèle linéaire analyse de variance à un facteur analyse de variance à n facteurs régression simple régression multiple analyse de covariance cas général Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Modèle linéaire analyse de variance à un facteur analyse de variance à n facteurs régression simple régression multiple analyse de covariance cas général Dispositifs expérimentaux Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Modèle linéaire analyse de variance à un facteur analyse de variance à n facteurs régression simple régression multiple analyse de covariance cas général Modèle non linéaire Dispositifs expérimentaux Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Modèle linéaire analyse de variance à un facteur analyse de variance à n facteurs régression simple régression multiple analyse de covariance cas général Modèle non linéaire Analyse discriminante Dispositifs expérimentaux Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Panorama : statistique inférentielle (suite) Statistique inférentielle (2) Modèle linéaire analyse de variance à un facteur analyse de variance à n facteurs régression simple régression multiple analyse de covariance cas général Modèle non linéaire Analyse discriminante Journées 3 & 4 Dispositifs expérimentaux Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106
Et encore : Statistique bayésienne Séries chronologiques Statistiques spatiales : géostatistique processus ponctuels lattices Etc, etc. Nicolas Picard (CIRAD / IRET) December 1, 2011 9 / 106
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 10 / 106
Probabilités : les bases Approche fréquentiste Événement aléatoire défini par : ses réalisations possibles la probabilité associée à chaque réalisation Exemple : dé à 6 faces Si on note A 1,..., A n les réalisations possibles et Pr la mesure de probabilité : Pr(A i A j ) = Pr(A i ) + Pr(A j ) (i j) n Pr(A i ) = 1 i=1 Nicolas Picard (CIRAD / IRET) December 1, 2011 11 / 106
Probabilité conditionnelle et indépendance Soient A et B deux événements aléatoires Probabilité conditionnelle de A sachant B : Pr(A B) = Pr(A B) Pr(B) Indépendance de A par rapport à B : Pr(A B) = Pr(A) A indépendant de B :B indépendant de A Pour des événements indépendants : Pr(A B) = Pr(A) Pr(B) Nicolas Picard (CIRAD / IRET) December 1, 2011 12 / 106
Variable aléatoire Définition Application qui associe à chaque réalisation d un événement aléatoire une valeur numérique (réelle) Exemple : dé à 6 faces ; on y associe X {1, 2, 3, 4, 5, 6} Exemple : statut d un arbre pris au hasard en forêt dominant 1 co-dominant 2 dominé 3 Exemple : diamètre d un arbre pris au hasard en forêt D [d min ; + [ Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106
Variable aléatoire Définition Application qui associe à chaque réalisation d un événement aléatoire une valeur numérique (réelle) Exemple : dé à 6 faces ; on y associe X {1, 2, 3, 4, 5, 6} Exemple : statut d un arbre pris au hasard en forêt dominant 1 co-dominant 2 dominé 3 Exemple : diamètre d un arbre pris au hasard en forêt D [d min ; + [ Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106
Variable aléatoire Définition Application qui associe à chaque réalisation d un événement aléatoire une valeur numérique (réelle) Exemple : dé à 6 faces ; on y associe X {1, 2, 3, 4, 5, 6} Exemple : statut d un arbre pris au hasard en forêt dominant 1 co-dominant 2 dominé 3 Exemple : diamètre d un arbre pris au hasard en forêt D [d min ; + [ Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106
Fonction de répartition Définition : F (x) = Pr(X < x) Fonction à valeurs dans [0, 1] monotone croissante Propriété : Pr(a X < b) = F (b) F (a) Nicolas Picard (CIRAD / IRET) December 1, 2011 14 / 106
Différents types de variable Variable discrète Variable ordinale Exemple : statut de l arbre dominant > co-dominant > dominé Variable nominale Exemple : couleur du feuillage vert clair 1 vert clair 4 vert foncé 2 ou bien vert foncé 8 jaune 3 jaune 5 Variable continue Exemple : diamètre Nicolas Picard (CIRAD / IRET) December 1, 2011 15 / 106
Variable aléatoire discrète Loi de probabilité On indexe les modalités de la variable par des entiers 1, 2, 3,..., m Loi de probabilité : définie par Pr(X = i) pour tout i = 1,..., m Exemple : somme du lancer de deux dés à 6 faces 6/36 Probabilité 0.00 0.05 0.10 0.15 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36 2 4 6 8 10 12 Nicolas Picard (CIRAD / IRET) December 1, 2011 16 / 106
Variable aléatoire discrète Fonction de répartition Exemple : somme du lancer de deux dés à 6 faces Probabilité 0.0 0.2 0.4 0.6 0.8 1.0 3/36 1/36 6/36 10/36 15/36 21/36 26/36 30/36 35/36 33/36 2 4 6 8 10 12 Nicolas Picard (CIRAD / IRET) December 1, 2011 17 / 106
Variable aléatoire continue Loi de probabilité Densité de probabilité : Pr(x < X < x + dx) = f(x) dx Fonction de répartition : F (b) = b f(x) dx En d autres termes : f(x) = F (x) Nicolas Picard (CIRAD / IRET) December 1, 2011 18 / 106
Variable aléatoire continue Exemple X défini par : { exp( λx) Pr(X > x) = 1 λ f(x) = 1 { λ exp( λx) (x 0) 0 (x < 0) f(x) Pr(a < X < b) F(x) 0 0 a x b 0 0 x Nicolas Picard (CIRAD / IRET) December 1, 2011 19 / 106
Changement de variable Nouvelle variable aléatoire Y = ϕ(x) avec ϕ bijective Fonction de répartition de Y : { F (ϕ G(y) = 1 (y)) (ϕ croissante) 1 F (ϕ 1 (y)) (ϕ décroissante) Densité de Y : g(y) = f[ϕ 1 (y)] ϕ [ϕ 1 (y)] Nicolas Picard (CIRAD / IRET) December 1, 2011 20 / 106
Indépendance de deux variables aléatoires X et Y sont indépendantes si et seulement si : Fonction de répartition du couple (X, Y ) : H(x, y) = Pr(X < x et Y < y) = F (x) G(y) Densité du couple (X, Y ) : h(x, y) = f(x) g(y) Nicolas Picard (CIRAD / IRET) December 1, 2011 21 / 106
Moments d une variable aléatoire Moment non centré d ordre p : m p = Moment centré d ordre p : µ p = x p f(x) dx (x m 1 ) p f(x) dx Par définition, le moment non centré d ordre 1 s appelle l espérance Notation : E(X) Par définition, le moment centré d ordre 2 s appelle la variance Notation : Var(X) Nicolas Picard (CIRAD / IRET) December 1, 2011 22 / 106
Espérance Interprétation : tirons n valeurs de X de façon indépendante : x 1, x 2,..., x n Z la moyenne empirique (x 1 + x 2 +... + x n )/n converge vers E(X) Espérance d une somme de deux variables aléatoires : E(X + Y ) = E(X) + E(Y ) Espérance d un produit de deux variables aléatoires : X et Y indépendantes : E(XY ) = E(X) E(Y ) Nicolas Picard (CIRAD / IRET) December 1, 2011 23 / 106
Espérance d une fonction d une variable aléatoire Changement de variable Y = ϕ(x) (pas forcément bijective) Espérance : E[ϕ(X)] = ϕ(x) f(x) dx Exemple : moment non centré d ordre p = E(X p ) Nicolas Picard (CIRAD / IRET) December 1, 2011 24 / 106
Variance Variance : Var(X) = E[(X E(X)) 2 ] Z mesure la dispersion autour de l espérance Autre expression équivalente : Var(X) = E(X 2 ) [E(X)] 2 «espérance du carré moins le carré de l espérance» Écart-type : σ = Var(X) Variance d une somme de variables aléatoires : X et Y indépendantes : Var(X + Y ) = Var(X) + Var(Y ) Unités : si X en m, Var(X) en m 2 (mais σ en m) Nicolas Picard (CIRAD / IRET) December 1, 2011 25 / 106
Quantiles et médiane quantile d ordre q = F 1 (q) c est la probabilité p telle que Pr(X < p) = q médiane = quantile 50% F(x) 0.0 0.2 0.4 0.6 0.8 1.0 1er quartile médiane 3e quartile x Nicolas Picard (CIRAD / IRET) December 1, 2011 26 / 106
Mode(s) Mode = maximum (local) de la densité de distribution f(x) x Nicolas Picard (CIRAD / IRET) December 1, 2011 27 / 106
Couple de variables aléatoires fonction de répartition : H(x, y) = Pr(X < x et Y < y) densité de distribution (variables continues) : densités marginales : f(x) = g(y) = R R h(x, y) = 2 H x y h(x, y) dy F (x) = H(x, ) h(x, y) dx G(y) = H(, y) Nicolas Picard (CIRAD / IRET) December 1, 2011 28 / 106
Couple de VA : covariance Covariance : Cov(X, Y ) = E[(X E(X)) (Y E(Y ))] Autre expression équivalente : Cov(X, Y ) = E(XY ) E(X) E(Y ) Si X et Y sont indépendants, alors Cov(X, Y ) = 0 Cov(X, X) = Var(X) Nicolas Picard (CIRAD / IRET) December 1, 2011 29 / 106
Vecteur aléatoire généralise le couple de variables aléatoires à p variables aléatoires X = (X 1, X 2,..., X p ) fonction de répartition : F (x 1, x 2,..., x p ) = Pr(X 1 < x 1 et X 2 < x 2 et... et X p < x p ) densité de distribution : f(x 1, x 2,..., x p ) = p F x 1 x 2... x p Nicolas Picard (CIRAD / IRET) December 1, 2011 30 / 106
Vecteur aléatoire : moments d ordre 1 et 2 espérance : vecteur de longueur p E(X 1, X 2,..., X p ) = (E(X 1 ), E(X 2 ),..., E(X p )) = m matrice de variance-covariance : matrice p p σ1 2 Cov(X 1, X 2 )... Cov(X 1, X p ) Cov(X) = Cov(X 2, X 1 ) σ2 2..... Cov(X p, X 1 )... σp 2 = E(X t X) m t m Z matrice symétrique Z matrice diagonale si X 1,..., X m mutuellement indépendants Nicolas Picard (CIRAD / IRET) December 1, 2011 31 / 106
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 32 / 106
Loi uniforme (U) Lois discrètes Ex.: dé à n faces paramètre : n X {1, 2, 3,..., n} Pr(X = k) = 1 pour tout k n E(X) = n + 1 2 Var(X) = n2 1 2 Pr(X = x) 0.00 0.05 0.10 0.15 1 2 3 4 5 6 x Nicolas Picard (CIRAD / IRET) December 1, 2011 33 / 106
Loi de Bernoulli Lois discrètes Ex.: lancer d une pièce (pile ou face) Ex.: survie d un arbre paramètre : p X {0, 1} Pr(X = 1) = p (0 < p < 1) E(X) = p Var(X) = p(1 p) Pr(X = x) 0.0 0.2 0.4 0.6 0.5 0.0 0.5 1.0 1.5 x Nicolas Picard (CIRAD / IRET) December 1, 2011 34 / 106
Loi binomiale (B) Lois discrètes Ex.: nombre d arbres morts paramètres : n et p somme de n variables indépendantes et identiquement distribuées (i.i.d) Bernoulli(p) X {0, 1,..., n} Pr(X = k) = C k np k (1 p) n k E(X) = np Var(X) = np(1 p) propriété d additivité : X B(n, p) Y B(m, p) X et Y indépendantes : X + Y B(n + m, p) Nicolas Picard (CIRAD / IRET) December 1, 2011 35 / 106
Loi binomiale (B) (suite) Pr(X = x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 n = 10 p = 0.05 Pr(X = x) 0.0 0.1 0.2 0.3 0.4 n = 10 p = 0.1 Pr(X = x) 0.00 0.10 0.20 0.30 0 2 4 6 8 10 x n = 10 p = 0.2 0 2 4 6 8 10 x Pr(X = x) 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 x n = 10 p = 0.5 0 2 4 6 8 10 x Nicolas Picard (CIRAD / IRET) December 1, 2011 36 / 106
Loi de Poisson (P) Lois discrètes paramètre : µ X N Pr(X = k) = exp( µ) µk k! E(X) = Var(X) = µ Loi de référence pour les variables de comptage Si E(X) < Var(X), sous-dispersion Si E(X) > Var(X), sur-dispersion propriété d additivité : X P(µ) Y P(λ) X et Y indépendantes : X + Y P(λ + µ) Nicolas Picard (CIRAD / IRET) December 1, 2011 37 / 106
Loi de Poisson (P) (suite) Pr(X = x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 µ = 0.5 Pr(X = x) 0.00 0.10 0.20 0.30 µ = 1.5 0 2 4 6 8 10 0 2 4 6 8 10 x x Pr(X = x) 0.00 0.05 0.10 0.15 0.20 µ = 3 0 2 4 6 8 10 x Pr(X = x) 0.00 0.05 0.10 0.15 µ = 5 0 2 4 6 8 10 x Nicolas Picard (CIRAD / IRET) December 1, 2011 38 / 106
Origines de la loi de Poisson 1 Limite d une loi binomiale : soit un événement A de probabilité p très faible (< 0.1) que l on essaie d obtenir quelques fois en répétant l expérience un grande nombre de fois (n > 50). Le nombre de réalisations de A suit une loi binomiale B(n, p) avec : B(n, p) P(np) 2 Processus temporel de Poisson : temps d attente indépendants la loi du nombre d événements arrivant dans l intervalle {t; t + T } ne dépend que de T deux événements ne peuvent pas arriver simultanément Alors le nombre d événements suit une loi de Poisson 3 Processus spatial de Poisson Nicolas Picard (CIRAD / IRET) December 1, 2011 39 / 106
Autres loi discrètes loi géométrique loi hypergéométrique loi de Pascal loi binomiale négative etc. (N.ML. Johnson, A.W. Kemp & S. Kotz, 2005, Univariate Discrete Distributions, 3 e édition, John Wiley & Sons, New York, 646 p.) Nicolas Picard (CIRAD / IRET) December 1, 2011 40 / 106
Loi uniforme Lois continues paramètre : a et b X [a, b] f(x) = 1/(b a) pour x [a, b], 0 sinon F (x) = (x a)/(b a) pour x [a, b] E(X) = (a + b)/2 Var(X) = (b a) 2 /12 1 b a f(x) a b x Nicolas Picard (CIRAD / IRET) December 1, 2011 41 / 106
Loi exponentielle Lois continues µ paramètre : µ X > 0 f(x) = µ exp( µx) pour x > 0, 0 sinon F (x) = 1 exp( µx) pour x > 0 E(X) = 1/λ Var(X) = 1/λ 2 f(x) Nicolas Picard (CIRAD / IRET) December 1, 2011 42 / 106 x
Loi de Laplace-Gauss (N ) Lois continues aussi appelée «loi normale» paramètre : m et σ X R f(x) [ x) = 1 σ 2π exp 1 2 ( ) ] x m 2 σ E(X) = m Var(X) = σ 2 m 3σ m 2σ m σ m x m + σ m + 2σ m + 3σ Nicolas Picard (CIRAD / IRET) December 1, 2011 43 / 106
Quelques propriétés de la loi normale quantiles à 95 % : Pr(m 1.96σ < X < m + 1.96σ) = 0.95 propriété d additivité : X N (m, σ) Y N (p, τ) X et Y indépendantes : X + Y N (m + p, σ + τ) convergence de la loi de Poisson vers la loi normale : X P(µ) X µ µ N (0, 1) µ Nicolas Picard (CIRAD / IRET) December 1, 2011 44 / 106
Théorème central-limite il justifie le rôle central de la loi normale (X n ) suite de variables aléatoires i.i.d d espérance µ et d écart-type σ ( ) 1 X1 + X 2 +... + X n nµ N (0, 1) n σ n Nicolas Picard (CIRAD / IRET) December 1, 2011 45 / 106
Loi du chi-deux (χ 2 ) Lois continues Définition : U 1, U 2,..., U p i.i.d N (0, 1) p i=1 U 2 i χ 2 p paramètre : p N X > 0 E(X) = p Var(X) = 2p f(x) 0.0 0.1 0.2 0.3 0.4 0.5 1 2 3 4 5678910 15 20 25 30 40 50 0 10 20 30 40 50 60 70 x Nicolas Picard (CIRAD / IRET) December 1, 2011 46 / 106
Loi de Fisher-Snedecor (F ) Lois continues Définition : X χ 2 n Y χ 2 p X et Y indépendants paramètre : n et p X/n Y/p F (n, p) Nicolas Picard (CIRAD / IRET) December 1, 2011 47 / 106
Loi de Student (T ) Lois continues Définition : U N (0, 1) X χ 2 n X et U indépendants U X/n T (n) paramètre : n E(X) = 0 (n > 1) f(x) 0.0 0.1 0.2 0.3 0.4 Var(X) = n/(n 2) (n > 2) 4 2 0 2 4 x n = 1 n = 2 n = 5 n = 10 n = 50 Nicolas Picard (CIRAD / IRET) December 1, 2011 48 / 106
Autres lois continues loi gamma loi bêta (type I, type II) loi de l arc sinus loi log-normale loi de Weibull loi Cauchy loi de Gumbel loi du T 2 de Hotelling loi du Λ de Wilks Etc. (N.L. Johnson & S. Kotz, 1970, Distributions in Statistics: Continuous Univariate Distributions, vol.1, John Wiley & Sons, New York, 300 p.) Nicolas Picard (CIRAD / IRET) December 1, 2011 49 / 106
Loi multinomiale (M) Loi multivariée discrète Généralise la loi binomiale à k modalités Définition : soit X variable modale à k modalités soit p i la probabilité de tirer la modalité i on fait n tirages indépendants de X soit Ni le nombre de fois où l on a tiré la i e modalité (N 1, N 2,..., N k ) M(n, p 1, p 2,..., p k ) Loi : Pr(N 1 = n 1,..., N k = n k ) = n! n 1!n 2!... n k! pn 1 1 pn 2 2... pn k k Nicolas Picard (CIRAD / IRET) December 1, 2011 50 / 106
Loi multinomiale (suite) Espérance : E(N 1, N 2,..., N k ) = (np 1, np 2,..., np k ) Résultat à la base du test du χ 2 : k (N i np i ) 2 χ 2 np i n k 1 i=1 Nicolas Picard (CIRAD / IRET) December 1, 2011 51 / 106
Loi multinormale Loi multivariée continue Définition : X est un vecteur gaussien à p dimensions si toute combinaison linéaire de ses composantes suit une loi de Laplace-Gauss densité de probabilité : ( 1 f(x 1, x 2,..., x p ) = (2π) p/2 detσ exp 1 ) t (x m)σ 1 (x m) 2 avec m = espérance du vecteur et Σ = matrice de variance-covariance Nicolas Picard (CIRAD / IRET) December 1, 2011 52 / 106
f(x,y) f(x,y) Loi multinormale (suite) y y x x 3 2 1 0 1 2 3 3 2 1 0 1 2 3 y y 3 2 1 0 1 2 3 x 3 2 1 0 1 2 3 x Nicolas Picard (CIRAD / IRET) December 1, 2011 53 / 106
Autres lois multivariées loi de Wishart Etc. (N.L. Johnson & S. Kotz (1972) Distributions in Statistics: Continuous Multivariate Distributions, vol.2, John Wiley & Sons, New York) Nicolas Picard (CIRAD / IRET) December 1, 2011 54 / 106
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 55 / 106
Présentation des données : variable numérique discrète Variable prenant des valeurs entières (plus rarement décimales) Nombre de valeurs distinctes assez faibles ( 20) Exemple : nombre de semis d une essence dans 48 placeaux 24 19 13 0 26 16 0 0 0 13 15 0 0 9 12 10 11 13 22 18 8 0 0 0 13 0 0 7 19 0 0 19 0 0 0 11 19 9 0 19 0 11 17 10 0 16 15 0 Nicolas Picard (CIRAD / IRET) December 1, 2011 56 / 106
Présentation des données : tableau statistique Variable numérique discrète 1 ère colonne : observations distinctes rangées par ordre croissant 2 e colonne : effectif 3 e colonne : effectif cumulé 4 e colonne : fréquence 5 e colonne : fréquence cumulée x n N f F 0 20 20 41.7 41.7 7 1 21 2.1 43.8 8 1 22 2.1 45.8 9 2 24 4.2 50.0 10 2 26 4.2 54.2 11 3 29 6.2 60.4 12 1 30 2.1 62.5 13 4 34 8.3 70.8 15 2 36 4.2 75.0 16 2 38 4.2 79.2 17 1 39 2.1 81.2 18 1 40 2.1 83.3 19 5 45 10.4 93.8 22 1 46 2.1 95.8 24 1 47 2.1 97.9 26 1 48 2.1 100.0 Nicolas Picard (CIRAD / IRET) December 1, 2011 57 / 106
Présentation des données : «stem-and-leaf» Variable numérique discrète «tige» : chiffre des dizaines «feuille» : chiffre des unités 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 8 9 9 1 0 0 1 1 1 2 3 3 3 3 1 5 5 6 6 7 8 9 9 9 9 9 2 2 4 2 6 Nicolas Picard (CIRAD / IRET) December 1, 2011 58 / 106
Présentation des données : variable qualitative Tableau statistique Exemple : répartition de la population active selon la catégorie socioprofessionnelle (France, 1988) CSP effectif fréquence agriculteurs 1312 6.1 artisans, commerçants 1739 8.1 cadres 2267 10.6 professions intermédiaires 4327 20.1 employés 5815 27.0 ouvriers 6049 28.1 Nicolas Picard (CIRAD / IRET) December 1, 2011 59 / 106
Présentation des données : variable quantitative continue Découpage en classes Tableau statistique sur les classes Exemple : diamètres de 255 sapelli (Entandrophragma cylindricum) avec D 10 cm classe effectif fréquence [10, 20) 145 56.9 [20, 30) 23 9.0 [30, 40) 13 5.1 [40, 50) 1 0.4 [50, 60) 4 1.6 [60, ) 69 27.1 Nicolas Picard (CIRAD / IRET) December 1, 2011 60 / 106
Représentation graphique : diagramme en bâtons Variable quantitative discrète Exemple du nombre de semis dans 48 placeaux Effectif 5 10 15 20 0 5 10 15 20 25 Nombre de semis Nicolas Picard (CIRAD / IRET) December 1, 2011 61 / 106
Représentation graphique : diagramme cumulatif Variable quantitative discrète Exemple du nombre de semis dans 48 placeaux Effectif cumulé 0 10 20 30 40 0 5 10 15 20 25 30 Nombre de semis Nicolas Picard (CIRAD / IRET) December 1, 2011 62 / 106
Représentation graphique : diagramme en colonnes Variable qualitative Exemple des catégories socioprofessionnelles Effectif 0 2000 4000 6000 agriculteurs artisans... cadres profs. interm. employés ouvriers Nicolas Picard (CIRAD / IRET) December 1, 2011 63 / 106
Représentation graphique : diagramme en barre Variable qualitative Exemple des catégories socioprofessionnelles Effectif cumulé 0 5000 15000 agriculteurs artisans... cadres profs. interm. employés ouvriers Nicolas Picard (CIRAD / IRET) December 1, 2011 64 / 106
Représentation graphique : diagramme en secteurs Variable qualitative Exemple des catégories socioprofessionnelles profs. interm. cadres artisans... agriculteurs employés ouvriers Nicolas Picard (CIRAD / IRET) December 1, 2011 65 / 106
Représentation graphique : courbe cumulative Variable quantitative continue Exemple des diamètres de sapelli Fréquence cumulée 0.0 0.2 0.4 0.6 0.8 1.0 50 100 150 Diamètre (cm) Nicolas Picard (CIRAD / IRET) December 1, 2011 66 / 106
Représentation graphique : histogramme Variable quantitative continue Exemple des diamètres de sapelli Effectif 0 50 100 150 0 50 100 150 Diamètre (cm) Nicolas Picard (CIRAD / IRET) December 1, 2011 67 / 106
Représentation graphique : histogramme (suite) Variable quantitative continue Exemple des diamètres de sapelli Densité de fréquence 0.00 0.04 0.08 50 100 150 Diamètre (cm) Nicolas Picard (CIRAD / IRET) December 1, 2011 68 / 106
Représentation graphique : courbe de densité Variable quantitative continue Exemple des diamètres de sapelli Densité 0.000 0.010 0.020 0 50 100 150 200 N = 255 Bandwidth = 11.29 Nicolas Picard (CIRAD / IRET) December 1, 2011 69 / 106
Représentation graphique : boîte à moustaches Variable quantitative continue Exemple des diamètres de sapelli Diamètre (cm) 50 100 150 Nicolas Picard (CIRAD / IRET) December 1, 2011 70 / 106
Résumés numériques Variable quantitative continue une variable : moyenne écart-type coefficient de variation quartiles et médiane deux variables : corrélation... n variables : matrice des corrélations... Nicolas Picard (CIRAD / IRET) December 1, 2011 71 / 106
La moyenne empirique Moyenne arithmétique : x = 1 n (x 1 + x 2 +... + x n ) Il existe d autres moyennes : moyenne géométrique : n x 1... x n certains indices économiques moyenne quadratique : (x 2 1 +... + x2 n)/n diamètre équivalent 1 moyenne harmonique : ( ) 1 1 n x 1 +... + 1 x n Nicolas Picard (CIRAD / IRET) December 1, 2011 72 / 106
La médiane empirique x 1 < x 2 <... < x n m = x (n+1)/2 ou x n/2 + x n/2+1 2 Nicolas Picard (CIRAD / IRET) December 1, 2011 73 / 106
Le quantile empirique α x 1 < x 2 <... < x n Exemple : quantile à 95 % x m tel que m n = α Nicolas Picard (CIRAD / IRET) December 1, 2011 74 / 106
L écart-type empirique Variance empirique : s 2 = 1 n Écart-type empirique : s = s 2 n (x i x) 2 i=1 Nicolas Picard (CIRAD / IRET) December 1, 2011 75 / 106
Cas de la loi normale Relation entre moyenne (m), écart-type (σ) et quantiles : 95 % des observations sont comprises entre m 1.96σ et m + 1.96σ Nicolas Picard (CIRAD / IRET) December 1, 2011 76 / 106
Limites de l écart-type Valeur relative et absolue Un écart-type de 500 g pour la masse n a pas la même signification selon la taille de l animal : Nicolas Picard (CIRAD / IRET) December 1, 2011 77 / 106
Le coefficient de variation CV = s x Nicolas Picard (CIRAD / IRET) December 1, 2011 78 / 106
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 79 / 106
Liaison entre deux variables quantitatives Méthode graphique Nuage de points : une des variables sur l axe des x l autre sur l axe des y Nicolas Picard (CIRAD / IRET) December 1, 2011 80 / 106
Coefficient de corrélation linéaire Définition : Estimation : Ĉov(X, Y ) = 1 n ρ = Cov(X, Y ) σ X σ Y n (X i X)(Y i Ȳ ) i=1 Remarque : Cov(X, X) = 1 n n (X i X) 2 = Var(X) = SX 2 i=1 donc ρ(x, X) = 1 Nicolas Picard (CIRAD / IRET) December 1, 2011 81 / 106
Coefficient de corrélation linéaire (suite) Le coefficient de corrélation linéaire est aussi : la racine carrée du coefficient de détermination de la régression linéaire de Y par rapport à X le pourcentage de variance expliquée par cette régression linéaire Nicolas Picard (CIRAD / IRET) December 1, 2011 82 / 106
Il quantifie la «force» de la relation linéaire et varie entre 1 et 1 Y 2 1 0 1 2 R = 0 Y 2 1 0 1 2 R = 0.3 Y 2 1 0 1 2 R = 0.5 2 1 0 1 2 3 2 1 0 1 2 2 1 0 1 2 3 X X X Y 2 1 0 1 2 R = 0.7 Y 2 1 0 1 2 R = 0.9 Y 2 1 0 1 2 R = 0.7 2 1 0 1 2 3 2 1 0 1 2 2 1 0 1 2 Nicolas Picard (CIRAD X / IRET) X December 1, 2011 X 83 / 106
Les pièges du coefficient de corrélation linéaire ρ = 0.77 ρ = 0.66 ρ = 0.8 ρ = 0.76 Nicolas Picard (CIRAD / IRET) December 1, 2011 84 / 106
Réchauffement climatique Corrélation positive... Nicolas Picard (CIRAD / IRET) December 1, 2011 85 / 106
Réchauffement climatique... ou corrélation négative? Nicolas Picard (CIRAD / IRET) December 1, 2011 86 / 106
Liaison entre deux variables ordinales Coefficient de corrélation des rangs τ de Kendall : k = 1 si X i < X j et Y i < Y j, ou si X i > X j et Y i > Y j k = 1 sinon S = k sur les n(n 1)/2 couples 2S τ = n(n 1) Nicolas Picard (CIRAD / IRET) December 1, 2011 87 / 106
Liaison entre une variable quantitative et une variable qualitative Rapport de corrélation : η 2 = Var[E(Y X)] Var(Y ) C est aussi : la racine carrée du coefficient de détermination de l analyse de variance de Y par rapport à X le coefficient de corrélation multiple de Y par rapport aux variables indicatrices des modalités de X la racine carrée du coefficient de détermination de la régression multiple de Y par rapport à ces variables indicatrices Nicolas Picard (CIRAD / IRET) December 1, 2011 88 / 106
Liaison entre une variable quantitative et une variable qualitative Représentation graphique Boîtes parallèles : une boîte à moustache de la variable quantitative par modalité de la variable qualitative Valeurs 2 0 2 4 6 8 a b c d e f Modalités Nicolas Picard (CIRAD / IRET) December 1, 2011 89 / 106
Liaison entre deux variables qualitatives Coefficient de corrélation canonique : c est la valeur maximale (autre que 1) du coefficient de corrélation linéaire entre une combinaison linéaire des variables indicatrices des modalités de X et une combinaison linéaire des variables indicatrices des modalités de Y C est aussi la première valeur propre (autre que 1) de l analyse canonique des tableaux disjonctifs complets formés à partir de X et Y Nicolas Picard (CIRAD / IRET) December 1, 2011 90 / 106
Liaison entre deux variables qualitatives Statistique du χ 2 sur table de contingence Y j. X i n ij n i. X 2 = i. n.j n ( n ij n i.n.j n n i. n.j j n ) 2 Nicolas Picard (CIRAD / IRET) December 1, 2011 91 / 106
Liaison entre deux variables qualitatives Représentation graphique Diagramme en barres : un diagramme pour l une des variables par modalité de l autre variable Exemple : durée d obtention du DEUG en fonction de l âge d obtention du bac Effectif 0 100 200 300 400 Fréquence 0.0 0.2 0.4 0.6 0.8 1. Durée d obtention du DEUG 2 ans 3 ans 4 ans <18 18 19 >19 Âge d obtention du bac (ans) moy. 18 19 >19 Âge d obtention du bac (ans) Nicolas Picard (CIRAD / IRET) December 1, 2011 92 / 106
Liaison entre n variables Liaison deux à deux : matrice des corrélations graphiques j L absence de liaisons 2 à 2 ne signifie pas qu il n y a pas de liaisons entre 3, 4... variables j Contre-exemple : (X, Y, Z) avec X loi uniforme dans { 1, 1} Y loi uniforme dans { 1, 1} indépendamment de X Z = X Y Nicolas Picard (CIRAD / IRET) December 1, 2011 93 / 106
Exemple : les iris de Fisher Nicolas Picard (CIRAD / IRET) December 1, 2011 94 / 106
Relation entre n variables : tableau des nuages de points Exemple des iris : 2.0 3.0 4.0 0.5 1.5 2.5 Sepal.Length 4.5 5.5 6.5 7.5 2.0 3.0 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 0.5 1.5 2.5 Petal.Width 4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 Nicolas Picard (CIRAD / IRET) December 1, 2011 95 / 106
Panorama des statistiques et rappels 1 Panorama 2 Rappels de probabilités 3 Lois usuelles 4 Statistiques descriptives : cas unidimensionnel 5 Statistiques descriptives : cas multidimensionnel 6 Conclusion Nicolas Picard (CIRAD / IRET) December 1, 2011 96 / 106
Démarche Question scientifique Quelle méthode? Quel dispositif de mesure? Acquisition, puis structuration des données Analyses exploratoires Analyse pour répondre à la question Nicolas Picard (CIRAD / IRET) December 1, 2011 97 / 106
Quelle méthode? Quel dispositif de mesure? Estimer Exemple de la moyenne d une population gaussienne quelle taille d échantillon? Tester Exemple de la comparaison des moyennes de deux populations gaussiennes Liaisons Nicolas Picard (CIRAD / IRET) December 1, 2011 98 / 106