Analyse de données Licence Pro Amélioration Végétale Marc Bailly-Bechet Université Claude Bernard Lyon I France marc.bailly-bechet@univ-lyon1.fr 1 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Des stats pour faire quoi? Table des matières 1 Des stats pour faire quoi? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions 2 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Des stats pour faire quoi? Organisation des enseignements d analyse de données 3 cours théoriques de 1h30. 16h de TP sur ordinateur. 3 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Des stats pour faire quoi? Pourquoi faire des statistiques en biologie? Variabilité : Une expérience en biologie donne rarement un résultat tranché ou parfaitement reproductible. Quantité : Les nouvelles technologies biologiques permettent de recueillir des quantités pharamineuses de données. 4 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Des stats pour faire quoi? Les statistiques vues de loin Population Échantillon p, µ, σ 2 n individus tirés aléatoirement Tests, estimation n, x, s2 Statistique inférentielle Statistiques descriptives k 5 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Variables aléatoires et lois de probabilité Table des matières 1 Des stats pour faire quoi? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions 6 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Variables aléatoires et lois de probabilité Loi binomiale La loi binomiale est la loi de probabilité décrivant le nombre de réussites parmi un ensemble de tirages aléatoires et indépendants. Elle se note B(n, p) avec n le nombre de tirages et p la probabilité de réussite à chaque tirage. Probabilité 0.0 n=100 0 5 10 20 25 30 40 Nombre de succès p = 0.01 p = 0.05 p = p = 5 7 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Variables aléatoires et lois de probabilité Loi de Poisson La loi de Poisson (de Siméon Denis Poisson, 1781-1840) est la loi de probabilité décrivant le nombre d évenements aléatoires et indépendants arrivant dans le même intervalle de temps ou d espace. Elle se note P(λ) avec λ l espérance et la variance de la loi. Probabilité 0.0 0 1 2 5 10 15 20 Nombre d'évenements λ = 1 λ = 2 λ = 5 λ = 10 8 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Variables aléatoires et lois de probabilité Probabilité absolue Pas de 10 cm Pas de 5 cm a<p(x)<b a<p(x)<b 0 0 120 160 200 120 160 200 Taille Taille Pas de 1 cm Pas de cm a<p(x)<b a<p(x)<b 0 0 120 160 200 120 160 200 9 marc.bailly-bechet@univ-lyon1.fr Taille Analyse de données Taille
Variables aléatoires et lois de probabilité Densité de probabilité Densité Densité 0.04 0.03 0.02 0.01 0.00 0.04 0.03 0.02 0.01 0.00 Pas de 10 cm 120 160 200 Taille Pas de 1 cm 120 160 200 Densité Densité 0.04 0.03 0.02 0.01 0.00 0.04 0.03 0.02 0.01 0.00 Pas de 5 cm 120 160 200 Taille Limite continue 120 160 200 10 marc.bailly-bechet@univ-lyon1.fr Taille Analyse de données Taille
Variables aléatoires et lois de probabilité Loi normale La loi normale est la loi de probabilité des variables aléatoires continues dépendantes d un grand nombre de causes indépendantes et additives. Elle se note N (µ, σ) avec µ l espérance de la loi et σ l écart-type. Densité de probabilité 0.0 µ=5 2 0 2 4 6 8 10 12 Valeur obtenue σ = 1 σ = 2 σ = 5 σ = 20 11 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Table des matières 1 Des stats pour faire quoi? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions 12 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Variable discrète Le balanin est un parasite de la châtaigne. Nb. de parasites x i 0 1 2 3 4 5 6 et plus Nombre de fruits n i 1043 172 78 15 10 7 4 ayant x i parasites Fréquence f i 0.785 29 0.059 0.011 0.007 0.005 0.004 Fréquence cumulée 0.785 0.914 0.973 0.984 0.991 0.996 1 i j=1 f j 13 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Variable continue On observe la concentration en glucose dans plusieurs mangues. Concentration (g.l 1 ) Nb de mangues Fréquence Fréquence cumulée n X n i i j N j=1 f j [135, 150[ 7 13 13 [150, 165[ 10 61 74 [165, 180[ 23 71 0.645 [180, 195[ 14 26 0.871 [195, 210[ 5 0.080 0.951 [210, 225[ 3 0.049 1 14 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Moyenne observée sur des données groupées On veut la moyenne du taux de glucose dans le mélange final de nos 4 types de mangues : Concentration (g.l 1 ) Moyenne Nb de mangues X xj n j [135, 165[ 150 17 [165, 180[ 172.5 23 [180, 195[ 187.5 14 [195, 225[ 210 8 x = 1 62 (150 17 + 172.5 23 +...) = 10822.5 62 = 174.56 g.l 1 15 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Différence entre médiane et moyenne Revenu mensuel moyen des ménages en France : 2474 euros Revenu mensuel médian des ménages en France : 1514 euros 16 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Différence entre médiane et moyenne Revenu mensuel moyen des ménages en France : 2474 euros Revenu mensuel médian des ménages en France : 1514 euros Moyenne Médiane Densité de probabilité 0.00000 0.00010 0.00020 0 2000 4000 6000 8000 10000 Revenu mensuel des ménages 16 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Les mangues sont à la mode On observe la concentration en glucose dans plusieurs mangues. Nombre de mangues 20 15 10 5 0 140 160 180 200 220 Concentration en glucose (g/l) 17 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Variance et écart-type observés, données groupées La variance sur des données groupées se calcule ainsi : Concentration (g.l 1 ) Moyenne Nb de mangues X xj n j [135, 165[ 150 17 [165, 180[ 172.5 23 [180, 195[ 187.5 14 [195, 225[ 210 8 x = 174.56 g.l 1 s 2 = 1 ( 17 150 2 + 23 172.5 2 +... ) 174.56 2 62 = 365.60 s = 365.60 = 19.12 g.l 1 18 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Loi de la moyenne de n v.a., n grand Fréquence 0.0 0.8 Fréquence 0 1 2 3 4 5 0.0 0.6 0.8 1.0 n=1 0.0 0.6 0.8 1.0 n=20 Fréquence 0 2 4 6 8 10 Fréquence 0 10 20 30 40 0.0 0.6 0.8 1.0 n=100 0.0 0.6 0.8 1.0 n=1000 19 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Distribution d échantillonnage d une moyenne observée Densité de probabilité 0.0 µ Moyenne observée de l'échantillon 20 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale P(µ C α < x < µ + C α ) = 1 α Densité de probabilité 0.0 α 2 α 2 µ C α µ µ + C α Moyenne observée de l'échantillon 21 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0 P(µ C 0 < x < µ + C 0 ) = 0.80 Densité de probabilité 0.0 µ C µ µ + C Moyenne observée de l'échantillon 22 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0.05 P(µ C 0.05 < x < µ + C 0.05 ) = 0.95 Densité de probabilité 0.0 0.025 0.025 µ C 0.05 µ µ + C 0.05 Moyenne observée de l'échantillon 23 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale, α = 0.001 P(µ C 0.001 < x < µ + C 0.001 ) = 0.999 Densité de probabilité 0.0 5e 04 5e 04 µ C 0.001 µ µ + C 0.001 Moyenne observée de l'échantillon 24 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Statistiques descriptives, estimation et intervalles de confiance Quantiles de la loi normale centrée réduite Densité de probabilité 0.0 3.29 1.96 1.29 0 1.29 1.96 3.29 ε 0.001 ε 0.05 ε 0 ε ε 0.05 ε 0.001 z = x µ σ 2 n 25 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Table des matières 1 Des stats pour faire quoi? 2 Variables aléatoires et lois de probabilité 3 Statistiques descriptives, estimation et intervalles de confiance 4 Tests de comparaison de moyennes et de proportions 26 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Distribution d échantillonnage et moyenne observée Densité de probabilité 0.0 µ 0 x 27 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Distribution d échantillonnage et moyenne observée Densité de probabilité Risque α 0 0.05 0.001 0.0 µ 0 x 28 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H 0 H 1 Densité de probabilité 0.0 4 2 0 2 4 6 x µ σ 2 n 29 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H 0 H 1 Densité de probabilité α 2 α 2 0.0 4 2 0 2 4 6 x µ σ 2 n 30 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Risque de deuxième espèce H 0 H 1 Densité de probabilité α 2 β α 2 0.0 4 2 0 2 4 6 x µ σ 2 n 31 marc.bailly-bechet@univ-lyon1.fr Analyse de données
Tests de comparaison de moyennes et de proportions Test unilatéral, α = 5% H 1 : µ µ 0 H 1 : µ > µ 0 Densité de probabilité 0.0 α 2 α 2 0.0 α 4 2 0 2 4 ε 0.05 = 1.96 4 2 0 2 4 ε = 1.645 32 marc.bailly-bechet@univ-lyon1.fr Analyse de données