Statistiques descriptive-ajustement linéaire (S3 année spéciale) Enoncés des exercices Université Paul Sabatier - Toulouse 3 IUT de Toulouse 3 A Département GEA PONSAN Clement Rau clement.rau@iut-tlse3.fr
1 Statistiques descriptives Exercice 1 Soit la liste suivante des prénoms d un groupe d étudiants suivis entre parenthèses d une indication du nombre de livres lus dans l année (A = peu, B = moyen, C = beaucoup, D = exceptionnel) : Pierre (C), Paul (C), Jacques (A), Ralph (B), Abdel (A), Sidonie (B), Henri (C), Paulette (B), Farida (B), Laure (C), Kevin (D), Carole (B), Marie-Claire (A), Jeanine (C), Julie (C), Ernest (C), Cindy (C), Vanessa (D), José (C), Aurélien (C). 1. Construisez le tableau représentatif de cette distribution. La modalité étudiée est elle qualitative? ordinal? 2. Représentez cette distribution à l aide d un histogramme. Exercice 2 Un organisme de sondage a relevé les salaires mensuels d un échantillon de 28 personnes. Les valeurs sont les suivantes (en euros) présentées par ordre croissant : 183, 191, 191, 248, 260, 277, 282, 290, 297, 297, 324, 335, 338, 346, 421, 432, 502, 563, 569, 570, 595, 622, 625, 747, 788, 861, 954, 989. 1. Représenter l histogramme. Donner la moyenne, la médiane et le mode de cette série. Quels en sont les quartiles? 2. Calculer l écart moyen et l écart type de cette distribution. 3. Retrouver le mode et la médiane en ne se basant que sur l histogramme, c est-à-dire en estimant ces paramètres que sur des bases graphiques. Exercice 3 L étude du taux de cholestérol sur un échantillon de 100 personnes a donné les résultats suivants : Taux de Cholestérol (gr/l) effectif [1.2; 1.4[ 6 [1.4; 1.6[ 13 [1.6; 1.8[ 16 [1.8; 2.0[ 22 [2.0; 2.2[ 18 [2.2; 2.4[ 10 [2.4; 2.6[ 6 [2.6; 2.8[ 4 [2.8; 3.0[ 3 [3.0; 3.2[ 2 1. Tracer l histogramme. 2. Tracer la courbe de fréquences cumulées. 3. Déterminer le mode et la moyenne de cette distribution. 4. Déterminer la médiane, le 1er et le 3 eme quartiles, graphiquement et par le calcul. Exercice 4 suivant : Les pesées de 48 nouveaux nés dans une maternité ont permis d etablir le tableau 2
Classe (en Kg) Centre de classe effectif [2, 0; 2.4[ 2,2 6 [2.4; 2, 8[ 2,6 10 [2, 8; 3, 2[ 3,0 18 [3, 2; 3, 6[ 3,4 10 [3, 6; 4, 0[ 3,8 4 On suppose que dans chaque classe, les poids sont uniformément répartis entre les Nouveaux nés correspondants. 1. Donner une valeur approchée de la moyenne et de l écart type du poids d un nouveau nés. 2. Déterminer le mode de cette distribution. 3. Calculer les premier, second et troisième quartiles. 4. Retrouver ces résultats à partir du diagramme des fréquences cumulées. Exercice 5 On considère 2 séries de notes attribuées à 2 groupes d élèves G1 et G2 ayant eu à traiter un même sujet d examen. Voici les résultats obtenus : G1 4, 5, 6, 6, 8, 8, 8, 8, 10, 10, 11, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 13, 14, 16, 17. G2 0, 1, 2, 2, 3, 3, 3, 4, 4, 5, 6, 8, 12, 12, 13, 13, 13, 13, 13, 14, 14, 15, 16, 16, 17, 17, 18, 19, 19, 20. 1. Organiser les valeurs ci-dessus sous forme de 2 séries statistiques S1 et S2 dont la variable X est la note obtenue par un élève. 2. Représenter ces deux séries sur une même graphique. Quelles informations peut on en tirer? 3. Comparer les moyennes et les écarts types de ces deux séries. Quelles conclusions peut on tirer de ces résultats? 4. On ajoute 2 points à toutes les notes. Comment sont transformées les moyennes et les écarts types de chaque groupe? 5. On multiplie chaque note par 0,75 puis on ajoute 5 points. Comment sont transformées les moyennes et les écarts types de chaque groupe? 6. Représenter les boites de dispersion des 2 séries. Exercice 6 On considére la série X suivante : Caractère 3 4 9 15 Effectif 11 19 20 50 Tracer la fonction de répartition de X. Exercice 7 Dans deux villes, notées A et B, on a sélectionné un échantillon de 1000 personnes à qui on a demandé combien de cigarettes ils fumaient par jour. On obtient les deux diagrammes en boite suivants : 3
1. Combien valent M e, Q 1 et Q 3 pour les villes A et B? 2. Quelle ville est la plus consommatrice de cigarettes? 3. Vrai ou faux? Le quart de la population de la ville A fume plus de 3 cigarettes par jour. 4. Vrai ou faux? Plus de la moitié des habitants de la ville B fume moins de 14 cigarettes par jour. 2 Ajustement linéaire Exercice 1 On étudie la capacité d oxygénation d un milieu dans un fermenteur. Soit C la concentration de dioxygène dans ce milieu à l instant t. Soit C M la concentration maximale en dioxygène que l on peut obtenir dans ce milieu. C et C M s expriment en g/l. Un appareil mesure, toutes les trente secondes, le rapport, pourcentage de saturation en dioxygène. Les résultats sont rassemblés dans le tableau ci-dessous : Temps t i (en secondes) 0 30 60 90 120 150 180 210 x i = C/C M 0,180 0,392 0,569 0,690 0,784 0,838 0,879 0,908 1. Représenter le nuage de points de coordonnées (t i ; x i ), ainsi que la droite des moindres carrés de x en t. Préciser le coefficient de corrélation linéaire entre x et t. 2. On pose y = ln(1 x). Calculer les valeurs de y i arrondies au dix millième le plus proche et représenter le nuage de points de coordonnées (t i ; y i ), ainsi que la droite des moindres carrés de y en t. Préciser le coefficient de corrélation linéaire entre y et t. 3. En s appuyant sur les questions précédentes, déterminer la formule la mieux adaptée pour exprimer x en fonction de t? 4. Grâce à la formule obtenue au 3), déterminer x lorsque t=220, t=240, t=250. 5. Toujours en utilisant la formule du 3), déterminer le temps t au bout duquel x=0,99. Exercice 2 On a trouvé des coefficients de corrélation élevés (positifs ou négatifs) entre les variables suivantes : 1. âge du mari et âge de la femme au moment du mariage, 2. nombre d abonnés au téléphone dans le département de la Seine et nombre d étudiants inscrits à la Faculté de Droit de Paris, 3. consommation de tabac et cancer des poumons, 4. prix de la bière et consommation de la bière. Dans quels cas, selon vous, une corrélation élevée est-elle le signe d une relation causale? Exercice 3 Sur une série de 20 personnes appartenant à une même tranche d âge, on a étudié les caractères t, taille en mètres et p, pointure des chaussures ( en points de Paris). Les résultats obtenus sont les suivants : p i t i = 1455, 18 ; t i = 34, 28 ; t 2 i = 58, 8614 p i = 848 p 2 i = 35996. 4
1. Déterminer le coefficient de corrélation linéaire entre t et p. Conclusion? 2. Déterminer une équation de la droite de régression des moindres carrés de p en t. 3. Estimer p lorsque t=1,75. Exercice 4 Une entreprise livre des produits conditionnés en colis cartonnés. On a observé l évolution du nombre de colis livrés par l entreprise entre 1989 et 1996 : Année Rang de l année x i Nombre de colis q i 1997 1 7332 1998 2 8249 1999 3 8838 2000 4 9280 2001 5 9639 2002 6 9943 2003 7 10187 2004 8 10402 1. Représenter le nuage de points M(x i ; q i ) et la courbe d ajustement qui semble la mieux adaptée. 2. On pose y i = ln(x i ) et z i = ln(q i ), où ln désigne le logarithme népérien. Déterminer les valeurs de y i et z i. Représenter le nuage de points M(y i ; z i ) et la courbe d ajustement qui semble la mieux adaptée. 3. Calculer les coefficients de corrélation linéaire entre x i et q i, puis entre y i et z i. Que peut on déduire des valeurs obtenues? 4. Grâce aux conclusions de 3), déterminer une expression de q en fonction de x. Estimer alors le nombre de colis qui seront livrés par cette entreprise en 1997, en 2050. Commenter ces résultats Exercice 5 Le Pourcentage des personnes âgées (65 ans et plus) de la population française entre 1960 et 1980 est donnée dans le tableau suivant : Année 1960 1965 1970 1975 1980 Pourcentage 11,6 12 12,8 13,4 14,1 1. Représenter le nuage de points. (mettre les années en abscisse!) 2. Justifier l opportunité d un ajustement linéaire par le calcul du coefficient de corrélation. 3. Déterminer une équation de la droite d ajustement de y en t par la méthode des moindres carrés. Tracer cette droite dans le repère. 4. Si l évolution se poursuit de la même façon donner une estimation du pourcentage des personnes âgées en l an 2010. 5. Nous allons essayer de regarder les limites du modèle précédent. (a) Selon ce modèle, est-il possible de ne pas avoir de personnes âgées. Si oui, en quelle année? (b) Selon ce modèle, est-il possible de n avoir que des personnes âgées. Si oui, en quelle année? 5
Exercice 6 Une étude statistique porte sur les poids en kg respectifs des pères p i et ceux de leur fils ainés f i pour i = 1...12. Voilà les résultats numériques que nous avons obtenus : p i = 800, p 2 i = 53418, p i f i = 54107, f i = 811, f 2 i = 54849. 1. Déterminer la droite des moindres carrés du poids des fils en fonction du poids des pères. 2. Déterminer la droite des moindres carrés du poids des pères en fonction du poids des fils 3. En quel point se coupent ces deux droites? Que vaut le produit des pentes des deux droites? Exercice 7 L étude de la décharge d un condensateur a apporté les résultats suivants : T (ms) 0 5 10 15 20 25 30 35 40 45 50 V 5,098 3,618 2,581 2,011 1,486 1,028 0,845 0,573 0,429 0,29 0,2 On suppose que la décroissance est exponentielle et suit la loi V = V 0 e t/τ où τ représente une constante de temps du circuit. 1. Quelle variables faut il placer en abscisse et en ordonnée si l on veut tracer une droite? 2. Compléter le tableau avec les valeurs utiles. 3. Effectuer une régression linéaire sur les valeurs calculées. Conclure. Exercice 8 On veut voir si la tension artérielle Y est corrélée à l age X. Après mesures et calculs on a obtenu les résultats suivants : X = 35 et Ȳ = 13.5, V ar(x) = 4, V ar(y ) = 64, et Cov(X, Y ) = 10. Calculer le coefficient de corrélation linéaire entre X et Y puis conclure. Exercice 9 Une étude théorique de l évolution d une population en extinction conduit à penser que le nombre d individus N de cette population varie avec le temps suivant une loi du type :N(t) = aexp( kt), où a et k sont des constantes strictement positives. On veut déterminer expérimentalement la valeur de la constante k. Pour cela, on observe pendant 8 mois un échantillon composé initialement de 200 individus et on note à la fin de chaque mois le nombre de survivants. Les résultats sont les suivants : t (mois) 1 2 3 4 5 6 7 8 Survivants après le t ieme mois 180 154 140 120 112 97 84 76 1. En déduire une valeur approchée de k ( t est exprimé en mois) 2. graphiquement (représenter ln(n(t)) en fonction de t) 3. par la méthode des moindres carrés. 4. Quel sera à votre avis, le nombre de survivants de cet échantillon Exercice 10 (a) à la fin de l année en cours? (b) à la fin de l année suivante? 6
On donne deux séries chronologiques relative à la grande Bretagne. Années Récepteurs de radio en service Nombre de maladies mentales déclarées X (en centaine de milliers) Y (pour 1000 habitants) 1924 13 8 1925 20 8 1926 23 9 1927 25 10 1928 27 11 1929 31 11 1930 36 12 1931 46 16 1932 55 18 1933 63 19 1934 70 20 1935 76 21 1936 81 22 1937 85 23 1. Calculer le coefficient de corrélation des deux variables x et y. 2. Commenter le résultat obtenu. Peut on induire de ce résultat que l écoute des programmes de radiodiffusion altère la santé mentale des auditeurs? ou que les anglais achètent des récepteurs radio lorsqu ils deviennent fous? Exercice 11 Une méthode pour déterminer le poids moléculaire M de certaines protéines utilise des mesures de la pression osmotique P d une solution de la protéine. Si C est la concentration de la protéine dans la solution(en gramme par litre), la loi de Van t Hoff donne pour des solutions très diluées une formule approchée : P M = RT (1 + AMC), C où T est la température, A une constante (constante d interaction)et R est la constante des gaz parfaits (R= 84,71 dans les unités utilisées). Pour l hémoglobine, des mesures faites par Gutfreud à 3 degrés centigrades (T=276 ) et à différentes concentrations ont donné les résultats suivants : C 6,5 11,1 21,7 29,8 35,2 39 48,9 60,6 80,1 88,9 P 2,5 3,9 8,3 11,2 13,4 14,6 19,6 23,9 34,2 38,7 1. Représenter graphiquement ces données en utilisant les variables C et P/C 2. Déterminer RT/M et la constante d interaction A (a) graphiquement (b) par la méthode des moindre carrés. 3. En déduire le poids moléculaire M de l hémoglobine 7