Cours et Exercices de Probabilités et Statistique descriptive Niveau Licence 1



Documents pareils
Statistique descriptive bidimensionnelle

Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Limites des Suites numériques

Comportement d'une suite

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

SÉRIES STATISTIQUES À DEUX VARIABLES

Séquence 5. La fonction logarithme népérien. Sommaire

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

STATISTIQUE : TESTS D HYPOTHESES

Principes et Méthodes Statistiques

Etude de la fonction ζ de Riemann

1 Mesure et intégrale

Dénombrement. Chapitre Enoncés des exercices

Séries réelles ou complexes

c. Calcul pour une évolution d une proportion entre deux années non consécutives

55 - EXEMPLES D UTILISATION DU TABLEUR.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Solutions particulières d une équation différentielle...

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Cours 5 : ESTIMATION PONCTUELLE

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

CHAPITRE 2 SÉRIES ENTIÈRES

20. Algorithmique & Mathématiques

Baccalauréat S Asie 19 juin 2014 Corrigé

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Processus et martingales en temps continu

Les Nombres Parfaits.

EXERCICES : DÉNOMBREMENT

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Initiation à l analyse factorielle des correspondances

Cours de Statistiques inférentielles

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Chap. 5 : Les intérêts (Les calculs financiers)

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

14 Chapitre 14. Théorème du point fixe

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Statistique Numérique et Analyse des Données

Comment les Canadiens classent-ils leur système de soins de santé?

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Chapitre 3 : Transistor bipolaire à jonction

RECHERCHE DE CLIENTS simplifiée

Formation d un ester à partir d un acide et d un alcool

Probabilités et statistique pour le CAPES

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Suites et séries de fonctions

Échantillonnage et estimation

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Terminale S. Terminale S 1 F. Laroche

La maladie rénale chronique

Université Pierre et Marie Curie. Biostatistique PACES - UE

STATISTIQUE AVANCÉE : MÉTHODES

Sommaire Chapitre 1 - L interface de Windows 7 9

4 Approximation des fonctions

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exercices de mathématiques

DETERMINANTS. a b et a'

Opérations bancaires avec l étranger *

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

TARIFS BANCAIRES. Opérations bancaires avec l étranger Extrait des conditions bancaires au 1 er juillet Opérations à destination de l étranger

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

Working Paper RETAIL RÉGIONAL RESPONSABLE

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Les algorithmes de tri

Télé OPTIK. Plus spectaculaire que jamais.

Module 3 : Inversion de matrices

Une action! Un message!

MUTUELLE D&O MUTUELLE D&O. Copilote de votre santé. AGECFA-Voyageurs CARCEPT CARCEPT-Prévoyance CRC CRIS CRPB-AFB

Chaînes de Markov. Arthur Charpentier

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Neolane Message Center. Neolane v6.0

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Compte Sélect Banque Manuvie Guide du débutant

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Transcription:

Cours et Exercices de Probabilités et Statistique descriptive Niveau Licece 1 U.F.R. Maths-Ifo i Prof. Auguste AMAN et Dr. Jea Marc OWO

Table des matières I Statistique descriptive 1 1 Les doées statistiques 3 1. Les variables statistiques-élémets de vocabulaire.................... 3 2. Les types de variables.................................... 3 2.1. Variables qualitatives................................ 3 2.2. Variables quatitatives............................... 4 2 Tableaux statistiques 5 1. Les variables qualitatives.................................. 5 1.1. Tableaux de distributio de fréquece absolues, relatives et cumulées..... 5 2. Les variables quatitatives discrètes............................ 6 2.1. Tableaux de distributio de fréqueces...................... 6 3. Les variables quatitatives cotiues........................... 7 3.1. Tableaux de distributio de fréqueces-fréqueces cumulées........... 7 3 Représetatios graphiques 9 1. Les variables qualitatives.................................. 9 2. Les variables quatitatives................................. 10 2.1. Les variables quatitatives discrètes........................ 10 2.2. Les variables quatitatives cotiues....................... 11 4 Résumés umériques 12 1. Paramètre de tedace cetrale.............................. 12 1.1. Le mode....................................... 12 1.2. La moyee..................................... 13 1.3. La médiae..................................... 14 1.4. Quatiles...................................... 15 1.5. Utilisatio des paramètres de tedace cetrale................. 16 2. Paramètres de dispersio.................................. 16 2.1. L étedue...................................... 17 ii

TABLE DES MATIÈRES 2.2. L itervalle iter-quartile.............................. 17 2.3. La variace et l écart-type............................. 17 3. Chagemet de variable liéaire ou affie - Variable cetrée réduite.......... 18 3.1. Chagemet de variable liéaire ou affie..................... 18 3.2. Variable cetrée réduite.............................. 19 4. Boîtes à moustaches.................................... 19 5 Laiso etre deux variables 21 1. Gééralités......................................... 21 1.1. Tableau de cotigece............................... 21 1.2. Distributio margiale............................... 22 1.3. Distributio coditiolle.............................. 22 2. Laiso liéaire etre deux variables quatitatives.................... 23 2.1. Caractéristiques margiales et coditioelles.................. 24 2.2. Covariace...................................... 24 2.3. Coefficiet de corrélatio.............................. 25 2.4. Régressio liéaire................................. 26 2.5. Régressio liéaire aprés trasformatio d ue variable............. 27 3. Liaiso etre deux variables qualitatives......................... 27 3.1. Mesure de la liaiso etre deux variables qualitatives.............. 27 3.2. Représetatio graphique............................. 28 4. liaiso etre variable qualitative et ue variable quatitative.............. 29 4.1. Classemet des doées et distributios margiales............... 29 U.F.R. Maths-Ifo iii Prof. Auguste AMAN et Dr. Jea Marc OWO

Première partie Statistique descriptive 1

Itroductio Recueillir et aalyser les doées sot les deux objectifs fodametaux de la Statistique. Pour parveir à cela, il faut suivre les étapes suivates : 1. La collecte des doées : défiir l objet étudié, les variables statistiques mises e cause, le questioaire et fabriquer l échatillo représetatif (sodage, pla d expérieces...) 2. Ue fois les doées collectées et corrigées, les visualiser sous forme de tableaux ou graphes et les résumer grâce à des paramètres qui permettet de dégager les caractéristiques essetielles du phéomèe étudié (statistique descriptive, aalyse des doées) 3. L étape de la modélisatio (statistique iféretielle) est de fourir des résultats relatifs à ue populatio à partir de mesures statistiques réalisées sur des échatillos. La statistique iféretielle fourit des élémets permettat de spécifier du mieux possible, à partir de l échatillo observé, le modèle probabiliste qui a egedré les doées. Nous etedros le terme de modèle das le ses d ue formalisatio mathématique supposée reproduire de maière approchée la réalité d u phéomèe das le but d e reproduire le foctioemet pour permettre de compredre, de prédire et/ou d agir. Les méthodes statistiques sot utilisées das de ombreux domaies tels que l igéierie (cotrôle de qualité de fabricatio...), la médecie (expérimetatio de ouveaux traitemets...), les scieces écoomiques et sociales, l écoometrie, la démographie, et bie d autres. 2

Chapitre 1 Les doées statistiques 1. Les variables statistiques-élémets de vocabulaire O observe u échatillo composé de idividus apparteat à ue même populatio de taille N. Chaque idividu de l échatillo est observé à travers des caractéristiques, caractères ou idicateurs appelés variables. Ue série statistique (x 1 ; x 2 ; ; x ) est la suite des valeurs prises par ue ou plusieurs variables pour chacu des idividus de l échatillo. Chaque valeur prise par ue ou plusieurs variables est appelé ue modalité. Exemple 1. U questioaire est distribué à 150 persoes das la cour d u établissemet secodaire. Il comporte diverses questios. La populatio = l esemble des elèves de cet établissemet. L échatillo = les étudiats ayat répodu au questioaire. U idividu est ue persoe iterrogée. Les variables correspodet aux questios posées : l âge, la taille, la couleur des yeux, etc. E statistique descriptive la populatio c est l esemble des idividus effectivemet étudiés, sas chercher à étedre les costatatios faites à ue populatio plus vaste, ce qui relève de la statistique iféretielle. 2. Les types de variables Le type d ue variables depedet de la ature de ses modalités. O distigue plusieurs types de variables : 2.1. Variables qualitatives Ue variable est dite qualitative lorsque les réposes possibles à la questio posée, ou les modalités, e correspodet pas à ue quatité mesurable par u ombre mais appartieet à u groupe de catégories. 3

CHAPITRE 1. LES DONNÉES STATISTIQUES Exemple 2. le sexe, la couleur des yeux, la metio au baccalauréat, la fréquece d ue activité (jamais, raremet, parfois, souvet, très souvet). o distigue : les variables qualitatives omiales : il y a pas d hiérachie etre les differetes modalités ; exemple : sexe, couleur des yeux. les varibles qualitatives ordiales : les differetes modalités peuvet être ordoées de maière aturelle ; exemple : la metio au baccalauréat, la frequece d ue activité, iveau d études scolaires : école primaire < 1er cycle < CAP < BEP < Bac < BTS < DEUG <... Remarque 1.1. Certaies variables omiales peuvet être désigées par u code umerique, qui a pas de valeur quatité. Exemple : le code postal, le sexe (1 = garço, 2 = fille) 2.2. Variables quatitatives Les réposes correspodet à des quatités mesurables et sot doées sous forme de ombre. O distigue : Les variables quatitatives discrètes : elles preet leurs valeurs das u esemble discret, le plus souvet fii. Exemple : le ombre d efats, la poiture du pied. les variables quatitatives cotiues : elles peuvet predre toutes les valeurs d u itervalle réel. Exemple : la taille des idividus, ue ote à u exame. Remarque 1.2. L âge peut être vu et traité comme ue variable quatitative discrète ou cotiue suivat la précisio que l o choisit et le ombre de valeurs qu il pred au sei de la populatio. Il peut égalemet exister des variables basées sur l âge qui sot qualitatives. Si das u sodage o pose la questio "quelle est votre trache d âge parmi les possibilités suivates : - de 25 as, etre 25 et 45, etre 40 et 60 et +60 as", o peut voir la variable "trache d âge" comme ue variable qualitative ordiale U.F.R. Maths-Ifo 4 Prof. Auguste AMAN et Dr. Jea Marc OWO

Chapitre 2 Tableaux statistiques 1. Les variables qualitatives Exemple 3. O s itéresse à la variable "couleur des yeux" sur u groupe de 20 persoes. O code chaque modalité de la maière suivate : M=marro, V=vert, N=oir, B=bleu. O obtiet la série statistique suivate : M,V,M,M,M,M,M,N,M,N,M,M,B,M,M,M,B,M,M,M. 1.1. Tableaux de distributio de fréquece absolues, relatives et cumulées Exemple 4. Pour l exemple précédet, o remplit le tableau suivat : Couleur des yeux M V N B Total Effectif Proportio Tableau-type : O choisit ue otatio pour la variable, par exemple : X. désige le ombre d idividus das l échatillo. o ote C 1,..., C k les k modalités de la variable. Pour 1 j k, o ote j l effectif associé à la modalité C j (le ombre d idividus pour lesquels la valeur prise par la variable est C j ), f j = j / la fréquece relative ou proportio associée à cette modalité, et si la variable est qualitative ordiale : N j = 1 + 2 + + j resp. φ j = f 1 + f 2 + + f j la frequece absolue (effectif) cumulée croissate resp. la frequece relative cumulée croissate pour cette modalité (avec la covetio : φ 0 = 0). Elle a de ses que si la variable est qualitative ordiale et si les modalités C 1, C 2,..., C k sot ordoées suivat l odre croissat aturel (ou hiérachique ascedat) qui rège parmi ces modalités. Exemple : iveau d études scolaires : école primaire < 1er cycle < CAP < BEP < Bac < BTS < DEUG <... 5

CHAPITRE 2. TABLEAUX STATISTIQUES Le tableau suivat est u tableau-type qui permet de résumer les doées. Variable X C 1 C 2... C k Totales Fréquece absolue ou effectif 1 2... k Fréquece relative ou proportio f 1 = 1 / f 2 = 2 /... f k = k / 1 Fréquece relative cumulée* φ 1 = f 1 φ 2 = f 1 + f 2... φ k = 1 pas de ses *Attetio : uiquemet das le cas de variables qualitatives ordiales. 2. Les variables quatitatives discrètes Exemple 5. O s itéresse à la variable "poiture" ( que l o otera P ) sur u groupe de 20 persoes. O obtiet la série statistique suivate : 39, 43, 38, 39, 39, 42, 44, 44, 48, 40, 44, 43, 41, 37, 39, 38, 45, 41, 44, 44. 2.1. Tableaux de distributio de fréqueces Exemple 6. Pour la variable P, o remplie le tableau suivat : P 37 38 39 40 41 42 43 44 45 46 47 48 Effectif Proportio Proportio cumulée O ote v 1, v 2,..., v k les k valeurs différetes que peut predre la variable avec v i < v j si i < j (o e recotrera pas pas d exemple das ce cour, mais ue variable discrète peut predre ue ifiité de valeurs). Pour 1 j, o ote j l effectif des idividus pour lesquels la variable pred la valeur v j. O ote f j la fréquece relative ou proportio pour la valeur v j et Φ j = f 1 + + f j la j-ème fréquece relative cumulée ( avec la covetio : Φ 0 = 0 ). O résume habituelemet les doées comme das le tableau-type suivat : Valeurs prises par la variable v 1 v 2... v k Total Fréquece absolue 1 2... k Fréquece relative f 1 = 1 / f 2 = 2 /... f k = k / 1 Fréquece relative cumulée Φ 1 = f 1 Φ 2 = f 1 + f 2... Φ k = 1 pas de ses O défiit de même pour la valeur v j la fréquece cumulée décroissate : G j = 1 ( j +... + k ) = f j +... + f k. La quatité N d j = j +... + k est appelée effectif cumulé décroissat. U.F.R. Maths-Ifo 6 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 2. TABLEAUX STATISTIQUES 3. Les variables quatitatives cotiues Exemple 7. O s itéresse à la taille, otée T et exprimée e mètre, de 20 idividus. O a obteu la série statistique suivate : 1,72 ; 1,87 ; 1,66 ; 1,73 ; 1,64 ; 1,77 ; 1,80 ; 1,81 ; 1,60 ; 1,78 ; 1,83 ; 1,75 ; 1,70 ; 1,58 ; 1, 68 ; 1,66 ; 1,93 ; 1,75 ; 1,80 ; 1,85. 3.1. Tableaux de distributio de fréqueces-fréqueces cumulées Les doées brutes de la variable pour chaque idividu sot otées x 1,..., x. Elle peuvet predre importe quelle valeur das u iterval de R et il est très rare d avoir deux fois la même valeur pour deux idividus différets. Il serait doc uitile de tracer u diagramme e bâto comme das le cas d ue variable discrète : il cosisterait e u amocellemmet illisible de bâto de hauteur 1/. O choisir doc de faire u Regroupemet e classe. L itervalle où la variable pred ses valeurs est divisé e k classes : [b 0, b 1 [, [b 1, b 2 [,..., [b k 1, b k [ ( il est possible d avoir des bores ifiies). Pour 1 j, o ote j l effectif associé à la classe [b j 1, b j [, f j = j / la fréquece relative associé à cette classe et Φ j = f 1 + + f j la j-ème fréquece cumulée (avec la covetio Φ 0 = 0) O ote a j = b j b j 1 l amplitude de la classe [b j 1, b j [. O ote d j = f j /a j la desité de proportio pour la classe [b j 1, b j]. Exemple 8. de la taille T [1, 50; 1, 65[ [1, 65; 1, 70[ [1, 70; 1, 75[ [1, 75; 1, 80[ [1, 80; 1, 85[ [1, 85; 2, 00[ Effectif Proportio Proportio cumulée Amplitude Desité de proportio Remarque 2.1. la desité de la proportio permet de comparer les effectifs das chaque classe e teat compte de la taille de ces classes (cf. la otio de desité de la populatio e géographie). Das le cas de classes qui ot toutes les même logueur, il est pas écessaire de calculer la desité de proportio, il est suffisat d étudier les fréqueces relatives ou absolues ( qui sot directemet proportioelle a la desité de proportio ). U.F.R. Maths-Ifo 7 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 2. TABLEAUX STATISTIQUES Tableau-type Variable X [b 0, b 1 [ [b 1, b 2 [... [b k 1, b k [ Total Fréq. relative f 1 = 1 / f 2 = 2 /... f k = k / 1 Fréq. relative cumulée Φ 1 = f 1 Φ 2 = f 1 + f 2... Φ k = 1 Amplitude a 1 = b 1 b 0 a 2 = b 2 b 1... a k = b k 1 b k Desité de proportio d 1 = f 1 /a 1 d 2 = f 2 /a 2... d k = f k /a k Remarque 2.2. Cotrairemet au cas d ue variable qualitative ou discrète, ce tableau représete ue perte d iformatio par rapport aux doées brutes U.F.R. Maths-Ifo 8 Prof. Auguste AMAN et Dr. Jea Marc OWO

Chapitre 3 Représetatios graphiques 1. Les variables qualitatives Pour ue variable ou caractère qualitatif, o utilise pricipalemet trois types de représetatio graphique : le diagramme e bâtos, la représetatio par tuyaux d orgue et la représetatio par secteurs. - Diagramme e bâtos : e abscisse sot disposées les différetes modalités, de faço arbitraire aux quelles o associe des segmets espacés etre eux dot les logeurs ( e ordoée ) sot proportioelles à l effectif ou à la fréquece relative de chaque modalité. Preciser le om des axes, le om du graphique et la source des iformatios Nous appelos polygoe statistique, ou diagramme polygoal, la lige obteue e joigat les sommets des bâtos. Exemple : Caractère : catégorie socio-professioelle. Ouvriers = O, Cadre moye = CM, Cadre supérieur = CS. caractère O CM CS Effectifs 20 10 5 - Diagramme e tuyaux d orgue : e abscisse sot disposées les différetes modalités, de faço arbitraire aux quelles o associe des rectagles espacés etre eux, de largeur costete, dot la hauteur ( e ordoée ) sot proportioelle à l effectif ou à la fréquece relative de chaque modalité. Preciser le om des axes, le om du graphique et la source des iformatios. Das le cas d ue variable qualitative ordiale, o peut égalemet costruire le diagramme e tuyau d orgue des effectifs ou des proportios cumulés. Exemple 9. - Diagrammes e secteurs : chaque modalité est représetée par u secteur de disque dot l agle est proportioel à l effectif ou à la fréquece de la modalité ( ou pourcetage ). 9

CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES Ces diagrammes covieet très bie pour des doées politiques ou socio-écoomiques. Das u diagramme circulaire (cercle complet), l effetif total ou la fréquece relative 1 ( ou le pourcetage 100%) correspod à l agle 360. Pour représeter les doées sur u diagramme semi-circulaire (demi-cercle), il suffira de calculer les mesures des secteurs agulaires par rapport à 180. Exemple 10. 2. Les variables quatitatives Il existe deux types de représetatio graphique d ue distributio statistique à caractère quatitatif : - Le diagramme différetiel correspod à ue représetatio des effectifs ou des fréqueces. - Le diagramme itégral correspod à ue représetatio des effectifs cumulés, ou des fréqueces cumulées. 2.1. Les variables quatitatives discrètes - Diagramme différetiel : diagramme e bâtos O trace u graphique avec sur l axe des abscisses les différetes valeurs prises par la variable, placées e respectat ue échelle, e ordoé les fréqueces relatives ou les fréqueces absolues. Pour chaque valeur v j o costruit u bâto vertical à l abscisse v j, de hauteur proportioel a la fréquece de la valeur v j. Exemple : poiture. Nous appelos polygoe statistique, ou diagramme polygoal, la lige obteue e joigat les sommets des bâtos. - Diagramme itégral : courbe e escaliers des effectifs cumulés ou des fréqueces cumulées. Foctio de répartitio empirique La foctio de répartitio empirique permet de décrire la série statistique de maière complète. Elle est défiie sur R et pred ses valeurs das [0, 1]. Pour x das R, elle est défiie par 0 si x < v 1 F (x) = Φ j si v j x < v j+1 1 si v k x Exemple 11. Poiture U.F.R. Maths-Ifo 10 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 3. REPRÉSENTATIONS GRAPHIQUES 2.2. Les variables quatitatives cotiues - Diagramme différetiel : histogramme des desités. Sur l axe des abscisses sot placées les bores des classes représetat les modalités e respectat ue échelle. Pour chaque classe, o élève u rectagle de hauteur (ordoée) proportioelle à la desité de proportio ou d effectif. Exemple de taille T : Remarque 3.1. O représete la desité de proportio ou d effectif et o pas les fréqueces relatives ou absolues. Cosequece 1. L aire d u rectagle est proportioelle à la fréquece (absolues ou relatives) de la classe correspodate. E effet, pour le rectagle corespodat à la classe [b j, b j 1 [ l aire est (b j b j 1 ) d j = f j. Das la pratique, o utilise la règle de costructio suivate : Vérifier si les amplitudes des différetes classes sot idetiques. - Si les amplitudes sot idetiques, o représete sur l axe des abscisse les classes par des segmets de même logueur. O associe à chaque classe u rectagle dot la hauteur est proportioelle à l effectif ou à la fréquece. - Si les amplitudes sot o idetiques, o choisit ue uité d amplitude U et o costruit l histogramme de telle sorte que la hauteur du rectagle de la classe [b j 1, b j [ soit proportioelle à l effectif par uité d amplitude i a i U associé. - Diagramme itégral : courbe cumulative des effectifs ou des fréqueces. La courbe cumulative des fréqueces doit représeter la foctio de répartitio de la variable statistique. Foctio de répartitio empirique Pour x ue valeur das l itervalle [b j 1, b j [, o approche la proportio d idividus pour lesquels la variable est iférieure ou égale à x par l aire de l histogramme etre les abscisses b j 1 et x otée F (x) : F (x) = f 1 + f 2 + + f j 1 + (x b j 1 ) d j = Φ j 1 + (x b j 1 ) d j O a aisi défiie ue foctio Φ qui vaut 0 sur ], b 0 [ et 1 sur [b 1, + [. Elle vaut Φ j e b j. Sur [b j 1, b j [, cette foctio, affie par morceaux, est appelée foctio de répartitio empirique. Exemple 12. Foctio de répartitio empirique de la variable T. U.F.R. Maths-Ifo 11 Prof. Auguste AMAN et Dr. Jea Marc OWO

Chapitre 4 Résumés umériques d ue variable statistique 1. Paramètre de tedace cetrale 1.1. Le mode Le mode red compte de l edroit où les doées sot le plus cocetrées. Le mode, oté Mo, est la modalite la plus frequete ou domiate das la populatio i.e. celle qui admet la plus grade frequece : f(mo) = max i [1,k] (f i). Il est parfaitemet defii pour ue variable qualitative ou ue variable quatitative discrète. Pour ue variable quatitative cotiue regroupée e classe, ous parlos de classe modale : c est la classe dot la desité de fréquece est maximum. Si les classes ot même amplitude la desité est remplacée par l effectif ou la fréquece et ous retrouvos la défiitio précédete. Nous défiissos le mode, pour ue variable quatitative cotiue, e teat compte des desités de fréquece des 2 classes adjacetes par la méthode suivate : avec Mo = x m + a i i + s x m : limite iferieure de la classe d effectif (par uité d amplitude) maximal a : l amplitude de la classe modale i : Ecart d effectif (par uité d amplitude) etre la classe modale et la classe iferieure la plus proche s : Ecart d effectif (par uité d amplitude) etre la classe modale et la classe superieure la plus proche Exemple 13. Poiture, taille. 12

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES Remarque : Lorsque les classes adjacetes à la classe modale ot des desités de fréqueces égales, le mode coïcide avec le cetre de la classe modale. Le mode déped beaucoup de la répartitio e classes. Ue variable statistique peut préseter plusieurs modes locaux : o dit alors qu elle est plurimodale. Cette situatio est itéressate : elle met e évidece l existece de plusieurs sous-populatios, doc l hétérogééité de la populatio étudiée. 1.2. La moyee O ote {x 1, x 2,..., x } la série statistique. La moyee est défiie par : x = x 1 + x 2 + + x = 1 x i Exemple 14. poiture, taille Cas d ue variale discrète : si v 1, v 2,..., v k sot les k valeurs prises par la variable X, j l effectif et f j la fréquece relative correspodat à la valeur v j, o peut réécrire : x = 1v 1 + 2 v 2 + + k v k = 1 k i v i = k f i v i Exemple 15. Poiture. Cas d ue variable cotiue regroupée e classes : la variable X est regroupée das les classes [b j 1, b j [ (1 j ), les fréqueces relatives associées à ces classe sot otées f j, 1 j. Lorsque les doées brutes e sot plus accessibles et qu o e dispose que des doées regroupées e classe, o calcule ue moyee approchée grâce à des représetat des classes(leur cetre) : c j = (b j + b j 1 )/2, par la formule : x app = f 1 c 1 + f 2 c 2 + + f k c k = k f j c j Exemple : calcul d ue moyee approchée de la variable "taille" à partir du groupemet e classes. Propriétés de la moyee : si o fait le chagemet de variable Y = ax + b (traductio sur la série statistiques : y i = ax i + b,1 i ), alors ȳ = a x + b Exemple 16. calcul de la taille moyee e mètres. U.F.R. Maths-Ifo 13 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES 1.3. La médiae La médiae M e correspod au cetre des valeurs observées classées par ordre croissat x (1) x (2)... x (), ou à la valeur pour laquelle 50% des valeurs observées sot supérieures et 50% sot iférieures. a) Cas d ue variable discrète : si est impair, la médiae est la +1 2 -ième valeur observée : Me = x ( +1 2 ). si est pair, ue médiae est ue valeur quelcoque etre la 2 -ième valeur observée : x ( 2 ) et la 2 + 1-ième valeur observée : x ( 2 +1). O parle doc d itervalle média. O peut predre comme médiae x ( 2 ) ou x ( 2 +1). Mais il peut être commode de predre le milieu : Me = x ( 2 ) + x ( 2 +1). 2 La détermiatio de la médiae se fait doc à l aide des effectifs cumulés, des proportios cumulées ou de la foctio de répartitio empirique (graphiquemet). Exemple 17. poiture b) Cas d ue variable cotiue. La médiae est défiie comme la solutio de l équatio : F (Me) = 0, 5 où F est la foctio de répartio empirique de la variable. O sait que cette solutio existe parce que F est cotiue, et lim F (x) = 0, lim F (x) = 1. Si de plus F est strictemet croissate, la x x + solutio Me est uique. la méthode pratique est la suivate : 1. S il existe ue bore de classe b j telle que la proportio cumulée sur la classe [b j 1, b j [ est exatemet 0, 5, alors la médiae est ce b j. 2. Sio, alors il existe ue classe [b j 1, b j [ telle que F (b j 1 ) < 0, 5 < F (b j ). Cette classe est la première sur laquelle la frequece cumulée dépasse 0, 5. Pour x [b j 1, b j [, F (x) = Φ j 1 + (x b j 1 ) d j. Mais e particulier : F (Me) = Φ j 1 + (Me b j 1 ) d j = 0, 5 d où Ou ecore, e terme de b j et de F : Me = 0, 5 Φ j 1 d j + b j 1 Me = 0, 5 F (b j 1) F (b j ) F (b j 1 ) (b j b j 1 ) + b j 1 U.F.R. Maths-Ifo 14 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES Cette méthode peut se traduire graphiquemet et utilisat le graphe de la foctio de répartitio empirique et le théorème de Thalès. Exemple 18. médiae de la variable "taille", regroupée e classes. Méthode graphique avec la foctio de répartitio empirique 1.4. Quatiles a) cas d ue variable cotiue Soit X ue variable quatitative cotiue, de foctio de répartitio empirique F. O suppose qu o dispose de la répartitio e classe des observatios. Le Quatile d ordre p de X est la solutio otée q p de : F (q p ) = p. Cela sigifie qu ue proportio d eviro p des observatios est iferieur à q p et qu ue proportio d eviro 1 p des doées est supérieure à q p. Quatiles particuliers Quartiles : quatiles correspodat aux proportios multiples de 0, 25 (u quart). O ote Q 1 le premier quartile, qui correspod à q 0,25, Q 3 le troisième quartile, qui correspod à q 0,75. La médiae est le deuxième quartile Q 2 = q 0,5. Déciles : quatiles correspodat aux proportios multiples de 0, 1 : q 0,1 (premier décile), q 0,2 (deuxième décile), etc. Percetiles ou cetiles : quatiles correspodat aux proportios multiples de 0, 01. Par exemple, le 65ème percetile est le quatile q 0,65 Calcul du quatile q p : même méthode que pour le calcul de la médiae. 1. S il existe ue bore de class b j telle que la proportio cumulée sur la classe [b j 1, b j [ est exatemet p, autremet dit : F (b j ) = p, alors q p. 2. Sio, alors il existe ue classe [b j 1, b j [ telle que F (b j 1 ) < p < F (b j ). Cette classe est la première sur laquelle la fréquece cumulée dépasse p. Pour x [b j 1, b j [, F (x) = Φ j 1 + (x b j 1 ) d j. Mais e particulier : F (q p ) = Φ j 1 + (q p b j 1 ) d j = p D où q p = p F (b j 1) F (b j ) F (b j 1 ) (b j b j 1 ) + b j 1 Ou ecore, e terme des b j et de F : q p = p F (b j 1) F (b j ) F (b j 1 ) (b j b j 1 ) + b j 1 U.F.R. Maths-Ifo 15 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES Exemple 19. troisième quartile de la variable "taille" b) cas d ue variable discrète Comme pour la médiae, il existe diverses maières de défiir les quatiles d ue loi discrète : comme la foctio de répartitio empirique est pas cotiue mais a des paliers, elle e pred pas toutes les valeurs etre 0 et 1. Pour ue proportio p fixée, o cherche doc ue valeur x telle que F (x) s approche, e u certai ses, de p. Nous choisissos la défiitio suivate : v 1 lorsque 0 < p Φ 1 = f 1 q p = v 2 lorsque Φ 1 < p Φ 2..., v j lorsque Φ j 1 < p Φ j..., v k lorsque p = Φ k = 1 ou q p = x ( p ) où p est le plus petit etier tel que p p. Exemple 20. troisième quartile de la variable "poiture". 1.5. Utilisatio des paramètres de tedace cetrale Robustesse La médiae est plus robuste que la moyee : ue ou plusieurs doées erroées e fot pratiquemet, voire pas du tout, chager la médiae, alors qu elles peuvet affecter cosidérablemet la moyee. Assymétrie La comparaiso de la médiae et de la moyee permet de détecter des assymétries de doées : Si la distributio des valeurs est symétrique, la valeur de la médiae est proche de la valeur de la moyee arithmétique. M e x. De faço géérale o a : - M o = M e = x = distributio symétrique, - M o < M e < x = distributio dissymétrique à gauche, - M o > M e > x = distributio dissymétrique à droite 2. Paramètres de dispersio Il est possible que deux variables statistiques aiet la même valeur cetrale mais complètemet différetes du poit de vue de la cocetratio ou dispersio des valeurs observées autour de cette valeur cetrale. Il est doc écessaire de trouver des mesures permetat d apprécier la dispersio d ue série statistique ou d ue distributio observée. U.F.R. Maths-Ifo 16 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES 2.1. L étedue Soit x mi la plus petite observatio et x max la plus grade. O défiie l étedue e = x max x mi. Elle a la même uité que l uité de la variable. Elle est pas très iformative car elle e tiet pas du tout compte de la répartitio des doées à l itérieur de l itervalle [x mi, x max ]. Exemple 21. étedu de la variable "taille" 2.2. L itervalle iter-quartile O appelle itervalle iter-quartile l itervalle [Q 1, Q 3 ], qui cotiet eviro 50% des observatios. La distace iter-quartile Q 3 Q 1 est ue mésure de dispersio. Exemple 22. itervalle iter-quartile de la variable "taille". 2.3. La variace et l écart-type La variace est défiie par : V ar(x) = 1 (x i x) 2 L expressio suivate est la plus pratique pour le calcul de la variace : ( ) 1 V ar(x) = x 2 i ( x) 2 Preuve : e développat le carré das la défiitio de la variace. Pour ue variable quatitative discrète e preat la valeur v j u ombre j de fois ou (ou avec la fréquece f j ), pour 1 j k : V ar(x) = 1 k k j (v j x) 2 = f j (v j x) 2 j=1 j=1 ( ) ( 1 k k ) = j vj 2 ( x) 2 = f j vj 2 ( x) 2 j=1= Das le cas le cas d ue variable cotiue pour laquelle o dispose seulemet des doées regroupées e classes, o peut faire u calcule approché similaire à celui de la moyee approchée x app. O calcule ue valeur approchée de la variace, otée V ar app (X). Toutes les expressios qui suivet sot équivaletes. V ar app (X) = 1 k k j (c j x app ) 2 = f j (c j x app ) 2 j=1 j=1 ( ) ( 1 k k ) = j c 2 j ( x app ) 2 = f j c 2 j ( x app ) 2 j=1 j=1 j=1 U.F.R. Maths-Ifo 17 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES où c j est le cetre de la j-ème classe, dotée de l effectif j (ou de la fréquece relative f j ). Propriétés de la variace La variace est toujour positive ou ullle. Elle est ulle si et seulemet si toutes les observatio sots idetiques : 1 (x i x) 2 i, x i x = 0 L utité de la variace est l utié de X au carré. L ecart-type σ X est défii par : Propriété : l uité de σ X est l uité de X. σ X = V ar(x) Plus σ X est grad plus les modalités sot dispersés. Exemple 23. variace et ecart-type de la variable "poiture", de la variable "taille". Le coefficiet de variatio La comparaiso des dispersios de deux séries statistiques peut se faire grâce aux écart-types lorsque ses séries ot des moyees du même ordre de gradeur et e cotiet pas de valeurs aberrates. Das le cas cotraire, o peut utiliser le coefficiet de variatio défii par CV = σ X x. Ce paramètre est ue mesure relative de dispersio et permet ue iterprétatio plus appropriée. O l exprime e gééral e pourcetage. 3. Chagemet de variable liéaire ou affie - Variable cetrée réduite 3.1. Chagemet de variable liéaire ou affie O cosidère ue variable quatative X et o lui faire subir ue applicatio affie qui la trasforme e ue variable Y. a et b sot des costates réelles Nouvelle variable Y Observatios y i Moyee de Y Variace de Y Ecart-type de Y Y = ax y i = ax i ȳ = a x V ar(y ) = a 2 V ar(x) σ Y = a σ X Y = X + b y i = x i + b ȳ = x + b V ar(y ) = V ar(x) σ Y = σ X Y = ax + b y i = ax i + b ȳ = a x + b V ar(y ) = a 2 V ar(x) σ Y = a σ X Exemple 24. U.F.R. Maths-Ifo 18 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES 3.2. Variable cetrée réduite O cosidére ue variable X de moyee x et de variace V ar(x), d écart-type σ X = V ar(x). O défiit ue ouvelle variable Y = X x σ X Elle est sas uité. Cette variable est appelée variable cetrée réduite associée à X. E effet, elle est : cetrée : ȳ = x x σ X = 0. réduite : V ar(y ) = V ar(x) V ar(x) = 1. Quad o trasforme ue variable e la variable cetrée réduite associée, o retire à cette variable toute l iformatio cocerat so échelle ou uité, et sa localisatio. Il e reste plus que des iformatios sur la forme de la distributio. Cette trasformatio permet de comparer plusieurs variables sur le pla de la forme, même si ce sot des variables exprimées das des échelles différetes ou qui ot des moyees complètemet différetes. Exemple 25. Variable cetrée réduite associée à la variable "poiture", à la variable "taille". Autre utilisatio : Etat doé u idividu i pour lequel la variable pred la valeur x i, o peut situer cet idividu das l esemble des observatios e calculat so écart à la moyee réduit : x i x σ X Exemple 26. quel est l écart à la moyee, mesuré e écart-types, d u idividu mesurat 177 cm? 4. Boîtes à moustaches La boîte à moustaches est ue représetatio graphique qui permet de visualiser les quartiles aisi que la dispersio des doées et de repérer les doées extrêmes ou outliers. Elle se fait courammet pour les variables quatitatives cotiues ou pour les variables quatitatives discrètes preat u grad ombre de valeurs différetes. E revache, elle a pas beaucoup d itérêt pour ue variable discrète preat peu de valeurs différetes. Elle est costituée : d ue boîte dot les bores sot les premier et troisième quartile Q 1 et Q 3. A l itérieur de la boîte figure la médiae Q 2. de moustaches. O défiit tout d abord deux bores : m = Q 1 1, 5(Q 3 Q 1 ) et m + = Q 3 + 1, 5(Q 3 Q 1 ). O ote m if la plus petite observatio supérieure à m, et m sup la plus grade observatio iférieure à m +. Soit : m if = mi{x i : x i m } m sup = max{x i : x i m + } U.F.R. Maths-Ifo 19 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 4. RÉSUMÉS NUMÉRIQUES La moustache iférieure est le segmet [m if, Q 1 ]. La moustache supérieure, de la même maière, est le segmet [Q 3, m sup ] des doées extrêmes évetuelles : les observatios qui sot e dehors de la boîte et des moustaches, c est à dire : supérieures à m + ou iférieures à m. O place ces doées ue à ue quad o e dispose. Remarque : Ue boite et des moustaches courtes idiquet que la série est assez cocetrée autour de sa médiae. Au cotraire ue boite et des moustaches logues idiquet que la série est assez dispersée. L exame de la boite à moustaches permet d avoir ue idée de la symétrie de la distributio selo que la boîte et les moustaches sot symétriques ou, au cotraire, de plus petite amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à droite). La représetatio peut aussi se faire vertcalemet, d où l appelatio de "boite à pattes". Exemple 27. Boîte à moustache de la variable "taille" à partir de la série statistique de 20 observatios. Das le cas où o e dispose pas des doées brutes mais seulemet des doées regroupées e classes, o utilise les extrémités b 0 et b k de la première et de la k-ème classe. la limite iférieure m if de la moustache iférieure est max{m, b 0 } et la limite supérieure m sup de la moustache supérieure est mi{m +, b k }. O e peut pas placer les doées extrêmes, sauf si elles sot fouries e plus. Exemple 28. Boîte à moustaches de la variable "taille" à partir des doées regroupées. U.F.R. Maths-Ifo 20 Prof. Auguste AMAN et Dr. Jea Marc OWO

Chapitre 5 Laiso etre deux variables 1. Gééralités O observe ue série statistique {(x 1, y 1 ),..., (x, y )} composée de couples d observatios d u couple de variables (X, Y ). O suppose que X a I modalités otées C 1,..., C I et Y a J modalitées otées D 1,..., D J. Pour 1 i I et 1 j J, o ote ij l effectif des couples d observatios égaux à (C i, D j ). 1.1. Tableau de cotigece Das le tableau de cotigece, o regroupe les effectifs ij. O peut compléter le tableau de cotigece e ajoutat les totaux e liges et e coloes. J O ote i. = i1 + + IJ = le total sur la lige i de la table de cotigece,.j = 1j + + IJ = j=1 ij I ij le total sur la coloe j de la table de cotigece. Y D 1 D 2... D J Total X C 1 11 12... 1J 1. C 2 21 22... 2J 2................... C I I1 I2... IJ I. Total.1.2....J Exemple 29. L INSEE fourit les doées suivates relatives à la situatio professioelle des persoes habitat e Frace e 2006, immigrées ou o immigrées. 21

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES situatio quat à l immigratio Immigrés No immigrés Esemble Situatio professioelle Actif ayat u emploi 2223906 23895180 26119096 Chômeur 559201 2845339 3404540 Retraité ou préretraités 963333 11901857 12865190 Elèves, étudiats, stagiaire 321533 4999097 5320630 Femme ou homme au foyer 486427 1926779 2413206 Autres iactifs 583016 12480429 13063445 Esemble 5137416 58048681 63186098 Remarque 5.1. La défiitio d u immigré selo le Haut coseil à l immigratio,utilisée pour cette étude, est ue persoe ée étragère à l étrager et résidat e Frace. 1.2. Distributio margiale La distributio margiale de la variable X est la doée des effectifs margiaux 1.,..., I.. C est la distributio de la variable X. O peut la préseter das u tableau et calculer les fréqueces (f i. = i. /), qui sot les proportios associée à chaque modalité de la variable X. O peut calculer de même la distributio margiale de la variable Y. Distributio margiale de X : X C 1... C I Total Effectif 1.... I. Proportio f 1. = 1. /... f I. = I. / 1 Distributio margiale de Y : Y D 1... D I Total Effectif.1....J Proportio f.1 =.1 /... f.j =.J / 1 Exemple 30. Situatio professioelle de la populatio e Frace e 2006 1.3. Distributio coditiolle a) Profils-liges La distributio coditioelle de Y sachat la modalité de C i proportios sot doées das le tableaux suivat : de X est la distributio dot les Y X=Ci D 1... D I Total Proportio i1 / i... ij / i 1 U.F.R. Maths-Ifo 22 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES Ue telle distributio est appelée profil-lige. L esemble des profils-liges peut être préseté das u tableau : Y X D 1 D 2... D J Total X C 1 11 / 1. 12 / 1.... 1J / 1. 1 C 1 21 / 2. 22 / 2.... 2J / 2. 1............... C I I1 / I. I2 / I.... IJ / I. 1 Exemple 31. Distributio coditioelle de la variable " Situatio quat à l immigratio" sachat la modalité " Actifs ayat u emploi" e Frace e 2006, ou : situatio quat à l immigratio des actifs ayat u emploi e Frace e 2006. b) Profils-coloes De même, l esemble des distributios coditioelles de X sachat les modalités de Y est l esemble des profils-coloes, que l o peut préseter das le tableau suivat : X Y Y D 1 D 2... D J C 1 11 /.1 12 /.2... 1J /.J C 1 21 /.1 22 /.2... 2J /.J............... C I I1 /.1 I2 /.2... IJ /.J Total 1 1 1 1 Exemple 32. Esemble des profils-coloes du couple de variables "Situatio professioelle" et "Situatio vis-à-vis de l immigratio". 2. Laiso liéaire etre deux variables quatitatives Les valeurs distites de X et Y sot représetées respectivemet par x 1,..., x p et y 1,..., y q O désige par ij l effectif associé à l observatio (x i, y j ) et par f ij la fréquece associée : y 1 y j y q Total x 1 11 1j 1q 1........ x i i1 ij iq i........ x p p1 pj pq p Total 1 j q U.F.R. Maths-Ifo 23 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES Avec i = q ij ; j = j=1 p ij ; q q ij = j=1 p i = q j = j=1 2.1. Caractéristiques margiales et coditioelles Moyees et variaces margiales X : x = 1 p i x i, s 2 (X) = 1 p i (x i x) 2 Y : ȳ = 1 q j y j, j=1 s 2 (Y ) = 1 q j (y j ȳ) 2 j=1 Moyees et variaces coditioelles X Y = y j : x j = 1 j p ij x i, s 2 j(x) = 1 j p ij (x i x j ) 2. 2.2. Covariace Y X = x i : ȳ i = 1 q ij y j, s 2 i (Y ) = 1 q ij (y j ȳ i ) 2. i i j=1 j=1 Défiitio 5.1. O défiit la covariace de X et dey par : Cov(X, Y ) = 1 p q ij [(x i x)(y j ȳ)]. j=1 L uité das est exprimée la covariace est le produit des uités de X et de Y. Remarque 5.2. Lie avec la variace : Cov(X, X) = V ar(x) Remarque 5.3. Formule pratique : Cov(X, Y ) = ( 1 p ) q ij x i y j xȳ. Propriété 5.1. Chagemet d échelle : soiet a, b, c, d des costates réelles. O a j=1 Cov(aX + b, cy + d) = accov(x, Y ). U.F.R. Maths-Ifo 24 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES Propositio 5.1. Expressio de la variace d ue somme de variables : Propositio 5.2. Iégalité de Cauchy-Schwarz : V ar(x + Y ) = V ar(x) + V ar(y ) + 2Cov(X, Y ). Cov(X, Y ) σ X σ Y. Preuve : Pour tout réelle a, o peut développer grâce à la propositio 1 la quatité V ar(x + ay ) 0 : V ar(x + ay ) = V ar(x) + V ar(ay ) + 2Cov(X, ay ) = V ar(x) + a 2 V ar(y ) + 2aCov(X, Y ) par la propriéte 1 (5.1) 0 Le polyôme du secod degré e a état de sige costat, so discrimiat est égatif ou ul : d où l égalité recherchée. 4(Cov(X, Y )) 2 4V ar(x)v ar(y ) 0, Remarquos au passage que le cas d égalité se produit lorsque le discrimiat de l équatio 5.1 est ul. Das ce cas, l équatio admet ue racie double : 2Cov(X, Y )) a = 2V ar(y ) = = Cov(X, Y ) V ar(y ) { σ X σ Y si Cov(X, Y ) = +σ X σ Y σ X σy si Cov(X, Y ) = σ X σ Y Das le premier cas, cela sigifie que X σ X σy Y a ue variace ulle, doc est ue costate, d où Das le secod cas, X = σ X σ Y Y + costate. X = σ X σ Y Y + costate. Ces deux cas sot les seuls cas d égalité das la propositio 2. Ils correspodet au fait que les variables Y et Y s obtieet l ue à partir de l autre par ue applicatio affie. 2.3. Coefficiet de corrélatio Défiitio 5.2. Le coefficiet de corrélatio r(x, Y ) est défii par : r(x, Y ) = Cov(X, Y ) σ X σ Y. U.F.R. Maths-Ifo 25 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES C est u coefficiet sas uité. Sa valeur absolue est ivariate par traslatio et chagemet d échelle des variables : pour toutes costates réelles a 0, b, c 0, d, Propriété 5.2. il découle de la propositio 2 que De plus, les cas de l égalité sot les suivates : r(ax + b, cy + d) = ac r(x, Y ). ac 1 r(x, Y ) 1..r(X, Y ) = 1 si et seulemet si les deux variables satisfot ue relatio affie du type Y = ax + b avec a > 0..r(X, Y ) = 1 si et seulemet si les deux variables satisfot ue relatio affie du type Y = ax + b avec a < 0. Lorque le uage des poits (x i, y i ) est exactemet situé sur ue droite (cas idéal), o est das la situatio où r(x, y) = ±1. Lorsque r(x, Y ) est proche de ±1 (pour fixer les idées : r(x, Y ) 0, 8, alors il y a ue laiso liéaire importate etre X et Y. Lorsqu au cotraire r(x, Y ) est proche de 0, alors il existe pas de relatio liéaire etre X et Y. Attetio, il peut y avoir quad même u autre type de laiso etre X et Y. 2.4. Régressio liéaire O suppose à préset que les observatios du couple de variable (X, Y ) satisfot ue relatio de la forme suivate, y i = ax i + b + ɛ i, i = 1,...,, (5.2) où a et b sot des coefficiets réels. Le terme ɛ i désige u bruit, c est à dire ue pertubatio supposée petite. Das ce cour, o e cherchera pas à doer u ses précis a la mesure de ce bruit. Disposat des observatios (x i, y i ) du couple (X, y), o cherche à trouver les coefficiets a et b qui permettet le mieux d ajuster les doées à ue relatio du type (5.2), au ses du critère des moidres carrés. O cherche mi a,b (y i b ax i ) 2. (5.3) La solutio, qui s obtiet e aulat les dérivées partielles de la foctio de (a, b) qui est miimisée e (5.3), est â = Cov(X, Y ) V ar(x), ˆb = ȳ â x, où x et ȳ désige les moyees respective de X et Y. La droite des moidres carrés est la droite d équatio : y = âx + ˆb. O peut remarquer qu elle passe toujours par le barycetre ( x, ȳ) du uage U.F.R. Maths-Ifo 26 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES de poits. Sa pete peut aussi s écrire à l aide du coefficiet de corrélatio : â = r(x, y) σ X σy. Predictio Pour ue valeur x 0 de la variable X qui e fait pas partie des observatios, o peut faire ue prédictio de la valeur correspodate de Y e calculat l ordoée du poit d abscisse x 0 sur la droite des moidres carrés : y 0 = âx 0 + ˆb 2.5. Régressio liéaire aprés trasformatio d ue variable O suppose que les observatios (x i, y i ) satisfot ue rélatio de type y i = af(x i ) + b + ɛ i, Pour ue certaie foctio f doée et de bruit ɛ i. O peut estimer les coefficiets de la droite de régressio de Y sur f(x) par la méthode décrite auparavat. 3. Liaiso etre deux variables qualitatives 3.1. Mesure de la liaiso etre deux variables qualitatives Compairaiso qualitative des profils-liges ou des profils-coloes Il y a idépedace stricte etre X et Y lorsque tous les profils-liges sot idetiques. Il sot das ce cas tous idetiques à la distributio margial de Y. De la même maière, l idépedace a lieu lorsque tous les profils-coloes sot égaux à la distributio margiale de X. Ceci implique : pour tous i, j, ij = i..j. (5.4) Réciproquemet, si (5.4) a lieu, alors il y a idépedace etre X et Y. preuve : La distace du χ 2 pour mesurer l écart à l idépedace Das la pratique, cette idépedace stricte e s observe jamais sur u échatillos. O peut être plus ou mois éloigé de cette situatio parfaite. La distace du χ 2 d écart à l idépedace permet de mesurer le degré de dépedace etre X et Y. Elle se base sur la comparaiso etre ij et i..j. U.F.R. Maths-Ifo 27 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES Défiitio 5.3. La distace du χ 2 observée sur la série statistique {(x 1, y 1 ),..., (x, y )} est défiie par χ 2 = I (( J ij i..j j=1 Exemple 33. Distace du χ 2 pour mesurer l écart à l idépedace etre les variables "situatio i..j quat à l immigratio" et "situatio professioelle" e Frace 2006. Propriété 5.3. la gradeur χ 2 = 0 si il y a idépedace stricte etre X et Y. la gradeur χ 2 est d autat plus élevée que la laiso est forte : il existe alors des cellules (i, j) avec ue écart importat ij i..j. l iégalité suivate est toujours vérifiée : ) 2 ) χ 2 mi{i 1, J 1}. Défiitio 5.4. O appelle cotributio au χ 2 du couple de modalités (C i, D j ) et (X, Y ) la quatité ( ij i..j ) 2 i..j. Plus la cotributio est forte, plus la laiso etre les modalités C i et D j est importate. Défiitio 5.5. L associatio etre les modalités C i et D j est dite positive si ij i..j est égative si ij i..j < 0. > 0. Elle Exemple 34. Liaiso etre la modalité "Elèves, étudiats, stagiaires" de la variable "Situatio professioelle" et la modalité "Immigrés" de la variable "Situatio quat à l immigratio". Défiitio 5.6. Le coefficiet C de Cramer est défii par : χ C = 2. mi{i 1, J 1}. Propriété 5.4. 0 C 1 C = 0 lorsqu il y a idépedace. De petites valeurs de C sigiet que la liaiso etre X et Y est trés faible. Des valeurs proches de 1 sigifiet qu il y a ue forte liaiso forte etre X et Y. Ce coefficiet, qui varie etre 0 et 1, permet de comparer la laiso etre plusieurs couples de variables. Exemple 35. Calcul du C de Cramer pour mesurer l écart à l idépedace etre les variables "Situatio quat à l immigratio" et " Situatio professioelle" e Frace e 2006. 3.2. Représetatio graphique a) Distributio joit U.F.R. Maths-Ifo 28 Prof. Auguste AMAN et Dr. Jea Marc OWO

CHAPITRE 5. LAISON ENTRE DEUX VARIABLES Exemple 36. Diagramme e barres de la distributio joite des variables "Situatio quat à l immigratio" et "Situatio professioelle". b) Distributio coditioelle Exemple 37. Diagramme e barres de la distributio de la variable "Situatio professioelle" sachat la variable "Situatio quat à l immigratio". 4. liaiso etre variable qualitative et ue variable quatitative O observe des couples {(x i, y i ), 1 i } d observatios du couple de variable (X, Y ) avec : X qualitative à I modalités : C 1,..., C I Y quatitative, discrète ou cotiue,avec doée brutes ou regroupées e classes. Exemple 38. 4.1. Classemet des doées et distributios margiales La distributio margiale de X est la distributio associée à la série statistique (x 1,..., x ) (variable qualitative). La distributio margiale de Y est est la distributio associée à la série statistique (y 1,..., y ) (variable quatitative). O ote ȳ la moyee margiale e la variable Y et de σy 2 sa variace margiale. O ote 1.,..., I. les effectifs margiaux de la variable X. C est-à-dire : 1. est l effectif des observatios pour lesquelles X pred la modalité C 1, etc...o peut regrouper les couples d observatios (x i, y i ) qui comportet la même modalité x i. Après regroupemet, o obtiet la ouvelle éumératio : (x 11, y 11 ), (x 12, y 12 ),..., (x 11., y 11. ) = (C 1, y 11 ), (C 1, y 12 ),..., (C 1, y 11. ) (x 21, y 21 ), (x 22, y 22 ),..., (x 22., y 22. ) = (C 2, y 21 ), (C 2, y 22 ),..., (C 2, y 22. )... (x I1, y I1 ), (x I2, y I2 ),..., (x II., y II. ) = (C I, y I1 ), (C I, y I2 ),..., (C I, y II. ) U.F.R. Maths-Ifo 29 Prof. Auguste AMAN et Dr. Jea Marc OWO