Biostatistiques Licece Chapitre 2 : Statistique descriptive bivariée Itroductio Deux variables X et Y mesurées sur u même échatillo : commet mesurer leur relatio? Taille de l échatillo : Doées : (x, y ),, (x, y ) Deux variables qualitatives Applicatio Equête sur les étudiats de L de l UM2 : 2 Distributios Résultat\Absetéisme Rare Moye Fort Admis 73 24 6 Recalé 23 4 5 Rappel : Distributio = Modalités + Effectifs (ou Fréqueces) associé(e)s 2 Distributio joite Modalités de X : m,, m K Modalités de Y : m,, m L Modalités de (X, Y ) : (m, m ), (m 2, m ),, (m K, m ), (m 2, m ),, (m K, m L ) Effectifs associés : i,j i =,, K, j =,, L Tableau de cotigece : O a = K L j= i,j Fréqueces associées : f i,j = i,j Calculer les fréqueces joites pour l Appli 22 Distributios margiales X \Y m m L m,,l m K K, K,L Distributio joite Distributio de X et Distributio de Y Effectifs margiaux de X : i, = L j= i,j pour tout i =,, K Effectifs margiaux de Y :,j = K i,j pour tout j =,, L Tableau de cotigece : XY m m L Total m,,l, m K K, K,L K, Total,,L
O a bie K i, = L j=,j = Fréqueces margiales :f i, = i, et f,j =,j Calculer les fréqueces margiales pour l Appli 23 Distributios coditioelles Distributio coditioelle de Y sachat X Objectif : Tester l ifluece de X sur Y Partitio de l échatillo e sous-échatillos : E m,, E mk coteat respectivemet,,, K, idividus Distributio coditioelle de Y sachat X = m k, otée Y X=mk ou Y mk : Y mk m m L Total Effectifs k, k,l k, Fréqueces k, k, k,l k, Calculer les distributios coditioelles (e fréqueces) de Résultat pour l Appli Distributio coditioelle de X sachat Y Objectif : Tester l ifluece de Y sur X Partitio de l échatillo e sous-échatillos : E m,, E m L coteat respectivemet,,,,l idividus Distributio coditioelle de X sachat Y = m l, otée X Y =m l ou X m l : X m l m m K Total Effectifs,l K,l,l Fréqueces,l,l K,l,l Calculer les distributios coditioelles (e fréqueces) de Absetéisme pour l Appli 3 Mesure d idépedace 3 Vérificatio graphique O a : Ifluece miime de X sur Y Distributios coditioelles de Y e fréqueces semblables à la distributio margiale de Y Idée : représeter les distributios coditioelles et la distributio margiale (e fréqueces) par des diagrammes e bâtos sur u même graphe Représeter graphiquemet les distributios coditioelles et margiale de Résultat pour l Appli 2
32 Effectifs théoriques d idépedace O a : Idépedace totale etre X et Y Distributios coditioelles de Y e fréqueces égales à la distributio margiale de Y Effectifs théoriques d idépedace : Pour tout i =,, K et j =,, L : i,j,j = i, Pour tout i =,, K et j =,, L : i,j = i,,j doc ñ i,j = i,,j Idépedace totale etre X et Y Pour tout i =,, K et j =,, L : i,j = ñ i,j Das le cas cotraire, deux possibilités : i,j > ñ i,j phéomèe d attractio etre les modalités m i et m j si i,j < ñ i,j, phéomèe de répulsio etre les modalités m i et m j Calculer les effectifs théoriques d idépedace pour l Appli et commeter La statistique du Khi-deux mesure l écart à l idépedace etre X et Y : et o a : χ 2 = K L j= ( i,j ñ i,j ) 2 ñ i,j Idépedace totale etre X et Y χ 2 = 0 Calculer la statistique du χ 2 pour l Appli 2 Ue variable quatitative, ue qualitative Variable qualitative : X Variable quatitative : Y Questio : Valeurs de Y différetes suivat modalité de X OU idépedace? 2 Applicatio 2 Ours observés aux USA e 2002 : Poids(kg)\Espèce Grizzly Kodiak Ours blac - de 200 28 4 3 200-400 35 64 24 400-600 73 5 60 + de 600 2 8 32 3
22 Applicatio 3 Echatillo de méages fraçais : 23 Distributios coditioelles Nombre d efats\situatio Locataire Propriétaire 0 36 7 2 4 2 27 4 3 28 Idée : représeter les distributios coditioelles et la distributio margiale de Y Problème : si Y cotiue, plusieurs histogrammes écessaires Représeter les distributios coditioelles et la distributio margiale de Poids pour l Appli 2 24 Moyees et variaces coditioelles Distributios coditioelles de Y : Y X=m,, Y X=mK Moyees coditioelles de Y : ȳ,, ȳ K Variaces coditioelles de Y : s 2,, s2 K Calculer les moyees coditioelles et la moyee globale de Poids pour l Appli 2 Idem pour les variaces 25 Décompositio de la moyee O ote ȳ la moyee globale de Y et o a : ȳ = f i, ȳ i = i, ȳ i La moyee globale est pas égale à la moyee des moyees coditioelles mais à ue moyee podérée par les fréqueces 26 Décompositio de la variace O ote s 2 la variace globale de Y et o a : s 2 = f i, s 2 i + f i, (ȳ i ȳ) 2 = i, s 2 i }{{} variace itra-groupes + i, (ȳ i ȳ) 2 }{{} variace iter-groupes Variace iter grade Disparité importate etre les groupes Mesure de l ifluece de X sur Y : le coefficiet de détermiatio R 2 = variace iter variace globale = Deux cas extrêmes : R 2 = 0 aucue dépedace de Y par rapport à X R 2 = dépedace complète de Y par rapport à X K i,(ȳ i ȳ) 2 K i,[s 2 i + (ȳ i ȳ) 2 ] 4
Calculer le coefficiet de détermiatio de Poids e foctio de Espèce pour l Appli 2 L aalyse est idetique lorsque la variable quatitative est discrète Etudier la dépedace de Situatio e foctio de Nombre d efats pour l Appli 3 3 Deux variables quatitatives 3 Applicatio 4 Bébés és le 0/0/200 das la materité de Nîmes (aissaces uiques) : Poids (kg) 32 303 292 346 378 287 376 334 297 356 Taille (cm) 486 493 472 505 52 499 52 500 502 52 32 Représetatio graphique 32 Nuage de poits Défiitio : Représetatio graphique des poits de coordoées (x i, y i ) Représeter Taille e foctio de Poids pour l Appli 4 322 Régressio Objectif : trouver, à partir du uage de poits, ue foctio f : R R telle que Y = f(x) + ε où ε : R R est u terme d erreur aussi petit que possible 323 Type de relatios L observatio du uage de poits ous idique trois choses : itesité de la relatio : la relatio est forte si x i proche de x j implique que y i est proche de y j forme de la relatio : o distigue gééralemet les relatios liaires où le uage de poits forme ue droite des relatios o liéaires (expoetielle, quadratiques, siusoïdales ) ses de la relatio : il est positif si la relatio coserve l ordre : x i > x j y i > y j (a) Pas de relatio (b) relatio faible (c) relatio forte 33 Covariace Cov(x, y) = (x i x)(y i ȳ) = xy xȳ où xy = x iy i Covariace positive relatio etre X et Y (globalemet) croissate 5
(d) relatio liéaire (e) relatio o liéaire (f) relatio crois-(gsate relatio décroissate Calculer la covariace etre Taille et Poids pour l Appli 4 34 Régressio liéaire Objectif : trouver ue foctio liéaire (ou affie) qui relie X et Y f(x) = ax + b 34 Droite des moidres carrés Méthode des moidres carrés : choisir de miimiser la somme des erreurs quadratiques (y i ax i b) 2 O motre que les valeurs de a et de b qui miimiset cette distace sot respectivemet Cov(x, y) â = s 2 = x iy i xȳ x x2 i et ˆb = ȳ â x x2 La droite y = âx + ˆb, dite de régressio liéaire, passe par le cetre de gravité du uage ( x, ȳ) Tracer la droite des moidres carrés de Taille e foctio de Poids pour l Appli 4 342 Coefficiet de corrélatio Mesure de l adéquatio de os observatios au modèle liéaire : ρ(x, y) = Cov(x, y) = x iy i xȳ s x s y x2 i x2 y2 i ȳ2 Iterprétatio : ρ(x, y) = ou le uage de poits est ue droite ρ(x, y) = 0 aucue relatio liéaire etre X et Y Calculer le coefficiet de corrélatio liéaire etre Taille et Poids pour l Appli 4 6