Théorie de la décision (corrélation et régression) Corrélation et régression Objectifs Vérifier l'existence d'association entre deux variables Exprimer la loi de cette relation? Applications Concordance de deux méthodes de dosages Pharmacologie : Courbe dose / réponse THÉORIE DE LA DÉCISION 1 THÉORIE DE LA DÉCISION 2 Situation 1 : Dosage sanguin et salivaire Suje t s SANG SALIVE 1 1 4 2 3 32 3 1 4 21 2 6 24 2 7 22 31 24 27 17 32 2 4 32 2 31 24 1 6 1 21 L'ion est utilisé pour mesurer un intoxication au cannabis Vous dosez cet ion chez 1 adolescents selon deux méthodes : Un dosage sanguin Un dosage salivaire THÉORIE DE LA DÉCISION 3 Situation 2 : Âge et taux de cholestérol Âge LDL 6 7 1,6 6 1,7 6 1,2 7,7 6 6 1, 7 4 1,16, 7 1, 7 7 1,31 7 1,6 Vous mesurez le taux de cholestérol LDL de personnes de plus de ans Que déduisez-vous des résultats obtenus? THÉORIE DE LA DÉCISION 4 Deux problèmes : Étude observationnelle Deux variables dépendantes : ex : Deux taux hormonaux ex : Test Retest Corrélation : Les deux variables varientelles conjointement? Il n'y a pas de variable de contrôle Pas de lien de causalité Étude expérimentale Une variable de contrôle facteur explicatif ex : Dosage d'un médicament Une variable expliqué (dépendante) ex : Réponse hormonale Régression : Comment la variable dépendante varie-t-elle en fonction du facteur de contrôle? Lien de causalité Courbe Dose/Réponse THÉORIE DE LA DÉCISION THÉORIE DE LA DÉCISION 6 1
Situation 1 : Dosages Deux variables dépendantes : Dosage sanguin Étude de corrélation : Les deux techniques sont-elles concordantes? Concordance : Variation conjointe des deux indicateurs, même conclusion Pas un test d'égalité des moyennes! THÉORIE DE LA DÉCISION 7 Situation 2 : Cholestérol et âge Une variable de contrôle L'âge du sujet Une variable dépendante Le taux de cholestérol Étude de régression : L'âge permet-il d'expliquer l'augmentation du cholestérol? Quelle relation exprime l'évolution du LDL selon l'âge? Quelles normes pour le cholestérol à un âge donné? THÉORIE DE LA DÉCISION Mesure de l'association Le diagramme cartésien Visualisation graphique d'une éventuelle association linéaire Ce n'est pas de critère objectif! Construction Le facteur explicatif est porté en abscisse La variable expliquée est mise en ordonnée Chaque couple d'observations définit un point dans le graphique THÉORIE DE LA DÉCISION Interprétation du graphique Corrélation linéaire positive Possible Forte Parfaite THÉORIE DE LA DÉCISION Corrélation linéaire négative Pas de corrélation linéaire Absence de corrélation Possible Forte Parfaite Corrélation non linéaire THÉORIE DE LA DÉCISION THÉORIE DE LA DÉCISION 2
3 3 ( 1 suje t s de 1 à 2 a ns) Le coefficient de corrélation r de PEARSON Objectif 2 2 1 Mesurer le degré d association linéaire entre deux variables Validité Populations gaussiennes Variables numériques 1 2 2 3 3 4 4 THÉORIE DE LA DÉCISION Procédure de calcul Calculer les moyennes : x et y Calculer les sommes des carrés des données (cf. variance) : Σx² et Σy² Calculer les produits des observations (covariance) : Σ(x y) Calculer la statistique r : Propriétés du coef. de corrélation Mesure du degré d association linéaire entre les deux variables -1 r +1 r : intensité de la relation + ou : sens de la relation Indépendant des échelles utilisées pour représenter les variables Symétrique (permutation de et de ) THÉORIE DE LA DÉCISION 1 THÉORIE DE LA DÉCISION 16 Interprétation du coefficient r 1 Association linéaire forte r > Relation croissante r < Relation décroissante r Pas de relation linéaire Absence totale d association Variable exogène : corrélation causalité Valeurs singulières r est très peu robuste Situation 1 : Dosages Moyennes x SANG = 2, x SAL. = 16,4 Somme des carrés des mesures Σ x² k = 1² + + 21² = 23 Σ y² k = 4² + + ² = 4 THÉORIE DE LA DÉCISION 17 THÉORIE DE LA DÉCISION 1 3
Somme des produits des mesures Σ x k y k = 1 4 + + 21 = 726 Appliquer la formule du coefficient de corrélation : 3 3 2 2 1 1 (1 sujets de 1 à 2 ans) 3 r =,7 (1 sujets de 1 à 2 ans) 3 2 1 1 2 2 3 3 4 4 2 r =,72 1 THÉORIE DE LA DÉCISION 1 1 2 2 3 3 4 4 Le test de corrélation de PEARSON Objectif Mettre à jour une relation linéaire entre deux variables Hypothèse nulle Il n'y a pas d'association entre les variables H : ρ = Procédure Calculer le coefficient de PEARSON ddl = N 2 THÉORIE DE LA DÉCISION 21 Interprétation des résultats Plus r est proche de 1 en valeur absolue plus forte est l'association entre les deux variables L'hypothèse nulle (aucune corrélation) est rejetée si la valeur de r excède la valeur de référence pour le degré d'erreur accepté r r th (%) corrélation significative THÉORIE DE LA DÉCISION 22 Dosages sanguins et salivaires r =,7 Recherche de r th N = 1 R th (%) =, R th (1%) =,641 N = % = 1 %,632,76,62,73,76,7,3,64,32,661 1, 1 4,6 4 1 16,47,623 17,42,66 1,46, 1,46,7 2,444,61 Le coefficient de détermination : r² Carré du coefficient de corrélation Intensité de la liaison entre les deux variables (pourcentage) r² =, les deux variables sont liées à % et libres à % r² =,7 les deux variables sont liées à 7% et libres à 2% Association linéaire très significative (les deux techniques sont très concordantes) THÉORIE DE LA DÉCISION 23 THÉORIE DE LA DÉCISION 24 4
Attention aux interprétations hâtives : Corrélation Relation de cause à effet Variables exogènes (poids et hygiène dentaire) L'association est proportionnelle à r² et non à r r absence d'association Corrélation non-paramétrique : Lorsque les données violent les conditions d'application du coefficient de Pearson Données non numériques Distributions non gaussienne (asymétrie) Effectifs réduits THÉORIE DE LA DÉCISION 2 THÉORIE DE LA DÉCISION 26 Le coefficient de corrélation des rangs de SPEARMAN : r S Objectif Mesurer l association linéaire entre deux variables ( coef. de PEARSON) Petits échantillons Validité Variables non gaussiennes (asymétriques) Données ordinales ou numériques Procédure Rechercher le rang de chacune des observations : x k r(x k ) ety k r(y k ) Calculer la différence des rangs pour chaque couple d observations: d k = r(x k ) - r(y k ) ; k = 1,...,N Appliquer la formule : THÉORIE DE LA DÉCISION 27 THÉORIE DE LA DÉCISION 2 Dosages sanguin et salivaire Recherche des rangs et calcul de leur différence SANG 1 3 1 1 1 2 2 1 2 1 2 2 2 4 2 7 3 1 3 1 3 2 3 4 Ra ng 1 2, 2, 4 6, 6, 1 1 1, 1 1, 1 3 1 4 1 SALIVE 2 6 4 1 4 1 2 1 4 2 1 7 2 4 2 4 2 3 2 3 2 Ra ng 1 3 2 4 7, 6 7, 1 1 1, 1 1, 1 3 1 4, 1 4,, -, 2, -1, -, -, 1-1, -, ²,2,2 6,2 2,2,2,2 1 1,2,2 Σ d² = THÉORIE DE LA DÉCISION 2 La table du coefficient de SPEARMAN permet de juger de la dépendance linéaire des deux variables N = % = 1 %,64,74,623,77,1,7,66,74,4,716 1,2,6 16,7,666 17,4,64 1,476,62 1,462,6 2,4,1 r S (calc) =,7 r S (%) =,2 r S (1%) =,6 Association linéaire très significative THÉORIE DE LA DÉCISION 3
La droite des moindres carrés Corrélation Mesurer l association Régression Décrire l association Objectif Trouver la droite qui s ajuste le mieux aux observations dans le diagramme cartésien Exprimer quantitativement comment une variable varie en fonction de l autre Validité Les populations sont gaussiennes Les données sont numériques Le test de corrélation est significatif Propriétés L'équation de la droite de régression est très peu robuste Faut-il conserver une valeur exceptionnelle dans l analyse? THÉORIE DE LA DÉCISION 31 THÉORIE DE LA DÉCISION 32 (1 sujets de 1 à 2 ans) 3 3 2 2 1 (1 sujets de 1 à 2 ans) 3 1 3 2 1 1 2 2 3 3 4 4 2 1 1 Procédure de calcul Calculer les statistiques sur les deux échantillons : Moyennes Écarts type Coefficient de corrélation L équation est : ŷ=a+b x avec 1 1 2 2 3 3 4 4 THÉORIE DE LA DÉCISION 34 Âge et cholestérol 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 3 x = 66, y =,34 s = 6,4 s = 1,42 r =,4 b =,4 1,42/6,4 =,17 6 6 7 7 a =,34,17 66, = - 1, Âge (a nné e s) THÉORIE DE LA DÉCISION 36 6
Estimation et intervalle de prédiction Objectif Quelle est la fourchette de référence de la variable en fonction une valeur arbitraire du facteur? Que se passe-t-il en dehors des zones observées? Quelles sont les précisions sur les estimations et les extrapolations? THÉORIE DE LA DÉCISION 37 Les résidus : Interprétation Écart entre la valeur prédite par le modèle et la valeur réellement observée Ex : L âge explique en partie l'évolution du taux de cholestérol mais d autres facteurs agissent : Facteurs génétiques Alimentation Hygiène de vie THÉORIE DE LA DÉCISION 3 Résidu Déviation expliquée Déviation totale y y Dispersion des résidus La dispersion des résidus est une mesure de l erreur d estimation : 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 3 THÉORIE DE LA DÉCISION 4 Intervalle de confiance la fourchette dans laquelle on retrouve la valeur y associé à x avec une confiance de 1-α Taux de cholestérol et âge Détermination des normes selon l'âge du patient Quels sont les valeurs de référence du taux de LDL chez des sujets de 74 ans? THÉORIE DE LA DÉCISION 41 THÉORIE DE LA DÉCISION 42 7
Âge et taux de cholestérol Référence du taux de LDL chez des sujets de 74 ans? Valeur prédite par le modèle : Calcul de l erreur d estimation Calcul de la marge d'erreur et de l intervalle de confiance E=2,36,1 1+1 +(7466,)2 =,72 y =,71 ±,72 THÉORIE DE LA DÉCISION 43 THÉORIE DE LA DÉCISION 44 Fourchette de référence à 74 ans 6 6 7 7 Intervalle de prédiction Que se passe-t-il en dehors des zones zones observables? Effets secondaires si on triple le dosage Seulement si le modèle linéaire reste valide (pas de rupture) Le risque d erreur augmente si on s éloigne de la zone observée L intervalle de prédiction : deux courbes situées de part et d autre de la droite de régression Âge (années) THÉORIE DE LA DÉCISION 4 THÉORIE DE LA DÉCISION 46 16 1 Corrélations multiples Dans notre exemple, le taux de LDL est lié à l âge à concurrence de 71% 2% de la variabilité du taux de LDL ne sont pas expliqués par le modèle Autres facteurs : Génétique, alimentation, Un procédé de corrélations multiples permet de mesurer l importance individuelle de chaque facteur 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 47 THÉORIE DE LA DÉCISION 4
Régressions à deux pentes Certains traitements évoluent en deux phases Les premières séances amènent une amélioration rapide Les suivantes apportent des progrès plus lents L analyse du diagramme cartésien et la détermination des droites de régression permettent de préciser quand apparaît cette transition THÉORIE DE LA DÉCISION 4 Réponse hormonale 7 6 4 3 2 1 2 2 Durée du traitement THÉORIE DE LA DÉCISION