Théorie de la décision (corrélation et régression)

Documents pareils
Relation entre deux variables : estimation de la corrélation linéaire

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3. Les distributions à deux variables

Leçon N 4 : Statistiques à deux variables

Introduction à l approche bootstrap

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Note de service À : De :

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse de la variance Comparaison de plusieurs moyennes

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques à deux variables

Principe d un test statistique

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

ntred 2007 Résultats de l étude Description des personnes diabétiques

CAPTEURS - CHAINES DE MESURES

FONCTION DE DEMANDE : REVENU ET PRIX

FICHE 1 Fiche à destination des enseignants

Biostatistiques : Petits effectifs

TABLE DES MATIERES. C Exercices complémentaires 42

Chapitre 2/ La fonction de consommation et la fonction d épargne

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

Table des matières. I Mise à niveau 11. Préface

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours 9 : Plans à plusieurs facteurs

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés?

Régression linéaire. Nicolas Turenne INRA

Chapitre 4 : Régression linéaire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Mesure du volume d'un gaz, à pression atmosphérique, en fonction de la température. Détermination expérimentale du zéro absolu.

23. Interprétation clinique des mesures de l effet traitement

Annexe commune aux séries ES, L et S : boîtes et quantiles

T de Student Khi-deux Corrélation

Introduction à la statistique non paramétrique

Une étude de différentes analyses réalisées par le BIT

Les Jeudis de l'europe

Exemples d utilisation de G2D à l oral de Centrale

Aide-mémoire de statistique appliquée à la biologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les usagers de drogues âgés de 40 ans et plus pris en charge dans les structures de soins pour leurs problèmes d addiction

Statistiques Descriptives à une dimension

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

De la mesure à l analyse des risques

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

STATISTIQUES. UE Modélisation pour la biologie

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Estimation et tests statistiques, TD 5. Solutions

«Cours Statistique et logiciel R»

M2 IAD UE MODE Notes de cours (3)

Lecture graphique. Table des matières

Comment s exerce l autorisation parentale de sortie de l enfant du territoire national ou l opposition à cette sortie?

glossaire Appellation commerciale Voir nom de marque.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Collaboration MRS (MRPA) - Pharmacie

Assurance-maladie complémentaire (LCA)

SANTÉ. E-BOOK équilibre. stop. cholesterol diabete hypertension. Réduire le cholestérol, l hypertension et le diabète SANS MEDICAMENT!

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Le programme de soutien des soins primaires pour diabétiques de London : Des soins pour diabétiques différents

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Le Test d effort. A partir d un certain âge il est conseillé de faire un test tous les 3 ou quatre ans.


Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Les médicaments génériques

Pratique des options Grecs et stratégies de trading. F. Wellers

Logistique, Transports

Quelles sont les principales formules utiles pour l étude de cas de vente?

Logiciel XLSTAT version rue Damrémont PARIS

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

3 décembre Négociations DECFO-SYSREM Séance n 5. Service du personnel. Rue Caroline Lausanne

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

CHAPITRE VI : HYBRIDATION GEOMETRIE DES MOLECULES

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Statistiques à une variable

POUR UN ENCADREMENT DES PÉNALITÉS HYPOTHÉCAIRES AU CANADA. Richard Beaumier, FCA, CFA, MBA VICE-PRÉSIDENT, COMITÉ RELATIONS GOUVERNEMENTALES

Note:... Q1 :... Q2 :... Q3 :... Q4 :... Bonus :... Total :...

L analyse de la gestion de la clientèle

Essais cliniques de phase 0 : état de la littérature

Probabilités III Introduction à l évaluation d options

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

Définir la gestion de projets 11. Exploiter les techniques de gestion de projets 11. Planifier un projet 12. Lister les tâches et les jalons 13

Théorie des sondages : cours 5

COURS GESTION FINANCIERE SEANCE 4 CHOIX DU NIVEAU DU FONDS DE ROULEMENT PLANS DE TRESORERIE FINANCEMENTS ET PLACEMENTS A COURT TERME


Provisions pour risques croissants en santé SACEI 13 mars 2008

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Economie Générale Initiation Ecole des Ponts - ParisTech

GUIDE DU TUTEUR ACCUEIL D UN ETUDIANT EN BTS MUC. Management des Unités Commerciales. Stage de 1ère année

Correction du bac blanc CFE Mercatique

ANALYSE COMPARATIVE Assurance médicaments (prime annuelle) PLAN OFFERT À L AJBM PAR MÉDICASSURANCE INC.

C2 - DOSAGE ACIDE FAIBLE - BASE FORTE

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Transcription:

Théorie de la décision (corrélation et régression) Corrélation et régression Objectifs Vérifier l'existence d'association entre deux variables Exprimer la loi de cette relation? Applications Concordance de deux méthodes de dosages Pharmacologie : Courbe dose / réponse THÉORIE DE LA DÉCISION 1 THÉORIE DE LA DÉCISION 2 Situation 1 : Dosage sanguin et salivaire Suje t s SANG SALIVE 1 1 4 2 3 32 3 1 4 21 2 6 24 2 7 22 31 24 27 17 32 2 4 32 2 31 24 1 6 1 21 L'ion est utilisé pour mesurer un intoxication au cannabis Vous dosez cet ion chez 1 adolescents selon deux méthodes : Un dosage sanguin Un dosage salivaire THÉORIE DE LA DÉCISION 3 Situation 2 : Âge et taux de cholestérol Âge LDL 6 7 1,6 6 1,7 6 1,2 7,7 6 6 1, 7 4 1,16, 7 1, 7 7 1,31 7 1,6 Vous mesurez le taux de cholestérol LDL de personnes de plus de ans Que déduisez-vous des résultats obtenus? THÉORIE DE LA DÉCISION 4 Deux problèmes : Étude observationnelle Deux variables dépendantes : ex : Deux taux hormonaux ex : Test Retest Corrélation : Les deux variables varientelles conjointement? Il n'y a pas de variable de contrôle Pas de lien de causalité Étude expérimentale Une variable de contrôle facteur explicatif ex : Dosage d'un médicament Une variable expliqué (dépendante) ex : Réponse hormonale Régression : Comment la variable dépendante varie-t-elle en fonction du facteur de contrôle? Lien de causalité Courbe Dose/Réponse THÉORIE DE LA DÉCISION THÉORIE DE LA DÉCISION 6 1

Situation 1 : Dosages Deux variables dépendantes : Dosage sanguin Étude de corrélation : Les deux techniques sont-elles concordantes? Concordance : Variation conjointe des deux indicateurs, même conclusion Pas un test d'égalité des moyennes! THÉORIE DE LA DÉCISION 7 Situation 2 : Cholestérol et âge Une variable de contrôle L'âge du sujet Une variable dépendante Le taux de cholestérol Étude de régression : L'âge permet-il d'expliquer l'augmentation du cholestérol? Quelle relation exprime l'évolution du LDL selon l'âge? Quelles normes pour le cholestérol à un âge donné? THÉORIE DE LA DÉCISION Mesure de l'association Le diagramme cartésien Visualisation graphique d'une éventuelle association linéaire Ce n'est pas de critère objectif! Construction Le facteur explicatif est porté en abscisse La variable expliquée est mise en ordonnée Chaque couple d'observations définit un point dans le graphique THÉORIE DE LA DÉCISION Interprétation du graphique Corrélation linéaire positive Possible Forte Parfaite THÉORIE DE LA DÉCISION Corrélation linéaire négative Pas de corrélation linéaire Absence de corrélation Possible Forte Parfaite Corrélation non linéaire THÉORIE DE LA DÉCISION THÉORIE DE LA DÉCISION 2

3 3 ( 1 suje t s de 1 à 2 a ns) Le coefficient de corrélation r de PEARSON Objectif 2 2 1 Mesurer le degré d association linéaire entre deux variables Validité Populations gaussiennes Variables numériques 1 2 2 3 3 4 4 THÉORIE DE LA DÉCISION Procédure de calcul Calculer les moyennes : x et y Calculer les sommes des carrés des données (cf. variance) : Σx² et Σy² Calculer les produits des observations (covariance) : Σ(x y) Calculer la statistique r : Propriétés du coef. de corrélation Mesure du degré d association linéaire entre les deux variables -1 r +1 r : intensité de la relation + ou : sens de la relation Indépendant des échelles utilisées pour représenter les variables Symétrique (permutation de et de ) THÉORIE DE LA DÉCISION 1 THÉORIE DE LA DÉCISION 16 Interprétation du coefficient r 1 Association linéaire forte r > Relation croissante r < Relation décroissante r Pas de relation linéaire Absence totale d association Variable exogène : corrélation causalité Valeurs singulières r est très peu robuste Situation 1 : Dosages Moyennes x SANG = 2, x SAL. = 16,4 Somme des carrés des mesures Σ x² k = 1² + + 21² = 23 Σ y² k = 4² + + ² = 4 THÉORIE DE LA DÉCISION 17 THÉORIE DE LA DÉCISION 1 3

Somme des produits des mesures Σ x k y k = 1 4 + + 21 = 726 Appliquer la formule du coefficient de corrélation : 3 3 2 2 1 1 (1 sujets de 1 à 2 ans) 3 r =,7 (1 sujets de 1 à 2 ans) 3 2 1 1 2 2 3 3 4 4 2 r =,72 1 THÉORIE DE LA DÉCISION 1 1 2 2 3 3 4 4 Le test de corrélation de PEARSON Objectif Mettre à jour une relation linéaire entre deux variables Hypothèse nulle Il n'y a pas d'association entre les variables H : ρ = Procédure Calculer le coefficient de PEARSON ddl = N 2 THÉORIE DE LA DÉCISION 21 Interprétation des résultats Plus r est proche de 1 en valeur absolue plus forte est l'association entre les deux variables L'hypothèse nulle (aucune corrélation) est rejetée si la valeur de r excède la valeur de référence pour le degré d'erreur accepté r r th (%) corrélation significative THÉORIE DE LA DÉCISION 22 Dosages sanguins et salivaires r =,7 Recherche de r th N = 1 R th (%) =, R th (1%) =,641 N = % = 1 %,632,76,62,73,76,7,3,64,32,661 1, 1 4,6 4 1 16,47,623 17,42,66 1,46, 1,46,7 2,444,61 Le coefficient de détermination : r² Carré du coefficient de corrélation Intensité de la liaison entre les deux variables (pourcentage) r² =, les deux variables sont liées à % et libres à % r² =,7 les deux variables sont liées à 7% et libres à 2% Association linéaire très significative (les deux techniques sont très concordantes) THÉORIE DE LA DÉCISION 23 THÉORIE DE LA DÉCISION 24 4

Attention aux interprétations hâtives : Corrélation Relation de cause à effet Variables exogènes (poids et hygiène dentaire) L'association est proportionnelle à r² et non à r r absence d'association Corrélation non-paramétrique : Lorsque les données violent les conditions d'application du coefficient de Pearson Données non numériques Distributions non gaussienne (asymétrie) Effectifs réduits THÉORIE DE LA DÉCISION 2 THÉORIE DE LA DÉCISION 26 Le coefficient de corrélation des rangs de SPEARMAN : r S Objectif Mesurer l association linéaire entre deux variables ( coef. de PEARSON) Petits échantillons Validité Variables non gaussiennes (asymétriques) Données ordinales ou numériques Procédure Rechercher le rang de chacune des observations : x k r(x k ) ety k r(y k ) Calculer la différence des rangs pour chaque couple d observations: d k = r(x k ) - r(y k ) ; k = 1,...,N Appliquer la formule : THÉORIE DE LA DÉCISION 27 THÉORIE DE LA DÉCISION 2 Dosages sanguin et salivaire Recherche des rangs et calcul de leur différence SANG 1 3 1 1 1 2 2 1 2 1 2 2 2 4 2 7 3 1 3 1 3 2 3 4 Ra ng 1 2, 2, 4 6, 6, 1 1 1, 1 1, 1 3 1 4 1 SALIVE 2 6 4 1 4 1 2 1 4 2 1 7 2 4 2 4 2 3 2 3 2 Ra ng 1 3 2 4 7, 6 7, 1 1 1, 1 1, 1 3 1 4, 1 4,, -, 2, -1, -, -, 1-1, -, ²,2,2 6,2 2,2,2,2 1 1,2,2 Σ d² = THÉORIE DE LA DÉCISION 2 La table du coefficient de SPEARMAN permet de juger de la dépendance linéaire des deux variables N = % = 1 %,64,74,623,77,1,7,66,74,4,716 1,2,6 16,7,666 17,4,64 1,476,62 1,462,6 2,4,1 r S (calc) =,7 r S (%) =,2 r S (1%) =,6 Association linéaire très significative THÉORIE DE LA DÉCISION 3

La droite des moindres carrés Corrélation Mesurer l association Régression Décrire l association Objectif Trouver la droite qui s ajuste le mieux aux observations dans le diagramme cartésien Exprimer quantitativement comment une variable varie en fonction de l autre Validité Les populations sont gaussiennes Les données sont numériques Le test de corrélation est significatif Propriétés L'équation de la droite de régression est très peu robuste Faut-il conserver une valeur exceptionnelle dans l analyse? THÉORIE DE LA DÉCISION 31 THÉORIE DE LA DÉCISION 32 (1 sujets de 1 à 2 ans) 3 3 2 2 1 (1 sujets de 1 à 2 ans) 3 1 3 2 1 1 2 2 3 3 4 4 2 1 1 Procédure de calcul Calculer les statistiques sur les deux échantillons : Moyennes Écarts type Coefficient de corrélation L équation est : ŷ=a+b x avec 1 1 2 2 3 3 4 4 THÉORIE DE LA DÉCISION 34 Âge et cholestérol 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 3 x = 66, y =,34 s = 6,4 s = 1,42 r =,4 b =,4 1,42/6,4 =,17 6 6 7 7 a =,34,17 66, = - 1, Âge (a nné e s) THÉORIE DE LA DÉCISION 36 6

Estimation et intervalle de prédiction Objectif Quelle est la fourchette de référence de la variable en fonction une valeur arbitraire du facteur? Que se passe-t-il en dehors des zones observées? Quelles sont les précisions sur les estimations et les extrapolations? THÉORIE DE LA DÉCISION 37 Les résidus : Interprétation Écart entre la valeur prédite par le modèle et la valeur réellement observée Ex : L âge explique en partie l'évolution du taux de cholestérol mais d autres facteurs agissent : Facteurs génétiques Alimentation Hygiène de vie THÉORIE DE LA DÉCISION 3 Résidu Déviation expliquée Déviation totale y y Dispersion des résidus La dispersion des résidus est une mesure de l erreur d estimation : 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 3 THÉORIE DE LA DÉCISION 4 Intervalle de confiance la fourchette dans laquelle on retrouve la valeur y associé à x avec une confiance de 1-α Taux de cholestérol et âge Détermination des normes selon l'âge du patient Quels sont les valeurs de référence du taux de LDL chez des sujets de 74 ans? THÉORIE DE LA DÉCISION 41 THÉORIE DE LA DÉCISION 42 7

Âge et taux de cholestérol Référence du taux de LDL chez des sujets de 74 ans? Valeur prédite par le modèle : Calcul de l erreur d estimation Calcul de la marge d'erreur et de l intervalle de confiance E=2,36,1 1+1 +(7466,)2 =,72 y =,71 ±,72 THÉORIE DE LA DÉCISION 43 THÉORIE DE LA DÉCISION 44 Fourchette de référence à 74 ans 6 6 7 7 Intervalle de prédiction Que se passe-t-il en dehors des zones zones observables? Effets secondaires si on triple le dosage Seulement si le modèle linéaire reste valide (pas de rupture) Le risque d erreur augmente si on s éloigne de la zone observée L intervalle de prédiction : deux courbes situées de part et d autre de la droite de régression Âge (années) THÉORIE DE LA DÉCISION 4 THÉORIE DE LA DÉCISION 46 16 1 Corrélations multiples Dans notre exemple, le taux de LDL est lié à l âge à concurrence de 71% 2% de la variabilité du taux de LDL ne sont pas expliqués par le modèle Autres facteurs : Génétique, alimentation, Un procédé de corrélations multiples permet de mesurer l importance individuelle de chaque facteur 6 6 7 7 Âge (années) THÉORIE DE LA DÉCISION 47 THÉORIE DE LA DÉCISION 4

Régressions à deux pentes Certains traitements évoluent en deux phases Les premières séances amènent une amélioration rapide Les suivantes apportent des progrès plus lents L analyse du diagramme cartésien et la détermination des droites de régression permettent de préciser quand apparaît cette transition THÉORIE DE LA DÉCISION 4 Réponse hormonale 7 6 4 3 2 1 2 2 Durée du traitement THÉORIE DE LA DÉCISION