T.P. 9 Covariance Corrélation Régression

Documents pareils
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Fonctions homographiques

Chapitre 3. Les distributions à deux variables

Chapitre 1 : Évolution COURS

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Relation entre deux variables : estimation de la corrélation linéaire

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

avec des nombres entiers

Statistiques à une variable

TSTI 2D CH X : Exemples de lois à densité 1

Statistique : Résumé de cours et méthodes

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Fluctuation d une fréquence selon les échantillons - Probabilités

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Mesures et incertitudes

Compétences en fin de maternelle Comparer des quantités.

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Représentation d une distribution

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Probabilités conditionnelles Loi binomiale

Développements limités, équivalents et calculs de limites

Logiciel XLSTAT version rue Damrémont PARIS

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Statistiques Descriptives à une dimension

Leçon N 4 : Statistiques à deux variables

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

1 Importer et modifier des données avec R Commander

Baccalauréat ES Amérique du Nord 4 juin 2008

L analyse boursière avec Scilab

Notion de fonction. Résolution graphique. Fonction affine.

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Alarme intrusion filaire AEI HA zones

STATISTIQUES A DEUX VARIABLES

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

BACCALAURÉAT PROFESSIONNEL SUJET

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

CCP PSI Mathématiques 1 : un corrigé

23. Interprétation clinique des mesures de l effet traitement

Séries Statistiques Simples

I. Ensemble de définition d'une fonction

Complément d information concernant la fiche de concordance

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Une brique dans le cartable. Du Plan à l Ouvrage

Théorie des sondages : cours 5

Probabilités conditionnelles Exercices corrigés

Présentation de lʼoutil Diagnostic Egalité sur le logiciel Excel!

Voici une demande qui revient régulièrement lors de mes rencontres avec les employeurs :

Circuits RL et RC. Chapitre Inductance

Exercices de dénombrement

Annexe commune aux séries ES, L et S : boîtes et quantiles

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Calcul du niveau de transition

O, i, ) ln x. (ln x)2

Voyez la réponse à cette question dans ce chapitre.

Calculs de probabilités avec la loi normale

Statistique Descriptive Élémentaire

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Utiliser un tableau à double entrée «Les véhicules»

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Fonctions de plusieurs variables

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Lire ; Compter ; Tester... avec R

La pratique des décisions dans les affaires

Le calcul du barème d impôt à Genève

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

STRICTEMENT CONFIDENTIEL

TP 7 : oscillateur de torsion

Cours d algorithmique pour la classe de 2nde

Support de formation Notebook

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L informatique en BCPST

Séance 0 : Linux + Octave : le compromis idéal

Chapitre 2 Les ondes progressives périodiques

Les suites numériques

Logistique, Transports

Chapitre 5. Calculs financiers. 5.1 Introduction - notations

Qu est-ce que la croissance économique? Quels sont ses moteurs?

LE PETIT CHAPERON ROUGE SANG. Recherches Croquis Style vestimentaire Type de Couleurs Style de Tracés

Algorithmique et systèmes répartis

FONCTION DE DEMANDE : REVENU ET PRIX

Correction du baccalauréat STMG Polynésie 17 juin 2014

Janvier 2011 CHIMIE. Camille de BATTISTI. Acquérir la démarche expérimentale en chimie. ACADEMIE DE MONTPELLIER

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Chapitre 6. Fonction réelle d une variable réelle

Cours Fonctions de deux variables

CONDITIONS DE REUSSITE, DISPENSES, REPORTS ET CREDITS DANS L ENSEIGNEMENT SUPERIEUR

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Transcription:

T.P. 9 Covariance Corrélation Régression Connaissances préalables : Variance, écart type, moyenne. Buts spécifiques : Comprendre les relations possibles entre deux variables et une manière de les évaluer. Outils nécessaires : Papier, crayon, éventuellement une calculatrice. Consignes : Introduction : Certaines variables sont dites corrélées, c est-à-dire qu elles évoluent en parallèle : lorsque l une d entre elle augmente, les autres augmentent (ou diminuent) aussi, de sorte que, en connaissant l évolution d une variable on puisse en déduire la valeur de l autre. Un exemple de corrélation peut se trouver en regardant des points de mathématique et de physique. On peut se dire qu un élève brillant en mathématique sera également performant en physique. A l opposé, certaines variables sont totalement indépendantes les unes des autres. Par exemple, un individu brillant en mathématique ne sera pas forcément un bon rameur. Il existe, en statistique, des méthodes pour calculer la corrélation entre les variables. Un premier pas est de regarder dans quelle mesure elles varient ensemble, c est ce qu on appelle «la covariance». Elle est définie par la formule suivante : où et sont deux variables. Cov = ( i - )( i - i= ) Remarques : Ce nombre sera d autant plus élevé, en valeur absolue, que les valeurs évoluent de manière proportionnelle ou inversement proportionnelle. - i pour chaque augmentation de la variable par rapport à sa moyenne on a une augmentation de la variable par rapport à sa moyenne et que pour chaque diminution de on a une diminution de, le produit des différences sera toujours positif (soit parce que + par + donne + soit parce que par donne +) et la somme de ces produits sera nécessairement en constante progression. - i pour chaque diminution de la variable par rapport à sa moyenne on a une augmentation de la variable par rapport à sa moyenne, et inversement, le produit des différences sera toujours négatif (parce que par + ou + par donne toujours ) et la somme de ces produits sera donc en constante progression en valeur absolue. - i, par contre, l évolution des deux variables par rapport à leur moyenne respective est erratique (ce qui correspond à la situation où les variables ne sont pas corrélées), alors de temps en temps le produit sera négatif et de temps en temps il sera positif, de sorte que, la somme de ces produits s annulent plus ou moins et que la corrélation soit proche de 0.. Voici quelques séries statistiques fictives. ériea 4 5 5 5 5 5 5 6 4 5 5 5 5 5 5 6 TP 9 2006-2007 /8

érie B 5 5 6 5 0 5 5 0 6 5 érie C Consommation 4 4 5 7 8 8 8 0 de bières de Julien T en C 9 2 2 2 2 24 27 30 érie D en Math en Français 3 4 4 7 7 8 9 0 0 9 9 4 3 4 3 a) En regardant les séries statistiques, quelle série a une corrélation parfaite? b) En regardant les séries statistiques, quelle série semble le moins corrélée? c) Pour chacune des séries calculez : érie 2 2 i= ( i - ) ( i - ) Cov érie A érie B érie C érie D d) En regardant les valeurs de la covariance, peut-on dire que plus la valeur est élevée, plus les variables sont corrélées? TP 9 2006-2007 2/8

Conclusion : La covariance a comme désavantage de ne pas être étalonné. On peut se dire que plus elle est grande en valeur absolue plus les variables sont corrélées mais on ne sait pas jusqu à quelle valeur elle peut monter. Pour pallier ce problème il est possible de diviser cette covariance par les écarts types de et de. De cette manière on voit que lorsque la corrélation est parfaite cette valeur sera de ± selon que la corrélation soit positive ou négative et que lorsque les variables sont indépendantes la corrélation sera comprise entre - et, 0 étant l indépendance parfaite. Cela s explique mathématiquement par le fait que la corrélation est maximum lorsque les écarts par rapport à la moyenne sont toujours les mêmes pour et pour. Dans ce cas la i= i= ( i - ) et la ( i - ) seront égales en valeur absolue, c est donc comme si on élevait l une des deux au carré. De même les écarts types des deux variables et seront égales, c est donc également comme si on les élevait au carré. Il en résulte que tout se simplifie à la fin et on obtient comme valeur ou - les autres cas ne peuvent être qu inférieur à, en valeur absolue. Cette indicateur s appelle le coefficient de corrélation de Pearson et se note «r». Coefficient de corrélation de Pearson : ( - )( -) i i i= r = = 2 2 ( i - ) ( i -) i= i= Cov Rappel : oubliez pas qu avec une machine à calculer il faut soit taper [Cov]/[ ]/[ ], soit taper [cov]/([ ]*[ ]) MAI PA [cov]/[ ]*[ ] TP 9 2006-2007 3/8

e) Calculez les coefficients de corrélation pour chacune des séries : r sériea r sérieb r sériec r séried f) Tracez les nuages de points sur les axes suivants (en indiquant la légende et le sens des axes) : Ces graphes s appellent les diagrammes de dispersion. Comme vous le voyez, plus la corrélation est grande, plus il y a moyen de faire passer une droite par les différents points de la dispersion. Tout le problème consiste à trouver l équation de cette droite. La droite s appellera droite de régression. Il existe deux moyens d en trouver l équation. Mais avant tout, posons-nous quelques questions : TP 9 2006-2007 4/8

g) En regardant le diagramme de dispersion, essayez de tracer (finement et au crayon) une droite qui représente, intuitivement, la meilleure solution pour représenter le nuage de points obtenu. h) A votre avis que permettrait cette droite? Utilité de la droite de régression : ote : Pour trouver l équation d une droite il faut trouver le coefficient angulaire «b» et le terme indépendant «a». Une possibilité pour ce faire est de trouver deux points de la droite et de faire un système d équation à deux inconnues. Le tout est donc de trouver ces deux points. Meyer à imaginé une solution facile et rapide pour trouver une approximation de la droite qui consiste à séparer la série statistique en deux parties égales (selon la médiane), à prendre la moyenne de chacune de ces parties pour et pour. Ces deux moyennes se trouveront sur la droite de régression, il ne reste qu à résoudre le système d équation. Une autre solution consiste à utiliser la méthode des moindres carrés. Cette méthode part du principe que les points sont rarement exactement sur la droite de régression. Chaque point en est à une certaine distance. Dès lors, il faut trouver la droite qui minimise l ensemble des distances entre chacun de ces points et la droite. La démonstration mathématique n est pas indispensable ici, mais voici la formule résultante qui permet de trouver «b» et «a» : Coefficient angulaire : Terme indépendant :. a = b b = r TP 9 2006-2007 5/8

i) Trouvez l équation de la droite de régression des séries A et C par la méthode de Meyer. Moyennes demi-groupes : Moyennes demi-groupes : = = 2 = 2 = = = Equation série A : Equation série C : 2 = 2 = j) Trouvez l équation de la droite de régression des séries B, C et D par la formule des moindres carrés. Equation série B Equation série C Equation série D k) Une situation qui serait confortable pour les calculs serait de transformer ces équations de telle manière à ce que le coefficient angulaire soit égal au coefficient de corrélation (donc que b = r ) et que le terme indépendant soit nul (donc que a = 0), en regardant les formules permettant de trouver b et a, donnez les conditions nécessaires à l obtention de cette situation. Conditions nécessaires : l) Comment pourrions-nous faire pour arriver à remplir ces conditions? TP 9 2006-2007 6/8

T.P. 9 Corrélation- Régression Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes : Préciser les implications des corrélations et régression. Papier, crayon. Revoici nos quatre séries statistiques. Calculez leur score Z et recalculez l équation de la droite de régression pour chacune d entre elles. Pour calculer cette équation vous pouvez soit repasser par la droite de Meyer, soit réutiliser la formule. érie A 4 5 5 5 5 5 5 6 4 5 5 5 5 5 5 6 érie B 5 5 6 5 0 5 5 0 6 5 érie C Consommation 4 4 5 7 8 8 8 0 de bières de Julien T en C 9 2 2 2 2 24 27 30 érie D en Math en Français 3 4 4 7 7 8 9 0 0 9 9 4 3 4 3 TP 9 2006-2007 7/8

core Z érie A core Z érie B core Z érie C Consommation de bières de Julien T en C core Z érie D en Math en Français Équations modifiées érie A érie B érie C érie D Vérifiez ces équations par la méthode de Meyer ou en appliquant les formules permettant de trouver le terme indépendant et le coefficient angulaire. TP 9 2006-2007 8/8