Oliver Sonnentag, PhD: GÉO1512 Géographie Quantitative I

1 Mesures de liasion (corrélation) et l analyse de régression (1 ière partie) & Mesures de liasion (corrélation) et l analyse de régression en R (2 ième partie)

2 Situation il y a une variable d intérêt particulier pour laquelle vous voulez avoir! une prédiction de ses valeurs futures! une explication de ses variations! une estimation de l erreur possible dans votre prédiction Exemples! Quelle est la dose requise pour induire une mortalité de 50%?! La pollution de l air explique-t-elle une portion significative de l incidence de cancer?! Les modèles prévisionnels de météo ont une erreur de x%? Analyse de régression! régression linéaire simple (aujourd'hui)! régression linéaire multiple (aujourd'hui)! régression robuste (Géographie quantitative II)! régression logistique (Géographie quantitative II)! régression non linéaire (Géographie quantitative II)

3 La régression simple et la corrélation La régression linéaire simple! une variable aléatoire et une autre variable fixe (ou parfois aléatoire) qui détermine la valeur de celle-là! Non simplement la force de la relation est mesurée, mais aussi la forme: comment la valeur de Y change quand X est changée La corrélation! deux variables aléatoires: qu est ce qui est la force de la liasion, de la connection entre eux?

4 Définitions Régression linéaire simple! une variable est utiliée pour prédire l autre Régression linéaire multiple! plus qu une variable est utiliée pour prédire l autre Variables indépendantes (X)! les variables utilisées pour faire la prédiction Variables dépendantes (Y)! la variable prédite Modèle linéaire! l équation de prédiction produite par une analyse de régression! à cause de son incertitude, et parce qu elle est en forme de droite

5 Régression linéaire simple Y Après avoir établi la cause et l'effet (X! Y)! the value of variable Y is a function of variable X Y = f (X) peinte La fonction la plus simple: linéaire! une ligne droite (rouge) décrit par Y = β 0 + β 1 X ordonnées à l origine X ordonnées à l origine peinte

6 Les données Observations appariées de variables X i and Y i! Tous deux ont été mesurées sur le même réplicat Y! β 0 et β 1 sont des constantes; ε i is a normal random variable: Y i = β 0 + β 1 X i +ε i X

7 Définitions L ordonnées à l origine (β 0 )! la valeur de Y quand X égale à zéro, donne l élévation La pente (β 1 )! le changement de Y par unité de changement de X Coefficient de régression Y chapeu! les deux termes de l équation! l ordonnées à l origine et la pente ( Y ˆ )! les valeurs prédites de Y! l utilisation d un chapeau indique in estimé Erreurs résiduelles ( les résidus )! les écarts (ε) entre les valeurs observées de Y et les valeurs prédites selon le modèle de régression ˆ Y = β 0 + β 1 X Y i = β 0 + β 1 X i +ε i ε = Y ˆ Y

8 Comment trouver la droite? On cherche une façon pour construire un modèle linéaire qui s ajuste aux points observés. On cherche à minimiser l erreur das notre prédiction de Y. Moindres carrés ordinaires (aujourd'hui): la droite optimale est celle pour laquelle la somme des erreurs résiduelles carrées est minimal Y i ε i { Squared residual: ε i 2n = (Y i ˆ Y i ) 2 Residual sum of squares: RSS = n i=1 ( Y i Y ˆ ) 2 i Alternatives: des approches de Monte Carlo et bayésiennes (Géographie quantitative II)

9 Variances et covariances Sum of squares: SS Y = SS Y = n i=1 n ( Y i Y ) 2 ( Y i Y )( Y i Y ) SS XY = X i X i=1 Sum of cross of cross produts: n i=1 ( )( Y i Y ) Sample variance of a variable: s Y 2 = 1 n 1 n i=1 ( Y i Y ) 2 Sample covariance of two variables: 2 s XY = 1 n 1 n i=1 ( X i X )( Y i Y )

10 Moindres carrés ordinaires La méthode des moindres carrés ordinaires donne les valeurs de la peinte et de l ordonnées à l origine qui! minimisent la somme des carrés des erreurs résiduelles! sont nonbiasés Pourquoi utiliser le principe des moindres carrés ordinaires! Solution analytique! Minimise la variance de l erreur de prédiction La méthode des moindres carrés ordinaires nous donnes les estimateurs suivantes: β ˆ 0 = Y β ˆ 1 X ˆ β 1 = S XY s X 2 ε = 0 β 0 ε 2 = 0 β 1 n i=1 ( ) 2 = SS XY SS X SS X = X i X

11 Coefficient de détermination (r 2 ) I Comment mesurer la justesse de l ensemble des prédictions?! En divisant la variabilité de la variable dépendante (Y) en deux parties: la dispersion expliquée, ou prédite, par la régression et la dispersion résiduelle qui n est pas expliquée! L ajustement est bon quand la régression explique la plupart de la variation de Y! variation de Y expliqué/ variation total! r 2 varie entre 0 (pente 0) et (relation parfaite) SS reg = SS Y RSS SS Y = SS reg + RSS r 2 = SS reg SS Y = SS reg SS reg + RSS

12 Coefficient de corrélation (r) Coefficient de corrélation: lié à r 2 Simple: r est la racine carrée de r 2! r peut être positif (β 1 > 0) ou négative (β 1 < 0) Alternative: calcul direct de r r = SS XY s X s Y ( SS X ) SS = s XY ( Y )

13 Test d'hypothèse de régression Ordinary leat-square calculation:! seules des estimations des valeurs réelles:: β ˆ 0 ; β ˆ 1 ; σ ˆ 2! Incertitude de ces estimations: test si certains de ces paramètres diffèrent significativement de zéro Y i = β 0 +ε i (Null hypothesis) Y i = β 0 + β 1 X i +ε i (Alternative hypothesis)

14 Autres tests En général: tous les tests d'hypothèses et les intervalles de confiance dépendent de la variance σ ˆ 2 = RSS n 2 = n i=1 ( Y i Y ˆ ) 2 i n 2 = n i=1 [ Y i ( β ˆ + β ˆ X )] 0 1 i n 2 2 Exemples:! Variance de β 0! Intervalle de confiance pour β 0! Variance de β 1! Intervalle de confiance pour β 2! Intervalle de prédiction

15 Postulats de base Le modèle linéaire décrit correctement la relation fonctionnelle entre X et Y! L'hypothèse la plus fondamentale! If violated, σ 2 will be inflated because it includes random plus a fixed error component Variable est mesurée sans erreur! Allows for isolation of the error component as entirely random variation in the variable Y! If violated, β 0 and β 1 will be biased Les valeurs Y de l'échantillon sont indépendantes avec des erreurs normalement distribuées (ε i )! Allows the application of parameteric theory, hypothesis testing, and confidence intervals! Can be checked easily by visual inspection of residual plots Les variances sont constants! Allows to use σ 2 to characterize regression variance! If violated, a function to characterize σ 2 based on variable X would be required! Can be checked easily by visual inspection of residual plots

16 Diagnostics: erreurs résiduelles Définition: une analyse de résidus est l inspection des erreurs résiduelles pour l inspection des erreurs résiduelles pour vérifier les postulats de base de la régression L analyse de résidus est majoritairement visuelle La supposition de normalité peut être verifiée avec différents tests statistiques (http://www.r-tutor.com/)

17 Other regression techniques Régression robuste! Souvent, les valeurs aberrantes sont le problème et le moindres carrés ordinaires approche n'est pas applicable! impact négatif sur les résidus.! Nécessite l'utilisation de différentes fonctions mathématiques autres que le moindres carrés ordinaires approche pour quantifier la variation résiduelle. Régression quantile! Minimizes deviations from the fitted regression line, but the minimization function is asymmetric: positive and negative deviations are weighted differently. Régression logistique! Forme particulière de régression dans laquelle la variable Y est catégorique plutôt que continue. Régression non linéaire! L'utilisation des méthodes itératives pour adapter les paramètres du modèle qui minimisent les déviations des moindres carrés. Régression linéaire multiple! L'extension de la régression linéaire simple de deux ou plusieurs variables prédictives ou de polynômes d'ordre supérieur d'une des variables prédictives uniques.

18 Régression linéaire multiple Exemple! deux variables explicatives, X et X 2, qui contribuent à la variation de la variable Y Y i = β 0 + β 1 X i + β 2 X i 2 +ε i! important: encore une régression linéaire parce que la ß i paramètres peuvent être résolus par des équations linéaires!! multicolinearity: corrélations entre les variables explicatives! idéalement variables prédictives sont orthogonales sur l'autre: les valeurs d'une variable de prédiction se trouvent en combinaison avec toutes les valeurs de la deuxième variable prédictive.

19 Estimé l'équation de régression simple PROBLÈME: Appliquer le modèle de régression linéaire simple pour l'ensemble de données «fidèles», et d'estimer la durée éruption prochaine si le temps d'attente depuis la dernière éruption a eu 80 minutes. RÉPONSE: Sur la base du modèle de régression linéaire simple, si le temps d'attente depuis la dernière éruption a eu 80 minutes, nous nous attendons à la prochaine durer 4,1762 minutes. (http://www.r-tutor.com/)

20 Coefficient de détermination PROBLÈME: Trouver le coefficient de détermination du modèle de régression linéaire simple de l'ensemble de données «fidèles». RÉPONSE: Le coefficient de détermination du modèle de régression linéaire simple pour les fidèles ensemble de données est 0,81146. (http://www.r-tutor.com/)

21 Signification pour la régression linéaire simple PROBLÈME: Déterminer s'il existe une relation significative entre les variables du modèle de régression linéaire de l'ensemble de données «fidèle» à 0,05 niveau de signification. RÉPONSE: Comme la valeur p est bien inférieure à 0,05, on rejette H 0 selon laquelle β = 0. Il ya donc une relation significative entre les variables du modèle de régression linéaire de l'ensemble de données «fidèles». (http://www.r-tutor.com/)

22 Intervalle de confiance pour la régression linéaire PROBLÈME: Dans l'ensemble de données «fidèles», construire un intervalle de confiance à 95% de la durée moyenne d'une éruption le temps d'attente de 80 minutes. RÉPONSE: L'intervalle de confiance à 95% de la durée moyenne d'une éruption le temps d'attente de 80 minutes est comprise entre 4,1048 et 4.2476 minutes. (http://www.r-tutor.com/)

23 Tracé des valeurs résiduelles PROBLÈME: Tracer le résidu du modèle de régression linéaire simple de l'ensemble de données «fidèle» à l'encontre de la variable indépendante «en attente». (http://www.r-tutor.com/)

24 Lectures Lectures obligatoires Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA.! chapitre 9 http://www.r-tutor.com/elementary-statistics/simple-linear-regression Lectures complémentaires Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R Maîtriser le langange, effectuer des analyses statistiques. Springer Verlag, France.! chapitre 12.1 & 12.2 Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press.! chapitres 5.1-5.4