Oliver Sonnentag, PhD: GÉO1512 Géographie Quantitative I

Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

Chapitre 3. Les distributions à deux variables

Exemple PLS avec SAS

Analyse de la variance Comparaison de plusieurs moyennes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

STATISTIQUES. UE Modélisation pour la biologie

Évaluation de la régression bornée

Scénarios économiques en assurance

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

FIMA, 7 juillet 2005

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Paxton. ins Net2 desktop reader USB

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Coup de Projecteur sur les Réseaux de Neurones

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Régression linéaire. Nicolas Turenne INRA

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Méthodes d apprentissage statistique «Machine Learning»

De la mesure à l analyse des risques

Introduction à l approche bootstrap

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

CAPTEURS - CHAINES DE MESURES

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

PROGRAMME (Susceptible de modifications)

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Pourquoi l apprentissage?

How to Login to Career Page

Lire ; Compter ; Tester... avec R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Hedging delta et gamma neutre d un option digitale

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

TRANSPORT ET LOGISTIQUE :

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

OPTIMISATION À UNE VARIABLE

WEB page builder and server for SCADA applications usable from a WEB navigator

Chapitre 2/ La fonction de consommation et la fonction d épargne

Exemples d application

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Modélisation géostatistique des débits le long des cours d eau.

Etude des propriétés empiriques du lasso par simulations

Introduction au pricing d option en finance

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Annexe commune aux séries ES, L et S : boîtes et quantiles

NON-LINEARITE ET RESEAUX NEURONAUX

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction à la statistique non paramétrique

Does it pay to improve Corporate Governance? An empirical analysis of European Equities

ANALYSE QUANTITATIVE DE RISQUE MICROBIOLOGIQUE EN ALIMENTATION

Mesure et gestion des risques d assurance

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cours 4 : Agrégats et GROUP BY

Résumé des communications des Intervenants

Le No.1 de l économie d énergie pour patinoires.

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Table des matières. I Mise à niveau 11. Préface

données en connaissance et en actions?

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Modèles pour données répétées

Le Modèle Linéaire par l exemple :

Théorie des Jeux Et ses Applications

Projet du 5 octobre du [date] (Adaptation des fonds propres de base) Sommaire

M2 IAD UE MODE Notes de cours (3)

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Once the installation is complete, you can delete the temporary Zip files..

Les hommes sont des obsédés, les femmes sont vénales (nous l avons mesuré)

Application Form/ Formulaire de demande

TESTS D'HYPOTHESES Etude d'un exemple

Fiche produit ifinance v4

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 2 Le problème de l unicité des solutions

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

IBM SPSS Regression 21

Louis Laurencelle, a vol. 11 no. 1. Introduction

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Industrial Phd Progam

Comfort Duett. TV-kit. USA: English/Français/Español. Comfort Duett

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

LE PROBLEME DU PLUS COURT CHEMIN

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

ORDONNANCE D'AUDIENCE RH TRANSCANADA PIPELINES LIMITED ET AL.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Leçon N 4 : Statistiques à deux variables

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Transcription:

1 Mesures de liasion (corrélation) et l analyse de régression (1 ière partie) & Mesures de liasion (corrélation) et l analyse de régression en R (2 ième partie)

2 Situation il y a une variable d intérêt particulier pour laquelle vous voulez avoir! une prédiction de ses valeurs futures! une explication de ses variations! une estimation de l erreur possible dans votre prédiction Exemples! Quelle est la dose requise pour induire une mortalité de 50%?! La pollution de l air explique-t-elle une portion significative de l incidence de cancer?! Les modèles prévisionnels de météo ont une erreur de x%? Analyse de régression! régression linéaire simple (aujourd'hui)! régression linéaire multiple (aujourd'hui)! régression robuste (Géographie quantitative II)! régression logistique (Géographie quantitative II)! régression non linéaire (Géographie quantitative II)

3 La régression simple et la corrélation La régression linéaire simple! une variable aléatoire et une autre variable fixe (ou parfois aléatoire) qui détermine la valeur de celle-là! Non simplement la force de la relation est mesurée, mais aussi la forme: comment la valeur de Y change quand X est changée La corrélation! deux variables aléatoires: qu est ce qui est la force de la liasion, de la connection entre eux?

4 Définitions Régression linéaire simple! une variable est utiliée pour prédire l autre Régression linéaire multiple! plus qu une variable est utiliée pour prédire l autre Variables indépendantes (X)! les variables utilisées pour faire la prédiction Variables dépendantes (Y)! la variable prédite Modèle linéaire! l équation de prédiction produite par une analyse de régression! à cause de son incertitude, et parce qu elle est en forme de droite

5 Régression linéaire simple Y Après avoir établi la cause et l'effet (X! Y)! the value of variable Y is a function of variable X Y = f (X) peinte La fonction la plus simple: linéaire! une ligne droite (rouge) décrit par Y = β 0 + β 1 X ordonnées à l origine X ordonnées à l origine peinte

6 Les données Observations appariées de variables X i and Y i! Tous deux ont été mesurées sur le même réplicat Y! β 0 et β 1 sont des constantes; ε i is a normal random variable: Y i = β 0 + β 1 X i +ε i X

7 Définitions L ordonnées à l origine (β 0 )! la valeur de Y quand X égale à zéro, donne l élévation La pente (β 1 )! le changement de Y par unité de changement de X Coefficient de régression Y chapeu! les deux termes de l équation! l ordonnées à l origine et la pente ( Y ˆ )! les valeurs prédites de Y! l utilisation d un chapeau indique in estimé Erreurs résiduelles ( les résidus )! les écarts (ε) entre les valeurs observées de Y et les valeurs prédites selon le modèle de régression ˆ Y = β 0 + β 1 X Y i = β 0 + β 1 X i +ε i ε = Y ˆ Y

8 Comment trouver la droite? On cherche une façon pour construire un modèle linéaire qui s ajuste aux points observés. On cherche à minimiser l erreur das notre prédiction de Y. Moindres carrés ordinaires (aujourd'hui): la droite optimale est celle pour laquelle la somme des erreurs résiduelles carrées est minimal Y i ε i { Squared residual: ε i 2n = (Y i ˆ Y i ) 2 Residual sum of squares: RSS = n i=1 ( Y i Y ˆ ) 2 i Alternatives: des approches de Monte Carlo et bayésiennes (Géographie quantitative II)

9 Variances et covariances Sum of squares: SS Y = SS Y = n i=1 n ( Y i Y ) 2 ( Y i Y )( Y i Y ) SS XY = X i X i=1 Sum of cross of cross produts: n i=1 ( )( Y i Y ) Sample variance of a variable: s Y 2 = 1 n 1 n i=1 ( Y i Y ) 2 Sample covariance of two variables: 2 s XY = 1 n 1 n i=1 ( X i X )( Y i Y )

10 Moindres carrés ordinaires La méthode des moindres carrés ordinaires donne les valeurs de la peinte et de l ordonnées à l origine qui! minimisent la somme des carrés des erreurs résiduelles! sont nonbiasés Pourquoi utiliser le principe des moindres carrés ordinaires! Solution analytique! Minimise la variance de l erreur de prédiction La méthode des moindres carrés ordinaires nous donnes les estimateurs suivantes: β ˆ 0 = Y β ˆ 1 X ˆ β 1 = S XY s X 2 ε = 0 β 0 ε 2 = 0 β 1 n i=1 ( ) 2 = SS XY SS X SS X = X i X

11 Coefficient de détermination (r 2 ) I Comment mesurer la justesse de l ensemble des prédictions?! En divisant la variabilité de la variable dépendante (Y) en deux parties: la dispersion expliquée, ou prédite, par la régression et la dispersion résiduelle qui n est pas expliquée! L ajustement est bon quand la régression explique la plupart de la variation de Y! variation de Y expliqué/ variation total! r 2 varie entre 0 (pente 0) et (relation parfaite) SS reg = SS Y RSS SS Y = SS reg + RSS r 2 = SS reg SS Y = SS reg SS reg + RSS

12 Coefficient de corrélation (r) Coefficient de corrélation: lié à r 2 Simple: r est la racine carrée de r 2! r peut être positif (β 1 > 0) ou négative (β 1 < 0) Alternative: calcul direct de r r = SS XY s X s Y ( SS X ) SS = s XY ( Y )

13 Test d'hypothèse de régression Ordinary leat-square calculation:! seules des estimations des valeurs réelles:: β ˆ 0 ; β ˆ 1 ; σ ˆ 2! Incertitude de ces estimations: test si certains de ces paramètres diffèrent significativement de zéro Y i = β 0 +ε i (Null hypothesis) Y i = β 0 + β 1 X i +ε i (Alternative hypothesis)

14 Autres tests En général: tous les tests d'hypothèses et les intervalles de confiance dépendent de la variance σ ˆ 2 = RSS n 2 = n i=1 ( Y i Y ˆ ) 2 i n 2 = n i=1 [ Y i ( β ˆ + β ˆ X )] 0 1 i n 2 2 Exemples:! Variance de β 0! Intervalle de confiance pour β 0! Variance de β 1! Intervalle de confiance pour β 2! Intervalle de prédiction

15 Postulats de base Le modèle linéaire décrit correctement la relation fonctionnelle entre X et Y! L'hypothèse la plus fondamentale! If violated, σ 2 will be inflated because it includes random plus a fixed error component Variable est mesurée sans erreur! Allows for isolation of the error component as entirely random variation in the variable Y! If violated, β 0 and β 1 will be biased Les valeurs Y de l'échantillon sont indépendantes avec des erreurs normalement distribuées (ε i )! Allows the application of parameteric theory, hypothesis testing, and confidence intervals! Can be checked easily by visual inspection of residual plots Les variances sont constants! Allows to use σ 2 to characterize regression variance! If violated, a function to characterize σ 2 based on variable X would be required! Can be checked easily by visual inspection of residual plots

16 Diagnostics: erreurs résiduelles Définition: une analyse de résidus est l inspection des erreurs résiduelles pour l inspection des erreurs résiduelles pour vérifier les postulats de base de la régression L analyse de résidus est majoritairement visuelle La supposition de normalité peut être verifiée avec différents tests statistiques (http://www.r-tutor.com/)

17 Other regression techniques Régression robuste! Souvent, les valeurs aberrantes sont le problème et le moindres carrés ordinaires approche n'est pas applicable! impact négatif sur les résidus.! Nécessite l'utilisation de différentes fonctions mathématiques autres que le moindres carrés ordinaires approche pour quantifier la variation résiduelle. Régression quantile! Minimizes deviations from the fitted regression line, but the minimization function is asymmetric: positive and negative deviations are weighted differently. Régression logistique! Forme particulière de régression dans laquelle la variable Y est catégorique plutôt que continue. Régression non linéaire! L'utilisation des méthodes itératives pour adapter les paramètres du modèle qui minimisent les déviations des moindres carrés. Régression linéaire multiple! L'extension de la régression linéaire simple de deux ou plusieurs variables prédictives ou de polynômes d'ordre supérieur d'une des variables prédictives uniques.

18 Régression linéaire multiple Exemple! deux variables explicatives, X et X 2, qui contribuent à la variation de la variable Y Y i = β 0 + β 1 X i + β 2 X i 2 +ε i! important: encore une régression linéaire parce que la ß i paramètres peuvent être résolus par des équations linéaires!! multicolinearity: corrélations entre les variables explicatives! idéalement variables prédictives sont orthogonales sur l'autre: les valeurs d'une variable de prédiction se trouvent en combinaison avec toutes les valeurs de la deuxième variable prédictive.

19 Estimé l'équation de régression simple PROBLÈME: Appliquer le modèle de régression linéaire simple pour l'ensemble de données «fidèles», et d'estimer la durée éruption prochaine si le temps d'attente depuis la dernière éruption a eu 80 minutes. RÉPONSE: Sur la base du modèle de régression linéaire simple, si le temps d'attente depuis la dernière éruption a eu 80 minutes, nous nous attendons à la prochaine durer 4,1762 minutes. (http://www.r-tutor.com/)

20 Coefficient de détermination PROBLÈME: Trouver le coefficient de détermination du modèle de régression linéaire simple de l'ensemble de données «fidèles». RÉPONSE: Le coefficient de détermination du modèle de régression linéaire simple pour les fidèles ensemble de données est 0,81146. (http://www.r-tutor.com/)

21 Signification pour la régression linéaire simple PROBLÈME: Déterminer s'il existe une relation significative entre les variables du modèle de régression linéaire de l'ensemble de données «fidèle» à 0,05 niveau de signification. RÉPONSE: Comme la valeur p est bien inférieure à 0,05, on rejette H 0 selon laquelle β = 0. Il ya donc une relation significative entre les variables du modèle de régression linéaire de l'ensemble de données «fidèles». (http://www.r-tutor.com/)

22 Intervalle de confiance pour la régression linéaire PROBLÈME: Dans l'ensemble de données «fidèles», construire un intervalle de confiance à 95% de la durée moyenne d'une éruption le temps d'attente de 80 minutes. RÉPONSE: L'intervalle de confiance à 95% de la durée moyenne d'une éruption le temps d'attente de 80 minutes est comprise entre 4,1048 et 4.2476 minutes. (http://www.r-tutor.com/)

23 Tracé des valeurs résiduelles PROBLÈME: Tracer le résidu du modèle de régression linéaire simple de l'ensemble de données «fidèle» à l'encontre de la variable indépendante «en attente». (http://www.r-tutor.com/)

24 Lectures Lectures obligatoires Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA.! chapitre 9 http://www.r-tutor.com/elementary-statistics/simple-linear-regression Lectures complémentaires Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R Maîtriser le langange, effectuer des analyses statistiques. Springer Verlag, France.! chapitre 12.1 & 12.2 Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press.! chapitres 5.1-5.4