GOUTTE. Analyse Statistique des Données Cours 5. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

Transcription

1 LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 5 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1

2 1 Introduction 1.1 Les modèles de régression Nous allons donc étudier les diérents types de regression. Tout d'abord quel est l'objectif d'une régression: Expliquer une grandeur y par un ensemble de grandeurs x où y est la variable à expliquer, ou encore réponse et l'ensemble x sont les variables explicatives, ou encore régresseurs. Exemple: Économétrie : expliquer la quantité de production (y) en fonction du capital, du travail, de l'énergie, x = (x 1,..., x p ) Banque/Finance => le crédit scoring : attribution d?un crédit en fonction de variables quantitatives : revenu, âge, dépôt,... variables qualitatives : sexe, CSP, Les modèles de régression Il existe diérents types de modèle de régression. Régression linéaire simple ou multiple: Expliquer une variable quantitative y par une ou plusieurs variables quantitatives x La relation recherchée entre y et x est linéaire, de type ane y = ax + b avec a, b R Régression non linéaire paramétrique / non paramétrique Expliquer une variable quantitative y par un ensemble de variables quantitatives x La relation recherchée entre y et x est une fonction non linéaire de type polynomiale par exemple y = p i=1 a ix i + b avec a i, b R. Modèle d'analyse de la variance Expliquer une variable quantitative y par un ensemble de variables qualitatives x. C'est ce que nous avons vu au chapitre 3 avec les procédures ANOVA et GLM. Régression logistique Expliquer une variable qualitative y par un ensemble x de variables quantitatives et qualitatives goutte@math.univ-paris13.fr Master 2 EID 07/08 2

3 2 Explications des modèles 2.1 Régression linéaire simple Nous cherchons donc à expliquer une variable quantitative y en fonction d'une variable explicative x, elle aussi quantitative. La représentation graphique (nuage de points) nous permet de spécier un modèle linéaire de type: Graphe: y = a x + b + ɛ Où a R est un paramètre constant à estimer. b R est lui aussi un paramètre associé à la variable x, à estimer. ɛ est le terme d'erreur, qui regroupe tous les phénomènes non expliqués par le modèle. Autrement dit le paramètre ɛ de notre modèle vaut 0 alors notre modèle est parfait. goutte@math.univ-paris13.fr Master 2 EID 07/08 3

4 Prédiction: 2.2 Régression linéaire multiple Dans le cas d'une régression multiple, nous cherchons à expliquer une variable quantitative y en fonction de plusieurs variables explicatives x 1, x 2, x 3,..., x k, où k est le nombres de variables. Le modèle linéaire multiple s'écrit donc ainsi: y = a 1 x 1 + a 2 x a k x k + b + ɛ Hypothèses: Le modèle utilisé implique plusieurs hypothèses: H1: Le modèle est linéaire. H2: la variable explicative est observée ( non aléatoire). H3: la moyenne des erreurs est nulle. H4: la variance des erreurs est constante. H5: Les erreurs ne sont pas corrélés entre elles. goutte@math.univ-paris13.fr Master 2 EID 07/08 4

5 H6: l'erreur est indépendante de la variable explicative. L'analyse des erreurs est importante, puisqu'elle permet de diagnostiquer un modèle non approprié (non linéaire, colinéaire, etc). Nous cherchons donc à estimer les paramètres a 1,..., a k et b de notre modèle. L'objectif étant d'estimer ces paramètres de façon à minimiser le terme ɛ. Autrement dit de minimiser la distance (au carré) entre chaque individu et la droite de régression. C'est ce qu'on appele une minimisation au sens des moindres carrés ordinaires (MCO). Nous trouvons ainsi des paramètres â 1,..., â k et ˆb. Graphe: Une fois estimé ces paramètres nous pouvons entamer la phase de prédiction de la variable réponse ŷ. ŷ = â 1 x 1 + â 2 x â k x k + ˆb Par déduction nous obtenons l'erreur du modèle : ERR = y ŷ goutte@math.univ-paris13.fr Master 2 EID 07/08 5

6 2.3 Tests statistiques sur les coecients du modèle Nous avons besoins de savoir si les coecients estimés sont signicativement diérents de zéro, c'est à dire si il y a un eet de la variable. Nous posons le test suivant: H0: le coecient est nul: a k = 0. La variable explicative x k n?inue donc pas sur la variable réponse y. H1: le coecient est diérent de 0. La variable x k explique la variable y. La statistique de test est la suivante: ST D obs = a k σ(a k ). y. Si ST D obs > ST D k 1 alors on rejette l'hypothèse H0, la variable x k explique la variable 2.4 Indicateur de qualité du modèle Un bon indicateur de la qualité de notre modèle est le coecient de détermination ou coecient empirique de corrélation : R 2. En eet, la variable à expliquer y possèdent une variance (variance totale), qui représente l'ensemble de l'information à modéliser. L'équation du modèle explique, elle, une partie de cette variance (variance due au modèle), le terme d'erreur ɛ explique une autre partie de la variance (variance résiduelle). Le coecient R 2 est le rapport entre la variance due au modèle et la variance totale. Il est compris entre 0 et 1. Le R 2 est donc un indicateur de la qualité du modèle fonctionnant ainsi: R 2 = 0.7 : 70% de la réponse est expliquée par les régresseurs. R 2 = 0 : modèle inadapté. R 2 = 1 : modèle parfait. goutte@math.univ-paris13.fr Master 2 EID 07/08 6

7 2.5 Exemples de modèles mal ajustés Voici quatres exemples de modèles ayant tous un coecent R 2 = Cependant les résultats des interprétations varient: Graphes: 1. Modèle adapté. 2. Modèle inadapté: l'équation du modèle devrait être une courbe (relation non linéaire). 3. Graphiquement, aucun modèle ne s'impose. 4. Le modèle est acceptable, mais graphiquement, il est moins correct que le cas (1) (les valeurs élevées de y sont mal prédites). goutte@math.univ-paris13.fr Master 2 EID 07/08 7

8 2.6 Analyse des résidus Les résidus studentisés (rapportés à l'ecart-type des erreurs) : t : Ce sont des estimations des erreurs du modèle. Ils permettent de vérier l'hypothèse de relation linéaire entre la réponse y et les régresseurs x. L'analyse se fait en analysant le graphique qui représente les résidus studentisés t en fonction des estimations ŷ de la variable à expliquer. Graphes: 1. Ajustement satisfaisant. 2. La courbure indique une non linéarité. 3. La dispersion indique une variance non constante. goutte@math.univ-paris13.fr Master 2 EID 07/08 8

9 2.7 Individus aberrants A cause d'une seule observation inuente, un modèle peut être mal estimé, il faut alors détecter cette observation et l'éliminer Graphes: Plusieurs statistiques permettent de déceler des valeurs aberrantes ou inuentes: La valeur du terme d'erreur. Les résidus studentisés. La distance de Cook. Ces statistiques prennent une valeur pour chaque observation. De manière générale, lorsque pour ces statistiques une observation possède une valeur élevée, cette valeur est inuente. goutte@math.univ-paris13.fr Master 2 EID 07/08 9

10 2.8 Selection des variables du modèles Colinéarité Une dénition de la colinéarité dans le cas des régressions peut être la suivante: deux variables sont colinéaires si elles apportent la même information. On peut détecter la colinéarité entre deux variables à l?aide de deux résultats précédemment étudiés: Un coecient de corrélation très élevé (PROC CORR). La relation géométrique est linéaire (PROC PLOT). Evidement la colinéarité a beaucoup d'inuence sur le modèle : un modèle qui contient deux variables colinéaires peut être moins bon que le modèle qui ne contient qu'une d'entre elles (la meilleure...). Une autre méthodes, vus au cours 4, nous permet aussi d'isoler ces variables coliéaires: L'analyse en composantes principales (ACP). Les variables qui se retrouvent sur un même axe peuvent être colinéaires Méthodes de selection Les régresseurs n'expliquent pas tous la réponse de manière égale: certains régresseurs sont meilleurs que d'autres. Notamment, un modèle peut être meilleur si on enlève une variable du modèle.pour ce faire, des méthodes de sélection de variables peuvent être utilisées. Il existe 3 méthodes: Ascendante pas à pas (forward): les variables sont ajoutées au modèle les unes après les autres, la première variable étant la meilleure. Descendante pas à pas (backward) : toutes les variables sont ajoutés, puis elles sont enlevées une par une en fonction de celle qui est la moins pertinentes. Ascendante avec remise en cause (stepwise) : méthode forward où une variable ajoutée peut être ultérieurement enlevée. 2.9 Conclusion Analyser les variables quantitatives explicatives: Recherche des variables colinéaires. Sélectionner les variables qui vont entrer dans le modèle. Rechercher le modèle: Pour trouver les régresseurs les plus explicatifs: méthode de sélection pas à pas des variables. Pour le cas des variables colinéaires : comparer les modèles. Analyse de la qualité du modèle. goutte@math.univ-paris13.fr Master 2 EID 07/08 10

11 Analyse des observations inuentes. Valider le modèle. 3 Regressions sous SAS 3.1 Syntaxe PROC REG <options>; <label:> MODEL <variable réponse>=<régresseurs> / <options> ; BY <variable>; FREQ <variable>; ID <variable>; WEIGHT <variable>; OUTPUT <OUT=table> <mot-clé>=<nom>; RUN; QUIT; Algorithme 1: Procédure REG Les options de la procèdure REG: CORR: édite la matrice des corrélations entre les variables. DATA=table : table en entrée. NOPRINT : supprime toute édition. OUTEST=table : crée une table qui contient l'équation du modèle. Les options de l'instruction MODEL: <label:> MODEL réponse=<régresseurs> / <options> ; Label: : Libellé du modèle. Réponse : variable à expliquer. Régresseurs : variables explicatives. goutte@math.univ-paris13.fr Master 2 EID 07/08 11

12 Les options : NOINT : supprime la constante dans l'équation du modèle. R : édite les statistiques pour les observations (Valeurs prédites, Résidus studentisés, Distance de Cook,...). SELECTION=forward/backward/stepwise : sélection des variables pas à pas. Les options classiques: BY: eectue un modèle par modalité de la variable. FREQ: pondération des observations (si pour une observation FREQ=3, l'observation est prise en compte comme si elle apparaissait 3 fois. ID : Identiant des observations. WEIGHT : pondération des observations pour eectuer une régression pondérée. OUTPUT <OUT=table> mot-clé=nom : OUT=table : crée une table en sortie, qui contient les stats du modèle. Au moins un mot-clé doit être spécié Mot-clé=nom : ajoute le mot-clé dans la table OUT et le renomme en nom. Exemple de mot clé : p pour les valeurs prédites. goutte@math.univ-paris13.fr Master 2 EID 07/08 12