ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA)



Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Pôle de Dakar S IMUL ATIONS. 1 Utiliser un taux d accroissement pour une simulation

Statistiques Descriptives à une dimension

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L évolution des parts modales des déplacements domicile-travail

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Traitement des données avec Microsoft EXCEL 2010

URBAIN-RURAL : DE QUOI PARLE-T-ON?

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

FORMULAIRE DE STATISTIQUES

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Relation entre deux variables : estimation de la corrélation linéaire

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 3. Les distributions à deux variables

Logiciel XLSTAT version rue Damrémont PARIS

La diffusion des résultats statistiques du recensement de la population

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

FONCTION DE DEMANDE : REVENU ET PRIX

Analyse en Composantes Principales

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Principe d un test statistique

Séries Statistiques Simples

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L'amélioration des performances économiques des territoires : méthodologie des cartes de performance. Application à la liaison Grenoble Sisteron

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

L a d é m a r c h e e t l e s o u t i l s p r o p o s é s

Introduction à l approche bootstrap

EXCEL Les tableaux croisés dynamiques

COURS DE MS EXCEL 2010

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

SPHINX Logiciel de dépouillement d enquêtes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Saint-Vallier-de-Thiey Bar-sur-Loup. Grasse. Grasse-sud

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

ASSEMBLÉE DES COMMUNAUTÉS DE FRANCE

Projet de Traitement du Signal Segmentation d images SAR

Indicateur : population présente tout au long de l année dans les départements littoraux métropolitains

les évolutions récentes

Aide-mémoire de statistique appliquée à la biologie

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

L emploi et les salaires des enfants d immigrés

MATHÉMATIQUES ET SCIENCES HUMAINES

EXCEL: Les fonctions financières

Etape 1 : Identification avec un compte personnel sur la plateforme (cf. notice «Création et gestion de votre compte utilisateur»)

Cours 9 : Plans à plusieurs facteurs

23. Interprétation clinique des mesures de l effet traitement

La classification automatique de données quantitatives

Extraction d informations stratégiques par Analyse en Composantes Principales

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

3. Caractéristiques et fonctions d une v.a.

données en connaissance et en actions?

Précision d un résultat et calculs d incertitudes

Thème 2 : Le rôle du «secteur informel» dans l intégration régionale

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Les Franciliens utilisent autant les transports en commun que la voiture pour se rendre au travail

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Evaluation de la variabilité d'un système de mesure

Collecter des informations statistiques

RAPPELS DU COURS PRÉCÉDENT

Accès à l éducation postsecondaire : Comparaison entre l Ontario et d autres régions

Introduction aux Statistiques et à l utilisation du logiciel R

Lois de probabilité. Anita Burgun

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Section des Formations et des diplômes

Localisation des fonctions

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Résonance Magnétique Nucléaire : RMN

Brock. Rapport supérieur

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

5 Avril Evolution de la construction neuve dans l espace Rhône Avignon Vaucluse AURAV LES PUBLICATIONS DE L AGENCE

Rapport de stage. «Travail préparatoire à l estimation du coût d une bonne qualité des eaux de baignade sur le littoral Aquitain»

Leçon N 4 : Statistiques à deux variables

Théorie des sondages : cours 5

LES GENERATEURS DE NOMBRES ALEATOIRES

Inégalités de salaires et de revenus, la stabilité dans l hétérogénéité

SIG ET ANALYSE EXPLORATOIRE

Statistique Descriptive Élémentaire

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

STAGE IREM 0- Premiers pas en Python

DISCOUNTED CASH-FLOW

Statistique : Résumé de cours et méthodes

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Observatoire Economique et Statistique d Afrique Subsaharienne

Travaux pratiques avec RapidMiner

La nouvelle planification de l échantillonnage

Pierre Marchand Consultant

Transcription:

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA) Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine Universitaire, IRSAM, 64000 PAU Mail : dominique.laffly@univ-pau.fr Dans de nombreux cas il est nécessaire de tester la signification de différences entre des moyennes calculées pour différentes catégories, autrement dit tester une hypothèse nulle (H 0 ) selon laquelle les moyennes sont égales. On a alors recours à l analyse de variance (ANOVA) développée par Fischer. On cherche à déterminer si les valeurs de la variable quantitative s organisent selon les modalités de la variable qualitative. En géographie, cette méthode est intéressante pour analyser les répartitions spatiales des modalités de l occupation du sol. Nous développerons à la fin de la présentation théorique un exemple à ce sujet. Le principe de base repose sur la décomposition de la variabilité totale en ses composantes intra_classe (variabilié à l intérieur de chaque modalité de la variable qualitative) et inter_classe (variabilié entre les différentes classes) selon la formule : Var totale = Var intraclasses + Var interclasses Ce qui revient à : Var totale = Var expliquée par la variable qualitative + Var résiduelle Ou encore : 1

n (y i - my ) = (y - mcla ) + i= 1 n k i (mcla - m y ) i= 1 j= 1 où : y i : valeur de l individu i ; m y : moyenne arithmétique de la variable quantitative Y ; m cla : moyenne de la classe à laquelle appartient l individu i ; (y i m y ) : dispersion totale ; (y i m cla ) : dispersion à l intérieur de chaque classe ; (m cla m y ) : dispersion entre les classes. Nous verrons qu il existe un test de significativité, retenons dès à présent que le rapport entre la variation interclasse et la variation totale qui varie de 0 à 1 exprime l intensité de la relation : I = Var intra_classes / Var totale I = 0 : indépendance, les variations de X ne s expliquent pas par les modalités de Y. I = 1, dépendance, ce sont les modalités de Y qui déterminent les variations de X. Prenons comme exemple un tableau des communes des Pyrénées-Atlantiques définis par leur nombre de naissance en 1999 et leur affectation au zonage de l INSEE : 1 : pôle urbain, unité urbaine qui offre au moins 5 000 emplois sur son territoire ; : commune péri-urbaine, au moins 40% des habitants actifs travaillent dans un même pôle urbain ; 3 : commune multipolarisée, commune envoyant au moins 40% de ces actifs vers plusieurs pôles urbains ; 4 : commune sous faible influence urbaine ; 5 : pôle rural ; 6 : commune sous influence du pôle rural ; 7 : rural isolé. Le tableau qui suit présente dans la partie gauche une section de la matrice initiale (543 communes dans les Pyrénées-Atlantiques) et, à droite, un tableau récapitulatif par modalité du zonage INSEE déclinant les occurrences, la moyenne arithmétique et l écart-type (obtenu facilement par la commande «rapport de tableaux croisés dynamiques» dans un tableur).

Commune NAISS99 TZAU Zonage INSEE Données Somme 64001 1 3 1 NB NAISS99 50 6400 6 4 Moyenne NAISS99 96.78 64003 11 6 Ecartypep NAISS99 1414.789876 64004 4 7 NB NAISS99 93 64005 3 6 Moyenne NAISS99 156.13 64006 31 7 Ecartypep NAISS99 84.01093917 64007 57 1 3 NB NAISS99 19 64008 9 7 Moyenne NAISS99 39.37 64009 113 Ecartypep NAISS99 34.764635 64010 38 7 4 NB NAISS99 158 64011 5 7 Moyenne NAISS99 57.63 6401 11 7 Ecartypep NAISS99 58.134491 64013 17 7 5 NB NAISS99 14 64014 60 4 Moyenne NAISS99 70.9 64015 15 7 Ecartypep NAISS99 46.909758 64016 50 7 6 NB NAISS99 3 64017 0 7 Moyenne NAISS99 67.74 64018 51 7 Ecartypep NAISS99 98.71168 64019 9 7 7 NB NAISS99 186 6400 14 4 Moyenne NAISS99 15.66 6401 37 Ecartypep NAISS99 36.34973591 640 5 7 Total NB NAISS99 543 6403 44 Total Moyenne NAISS99 101.5414365 6404 3180 1 Total Ecartypep NAISS99 47.018718 6405 14 7 6406 16 7 6407 17 6408 8 4 6409 55 4 64031 4 6403 13 7 La question que l on se pose est de savoir si le nombre des naissances peut être expliqué par l appartenance à une des modalités du zonage INSEE. Les calculs donnent les résultats 3

suivants (il faut décomposer le tableau en sous-tableaux correspondant chacun à une des modalités du zonage INSEE) : Var totale = 10 981 309 Var intra_classes = 10 703 05 Var inter_classes = 78 104 L intensité de la relation est de : I = 10 703 705/10 981 309 I = 0.99 Autant dire que la relation est totale et il y a donc dépendance totale entre le nombre des naissances et le zonage urbain de l INSEE. Nous pourrions ainsi multiplier les exemples avec la densité de population, la distance au pôle urbain le plus proche, le nombre de RMI, le taux de RMI par rapport à la population active Eloig. Equip. nb. RMI Tx. RMI Dens. Pop. Nb. Nais. Dist. VART_TOT 4117.744 8633863.7495 1515.3057 34517456.8380 10981308.8177 53371.6481 VAR_INTRA 3153.896 776155.817 1435.781 5006789.8811 10177383.186 1998.7316 VAR_INTER 963.8480 87607.933 80.076 9510666.9569 80395.6315 3344.9165 F 7.3008 10.0439 4.9810 33.9756 0.5976 149.916 Intensité 0.76 0.89 0.94 0.7 0.99 0.37 Dans le tableau de synthèse ci-dessus on peut observer que 37 % de la variable distance au pôle urbain le plus proche est expliquée par les modalités de la variable qualitative contre 7 % et 76 % pour, respectivement, les variables densité de population et éloignement aux équipements non-présents sur la commune. La ligne intitulée F renvoie au test de Fischer qui permet de tester la significativité de la relation ou plus exactement de l indépendance entre les deux variables : 4

F = Var int er ( k 1) Var int ra ( N k) = 0.0004 où N : nombre d individus ; k : nombre de modalités de la variable qualitative ; k-1 : nombre de degré de liberté de la variation interclasses ; N-k : nombre de degré de liberté de la variation intraclasses. Il existe une table de probabilités Fischer-Snedecor qui donne, pour un risque d erreur donné en pourcentage, la valeur théorique d indépendance. Le test sera significatif si la valeur F calculée est supérieure à la valeur F théorique F(n, p) : f(x) = 0.9999 Où n : k-1 et p=n-k Si F obs est inférieur à F théo alors l hypothèse d égalité des moyennes est vérifiée c est-àdire qu il y a indépendance. Par conséquent, les variables sont liées c est-à-dire que la distribution des valeurs de la variable quantitative est dépendante des modalités de la variable qualitative. La fonction gamma est équivalente à la fonction factorielle étendue aux arguments non entiers :. Ce qui donne : 5

pour les arguments entiers (n = 0, 1,,... ) : pour les arguments demi entiers (n = 1/, 3/, 5/,... ) : Ce test reste néanmoins à manipuler avec précaution puisqu il repose sur une statistique paramétrique supposant une normalité des distributions ainsi qu une proportion équivalente des masses d individus par classe de la variable qualitative. Les résultats obtenus permettent néanmoins en géographie de vérifier des hypothèses de répartitions spatiales. On observe sur la carte ci-dessus la répartition des zones INSEE et des anneaux concentriques d égale distance aux pôles urbains des Pyrénées-Atlantiques (Pau, Bayonne-Anglet-Biarritz, Oloron-Sainte-Marie et Orthez). D une manière générale on constate une organisation concentrique autour des pôles urbains. Cependant, dans le détail, les aires d influence de ces pôles diffèrent de même que la répartition des zones multi-polarisées et celle des pôles ruraux d où une intensité de l ordre de 63 % constatée plus haut. 6

Les cartes présentées ci-dessous détaillent la répartition spatiale des variables distance au pôle urbain le plus proche, densité de population, éloignement aux équipements non-présents sur la commune et taux de RMIstes. Distance au pôle urbain le plus proche Éloignements aux équipements Densitédepopulation Taux de RMIstes Les deux caractères taux de RMIstes et Éloignement aux services ne traduisent pas une structuration spatiale organisée en cercles concentriques autour des principaux pôles urbains, d où l absence de relation de dépendance révélée par l analyse de variance avec la variable éloignement. 7

Un autre exemple traite de la répartition des plages «saines» selon les départements des littoraux français : Pourcentage de plages saines en France 16.7 à 34.4 34.4 à 59 59à77. 77. à 89.7 89.7 à 100 Pourcentage de plages saines littoral de la Manche Pourcentage de plages saines littoral de la Méditarranée Pourcentage de plages saines littoral de l Atlantique 16.7 à 40.9 40.9 à 65.7 65.7 à 88 77. 77. à 89.3 89.3 à 100 34.4 34.4 à 6.7 6.7 à 89.7 L analyse de variance donne une intensité de liaison de l ordre de 50 %. Selon le littoral, on n observe d ailleurs pas la même répartition des plages «saines». Variation totale Variation intragroupe Écart à l intensité 0.15 à.95.95 à 11.65 11.65 à 4.65 4.65 à 36.5 36.5 à 49 1.4 à 4. 4. à 8.6 8.6 à 10.45 10.45 à 0.55 0.55 à 43 <-0.4-0.4à1.5 1.5 à 9.66 9.66 à 1.6 1.6 à 6 8

Références : Murray R. Spiegel et Larry J. Stephen, «Statistiques», édition Schaum s, troisième édition, 538 p. Jean-Pierre Georgin et Michel Gouet, «Statistiques avec Excel : descriptives, tests paramétriques et non paramétriques à partir de la version Excel 000», PUR, 343 p. 9