Questions pratiques 5: L échantillon et ses problèmes

Documents pareils
Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Les acteurs de la carte d'achat

La nouvelle planification de l échantillonnage

TESTS D'HYPOTHESES Etude d'un exemple

COMPTABILITÉ DE GESTION

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Chapitre 2/ La fonction de consommation et la fonction d épargne

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cet article s attache tout d abord

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

REGLEMENT DE CONSULTATION LOCATION ET MAINTENANCE D UNE MACHINE A AFFRANCHIR ET D UNE MACHINE A METTRE SOUS PLI POUR LE SERVICE DU COURRIER

Évaluations aléatoires : Comment tirer au sort?

Chapitre 1 : Notions. Partie 9 - Rente viagère. Qu est-ce q u u n e «r e n t e v i a g è r e»?

Méthodologie d Ouverture, de Dépouillement et d Evaluation des Offres Relatives à la Consultation 09 S V.E.De.R

L assurance des travaux d installation d une

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

d ETF : Sept règles à suivre

LECTURE CRITIQUE 1 ER PAS

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

pas de santé sans ressources humaines

COMMENTAIRE. Services économiques TD

CANDIDATURE AUX FONCTIONS DE DIRECTEUR GENERAL DE L ENSAM

TABLE DES MATIERES. C Exercices complémentaires 42

1 - Salaires nets tous secteurs confondus

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Efficacité des Modules Maintenance dans les ERP.

Feuille d exercices 2 : Espaces probabilisés

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

C ) Détail volets A, B, C, D et E. Hypothèses (facteurs externes au projet) Sources de vérification. Actions Objectifs Méthode, résultats

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

CONFERENCE NATIONALE DU HANDICAP. Relevé des conclusions

La protection sociale obligatoire et complémentaire au cœur de notre bataille!

Le financement de l apprentissage informel

AUNEGE Campus Numérique en Economie Gestion Licence 2 Comptabilité analytique Leçon 3. Leçon n 3 : la détermination et l enchaînement des coûts

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

VI. Tests non paramétriques sur un échantillon

Qu est-ce qu une probabilité?

Les allocataires des minima sociaux: CMU, état de santé et recours aux soins

Relation entre deux variables : estimation de la corrélation linéaire

Loïc Blondiaux Le Nouvel Esprit de la démocratie Actualité de la démocratie participative Le Seuil, coll. «La République des Idées», 2008

Accélérer l agilité de votre site de e-commerce. Cas client

TABLE DES MATIÈRES. Première partie DE LA SOCIÉTÉ DE PLANTATION À LA SOCIÉTÉ DE TRANSFERTS : UNE SOCIOLOGIE DE LA RÉUNION

Régime social et fiscal des primes d intéressement

Loi Fédérale sur les bourses et le commerce des valeurs mobilières (LBVM)

UFR Etudes Interculturelles de Langues Appliquées. Evolution professionnelle des anciens du DESS/Master 2 ILTS

Convention de «management fees»: qu en est-il aujourd hui?

LES FRANÇAIS, L ÉPARGNE & LA RETRAITE

Délibération n du 27 septembre 2010

NOTIONS DE PROBABILITÉS

Chapitre 3 : INFERENCE

Format de l avis d efficience

Sondage Politique provinciale Campagne électorale Grand sondage régional. Étude quantitative. 25 mars 2014

RAPPORT DE 2010 SUR L ATTRIBUTION DE BÉNÉFICES AUX ÉTABLISSEMENTS STABLES

Sondage web sur la démocratie et la participation citoyenne

Aider les élèves qui en ont le plus besoin. Animation pédagogique 17 septembre 2008

INF6304 Interfaces Intelligentes

23. Interprétation clinique des mesures de l effet traitement

Brock. Rapport supérieur

T : F : info@cms-bfl.com Neuilly-sur-Seine, le 14 décembre 2011

Fonctionnement et procédure Prêt REER-RAP La Capitale

FONDS DE L AVENIR DE LA SANB INC. RÈGLEMENT ADMINISTRATIF RÉGISSANT LES POLITIQUES DE

Créé 1969 dans le but de mettre au travail des personnes handicapées

La majorité actuelle a pris. politique fiscale. inconstitutionnel? La nouvelle. rend-elle l ISF

PROGRAMME (Susceptible de modifications)

Organisation des Nations Unies pour l éducation, la science et la culture Conseil exécutif

L évaluation du transfert des apprentissages suite à un programme de perfectionnement

Contexte Colloque Santé et Société Mai 2015

Note de présentation générale. Secrétariat général du Conseil d orientation des retraites

E - R E P U TAT I O N D E S I N D I V I D U S ( P E R S O N A L B R A N D I N G )

1. Une petite économie ouverte dans un monde de capitaux parfaitement mobiles

Mesurer et analyser le trafic d un site internet Comment analyser l audience de son site et connaître les centres d intérêts des visiteurs?

La gestion de l offre dans le secteur laitier, un mode de régulation toujours pertinent SOMMAIRE. Daniel-Mercier GOUIN

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

CHAPITRE 4. APPLICATION DE LA NOTION D ETABLISSEMENT STABLE

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

I. Une nouvelle loi anti-discrimination

ANALYSE FINANCIERE DES COMPTES ANNEXES D EAU ET D ASSAINISSEMENT DE LA CAB!

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

SÉNAT PROPOSITION DE LOI

Probabilités sur un univers fini

Formation continue et bons de formation

NORME IAS 07 LE TABLEAU DES FLUX DE TRÉSORERIE

IFRS 10 États financiers consolidés

Volet préparatoire aux cours de CSI - MODULE 1

Assurance maladie publique et «Opting out» - Réflexions théoriques

SOMMAIRE QU EST-CE QU UNE SITUATION DE VENTE POUR LE REFERENTIEL BTS?

ECOLE NATIONALE SUPERIEURE DE COGNITIQUE. Paul Bui- Quang & Joachim Yerusalmi 03/01/2011

Principe d un test statistique

C R É D I T A G R I C O L E A S S U R A N C E S. Des attitudes des Européens face aux risques

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

la pauvreté 33 ses lutte contre territorial. création.cette n ne doit pas d insertion. 1. UNE Accompagner la Participation travaux sont évidemment

PEUT- ON SE PASSER DE LA NOTION DE FINALITÉ?

Transcription:

Questions pratiques 5: L échantillon et ses problèmes Jean-François Bickel Statistique II SPO8

Deux caractéristiques de l échantillon de données peuvent avoir de sérieuses conséquences sur la validité des résultats de la régression, leur interprétation et leur généralisation au delà de l échantillon concerné 1. Sa taille 2. Son caractère biaisé ou non 2

1. La taille de l échantillon La taille de l échantillon influe fortement sur les tests de significativité statistique Avec un échantillon de 60 personnes, une corrélation doit être d au moins.25 pour être significative au seuil de.05 Dans un échantillon de 10000 personnes, n importe quelle corrélation supérieure à.02 est significative au même seuil 3

A. Un échantillon de petite taille implique une double difficulté 1) la faiblesse de la puissance statistique 2) la détérioration de l approximation réalisée par les tests statistiques 4

1) La puissance statistique d un test peut être définie comme sa capacité à induire le rejet de l hypothèse nulle quand celleci est (dans la réalité) effectivement fausse Autrement dit, un test a une puissance statistique forte si, sur la base du test, on conclut que x a un effet sur y et que cette conclusion est effectivement valide 5

La puissance statistique dépend de n (effectif de l échantillon) Il en résulte que dans un petit échantillon, la puissance statistique est faible 6

D où i. un coefficient de régression statistiquement significatif permet une conclusion ferme de l effet de x sur y ii. l absence de significativité statistique pour le coefficient de la variable x n est pas forcément suffisant pour conclure à l absence d effet de cette variable x sur y 7

2) La grande majorité des tests que les chercheurs utilisent (test de t, test du chicarré, etc.) sont seulement des approximations Ces approximations fonctionnent généralement bien quand l échantillon est grand (théorème de la limite centrale) Mais le degré d approximation peut se détériorer de manière marquée quand l échantillon est petit 8

Pour éviter une telle détérioration, il faut que la distribution du terme d erreur soit normale Nous reprendrons ce point au moment d examiner les assomptions de la régression 9

Quand un échantillon est-il «petit»? Comme critère approximatif, on peut considérer comme «petit» un échantillon de moins de 100 observations Mais cela doit être pondéré par le nombre de paramètres dans l équation de régression; quand ce nombre augmente, le seuil de «petitesse» croît également 10

Au delà de 1000 observations, l échantillon est grand et évite tout problème de petitesse 11

B. Lorsqu un échantillon est très grand (plusieurs milliers d observations), la significativité statistique peut, au contraire, ne pas être un critère suffisant pour conclure que la relation entre x et y est significative du point de vue substantiel Autrement dit, un coefficient différent de 0 peut impliquer un écart très petit dans la réalité 12

Si les unités de mesure des variables sont familières (le revenu, le sexe, etc.), le raisonnement du chercheur (et le sens commun) peuvent permettre d évaluer si une relation est substantiellement différente de 0 Si les unités de mesures des variables ne sont pas familières, les coefficients standardisés peuvent aider pour cette évaluation 13

Un coefficient standardisé très petit, disons égal ou inférieur à.05, indique qu une part très petite de la variation de y est conditionnée par la variation de x 14

2. Les biais d échantillon Le processus de sélection de l échantillon peut conduire à deux types de biais d échantillon Chaque type étant susceptible de porter atteinte à une caractéristique essentielle de l échantillon a) sa validité interne b) sa validité externe 15

Nota Bene Ce sont là bien sûr des questions qui concernent toutes les méthodes statistiques, pas seulement la régression! 16

a) La validité interne réfère à la justesse et fiabilité des résultats des analyses portant sur l échantillon lui-même Le processus de sélection de l échantillon peut nuire à la validité interne et avoir pour conséquence des résultats erronés ou trompeurs 17

Si l échantillon est aléatoire et que le taux de non-réponses est faible, ce n est généralement pas considéré comme un problème majeur Si l échantillon a été sélectionné par convenance ou/et si une proportion importante de répondants potentiels refusent de répondre ou ne peuvent être localisés, l enjeu devient beaucoup plus crucial 18

Supposons une étude sur la relation entre éducation et revenu, et que les personnes qui se caractérisent par un niveau d éducation élevé et un bas revenu ou à l inverse un bas niveau d éducation et un revenu élevé ont répondu beaucoup moins fréquemment au questionnaire Ceci peut conduire à faire apparaître une relation forte entre éducation et revenu alors même qu en réalité cette relation est nulle ou faible 19

Généralement, on ne s attend pas à ce qu une telle structure différentielle des réponses se produisent Mais, cela ne signifie pas qu elle n apparaisse jamais! 20

La validité externe de l échantillon La validité externe se réfère au degré selon lequel les résultats des analyses menées sur l échantillon peuvent être généralisés à d autres groupes ou à la population de référence C est donc la question de la représentativité de l échantillon qui est ici en jeu 21

1) Un premier cas de figure est celui de l échantillon aléatoire (probabiliste) Un échantillon aléatoire est un échantillon pour lequel la probabilité de sélectionner n importe quel échantillon de taille n est connue ou peut être calculée 22

Il existe trois types principaux d échantillon aléatoire i. simple (ou ordinaire) ii. stratifié iii. par cluster 23

Généralement, il est assumé que dans le cas où l échantillon est aléatoire (probabiliste), les résultats ont une validité externe et peuvent être généralisés à la population dont est issu l échantillon Il existe un débat pour savoir si dans le cas d échantillons stratifiés ou par cluster, des ajustements sont nécessaires pour que les résultats puissent être généralisés à la population 24

Même pour un échantillon aléatoire, reste posée la question de la généralisation des résultats au-delà de la population dont est issu l échantillon A ce titre, ce type d échantillon est redevable du même examen critique que ceux du second cas de figure ci-après 25

2) Un second cas de figure est représenté par les échantillons constitués non aléatoirement échantillons de convenance, échantillons recrutés par voie de presse, etc. 26

Il faut soigneusement analyser si les relations causales établies sur la base de l échantillon ont de bonnes chances d exister dans d autres groupes auxquels on peut être intéressé Par exemple, est-ce que les individus de l échantillon se distinguent selon l une ou l autre caractéristiques importantes des individus d autres groupes? 27