TEST NON PARAMETRIQUE : ANALYSES DE FREQUENCES



Documents pareils
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

VI. Tests non paramétriques sur un échantillon

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Chapitre 3. Les distributions à deux variables

Analyse de la variance Comparaison de plusieurs moyennes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Principe d un test statistique

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

T de Student Khi-deux Corrélation

Revenu net 2,509, , , , ,401

Quels enseignements de l expérience française ( )

Quelques précisions concernant les commandes de Ticket Restaurant électronique par fichier Excel

Représentation d une distribution

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques : Petits effectifs

AFFAIBLISSEMENT DÛ AUX NUAGES ET AU BROUILLARD

FONCTION DE DEMANDE : REVENU ET PRIX

pour les canalisations de transport 14 avril

CONCOURS COMMUN A BIO... 2

FORMULAIRE DE STATISTIQUES

Dérivation : cours. Dérivation dans R

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Annexe A. Annexe A. Tableaux et données relatifs à la vérification par Eurocode 3 A.3

SE PREPARER A GERER UNE CRISE SOCIALE... Exoteam - Déjeuner MEFPVSG - 10/04/12

TP N 57. Déploiement et renouvellement d une constellation de satellites

Nombre dérivé et tangente

BE-TME Questions série 0

Raisonnement par récurrence Suites numériques

Continuité et dérivabilité d une fonction

Data loggers SOFREL LT/LT-US Solutions réseaux d eaux usées

EXERCICES - ANALYSE GÉNÉRALE

ELEMENTS DE COMPTABILITE NATIONALE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

INF6304 Interfaces Intelligentes

LE REGIME FISCAL DES LOCATIONS MEUBLEES

Dérivation : Résumé de cours et méthodes

Systèmes de conférence. Sennheiser vous propose des solutions globales performantes

TESTS D'HYPOTHESES Etude d'un exemple

Cahier de charge application cartographie (base de données des acteurs et des lieux culturels)

Logiciel XLSTAT version rue Damrémont PARIS

STATISTIQUES. UE Modélisation pour la biologie

Analyse des correspondances avec colonne de référence


ALPHA CONSEIL INFORMATIQUE Eurl Service Commercial COURTASS 4 Bis, Chemin de la Justice MONTLHERY Tel :

Indicateurs clé de performance: pilotez votre activité Internet!

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Un code-barre sur la tête?

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Le géomarketing - Page 1 sur 7

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Gestion des Factures

LOT 1 - ACQUISITION DE SERVEURS INFORMATIQUES LOT 2 - ACQUISITION DE 5 POSTES INFORMATIQUES

Évaluations aléatoires : Comment tirer au sort?

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Méthode : On raisonnera tjs graphiquement avec 2 biens.

Développements limités, équivalents et calculs de limites

LEAD Business School. Boubakar Bena6a

8 rue Paul Cézanne Neuilly-Plaisance - Tél : 33 (0) Fax : 33 (0) cvm@cvm.

ACOUPHEN ENVIRONNEMENT GROUPEMENT COORDONNE PAR LA COMMUNE DE MONTESSON ETUDE REALISEE POUR LE COMPTE DU : RAPPORT D ETUDE RA A


Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Présentation de GnuCash

Analyse tarifaire en ligne (TAO) de l'omc

La directive INSPIRE pour le partage des données géographiques

COMPTE - RENDU DU CONSEIL MUNICIPAL DU 8 MARS 2012

MonitEM Système de monitoring continue

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Localisation des fonctions

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Table des matières. 1. But. 2. Scénario de base. 3. Simulations

Les DDL. Les Attestations. (Diligences Directement Liées) Grenoble jeudi 4 juin 2009 Valence mardi 9 juin 2009 Gap vendredi 10 juin 2009

Chapitre 3: TESTS DE SPECIFICATION

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Le suivi de la qualité. Méthode MSP : généralités

livreblanc REALISATION D UN RESEAU INFORMATIQUE AVEC L OFFRE DE COMPOSANT FOLAN CLASSIC LAN

INTRODUCTION. 1 k 2. k=1

Point sur la Loi Scellier BBC

Comparaison des coûts de gestion des Assureurs Santé et de l Assurance Maladie. Annexe méthodologique

: seul le dossier dossier sera cherché, tous les sousdomaines

III.2 SPECTROPHOTOMÈTRES

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

!" #$#% #"& ' ( &)(*"% * $*' )#""*(+#%(' $#),")- '(*+.%#"'#/* "'") $'

UGIWELD TM, faites le vœu de l éternité

Demand Response, une brique importante du Smart Grid

Département Marketing Mobile. Dernière mise à jour : 14 avril 10

Système ASC unitaire triphasé. PowerScale kva Maximisez votre disponibilité avec PowerScale

Transcription:

TEST NON PARAMETRIQUE : ANALYSES DE FREQUENCES Ce type d'analyse statistique s'applique à des variables qualitatives ou à des variables quantitatives réparties (éclatées) en classes. On ne s'intéresse plus alors aux valeurs de la variable mais aux effectifs ou fréquences des individus observés dans les différentes classes de la variable. Critère du χ² (Khi-carré ou Khi-deux) Pour tester l'hypothèse nulle dans le cas de la comparaison d une distribution de fréquences avec une distribution attendue dans le cas d'un modèle théorique, on utilise l expression suivante : X² = k 1 ( O A)² A pour k classes de fréquences La distribution d'échantillonnage de X² suit approximativement une distribution théorique connue : la distribution du χ² définie comme la distribution de fréquences de la somme des carrés de (k-1) valeurs (zi) d'une variable normale (µ=0, σ=1). Mario Cannavacciuolo (2002) 1

Loi du khi-carré (χ²) soient z 1, z 2,... z ν variables aléatoires normales N(0,1) indépendantes ν χ² = z 2 1 + z 2 2 2 +... z ν = z i= 1 i obéit à une loi du χ² à ν degrès de liberté cas particulier pour ν=1 : χ²= z 1 ² ² Le carré d une variable normale centrée réduite suit une loi du χ² à 1 ddl 1. Famille de courbes de densité de probabilité obéissant à la loi du χ² pour différents degrés de liberté f(χ²) 1.0 0.8 0.6 ν=1 ν=2 ν=3 0.4 ν=6 0.2 2 4 6 8 10 12 χ² L'expression ν z i= 1 i ² permet donc de générer une distribution continue du χ² à ν degrés de liberté (ddl). Il existe une distribution différente pour chaque nombre de ddl, et l'on peut ainsi construire une courbe de fréquence représentative de la fonction de densité de probabilité Mario Cannavacciuolo (2002) 2

2. Utilisation dans le test du χ² - Valeur critique f(χ²) χ²[ν] α Si le critère testé suit une loi du χ² à ν ddl, et sous l hypothèse H 0 (c-a-d. si l hypothèse nulle est vraie), la valeur χ² α présente un risque α d être dépassée. 1-α χ² α[ν] χ² on rejettera donc l hypothèse nulle si la valeur observée est supérieure au χ² α [ν] pour un seuil fixé α. L'expression X² étant approximativement distribuées comme un χ² à k-1 ddl, on peut donc la comparer à la valeur d'une table du χ² au seuil α choisi par l'expérimentateur (ex. α =0.05), Règle de décision : Si X² < χ² α [ν] alors on accepte H0 au seuil de confiance de 1 - α Si X² χ² α [ν] alors on rejette H0 au risque α Approximation normale du χ² Lorsque ν est grand (>30 en pratique), l'expression t = 2Y² - (2ν - 1) tend vers une distribution normale standard N(0,1) Ex. pour ν= 100 et (χ² =) Y² =200 z = 2 * 200 - (2 * 100-1) = 5,893 Mario Cannavacciuolo (2002) 3

3. Exemple : Résultats d'un croisement dihybride. On observe N=90 individus. Hypothèse : les phénotypes "sauvage" et "mutant" sont dans un rapport 3:1. Phén. Sauvage fréq. observée fréq. attendue (O) (A) 80 67.5 X² = [(80-67.5)²/67.5] + [(10-22.5)²/22.5] = 9.259 Phén. Mutant 10 22.5 à comparer à un χ² à k-1 = 1 ddl Valeur critique du χ² = 3.84 pour α = 5 %. La valeur observée est donc supérieure à la valeur critique au seuil choisi. Conclusion du test : l'hypothèse nulle (rapport 3:1 des deux phénotypes) est rejetée significativement au seuil de 5 %. Mario Cannavacciuolo (2002) 4

Test du meilleur ajustement (=goodness of fit test) Tests portant sur un seul critère de classification (variable qualitative). Le but de ces tests est de montrer si la distribution de fréquences observée peut être considérée comme compatible avec l'hypothèse énoncée suivant un modèle théorique. L'hypothèse extrinsèque : si les paramètres de la distribution attendue sont extérieurs à la série observée (ex. : un taux d'hybridation dans une population) L'hypothèse intrinsèque : dans le cas où les paramètres de la distribution attendue sont estimés à partir de la série observée Exemple : ajustement d'une loi normale à une distribution de tailles observée; la moyenne et l'écart-type de cette distribution sont nécessaires pour calculer les effectifs attendus suivant une loi normale (hypothèse intrinsèque). Mario Cannavacciuolo (2002) 5

4. Test du Khi-deux Nombre de degrés de liberté (k=nombre de classes) Hypothèse extrinsèque : ddl = k - 1 (l effectif total est fixé) intrinsèque : ddl = k - 1 - nombre de paramètres estimés Exemples : nombre de paramètres nombre de degrés de liberté ν estimés Loi binomiale 0 k 1 Loi de Poisson 1 (µ) k 2 Loi normale 2 (µ et σ) k 3 Limitations Les effectifs attendus (théoriques) ne doivent pas être : -inférieurs à 5 pour plus de 20 % des classes -inférieurs à 1 pour une classe Mario Cannavacciuolo (2002) 6

Test de conformité d une distribution observée à une distribution théorique Distribution d une variable discrète Ex. : répartition spatiale de plantes dans N=256 placettes nombre de plantes par placette Nombre de placettes Fréquences observées (Fo) Fréquences attendues (Fa) 0 1 2 3 4 >=5 Σ Fo 127 92 26 9 2 0 256 11 Fa 127.2 89.0 31.1 7.2 1.3 0.2 256.0 8.7 (Fo - Fa)² Fa 10-4 0.1 0.8 0.6 1.55 0 1 2 3 4 5 variable = nombre de plantes k ( Fo Fa)² X² = = 155. Fa ddl = nb. Classes - 2 = 4-2 = 2 X² < χ² 0.05[2] = 5.99 La différence entre la distribution observée et théorique n est pas significative au seuil de 5%. La distribution des plantes est donc conforme au modèle poissonnien Mario Cannavacciuolo (2002) 7

Distribution d une variable continue Ex. : distribution de longueurs de N=200 feuilles Nombre de feuilles Limites de classes (mm) 9 11 13 15 17 19 21 23 25 Fo 2 18 30 40 70 30 9 1 0 (obs) 1 Fa 3 12.2 33.4 54.5 53.2 30.7 10.5 2.2 0.3 (théor) 2.5 (Fo - Fa)² Fa 0.34 2.7 0.35 3.9 5.4 0.01 0.23 0.86 9 11 13 15 17 19 variable = longueur 21 23 mm k ( Fo Fa)² X² = = 1388. Fa ddl = k - 3 = 8-3 = 5 X² > χ² 0.05[5] = 11.07 La différence entre la distribution observée et théorique est significative au seuil de 5%. La distribution des longueurs des feuilles n est donc pas conforme au modèle normal. Mario Cannavacciuolo (2002) 8

Tests d'indépendance (ou d'association) 2. Principe Analyse de tableaux de contingence L'association entre variables qualitatives constitue l équivalent de la corrélation entre variables quantitatives. On étudie des objets possédant 2 caractères simultanés (ex. couleur et forme des petits pois), chaque variable présentant plusieurs modalités (ex. : couleur jaune / vert et forme ridée/ lisse). Le but du test est de déterminer s'il existe ou non une dépendance (ou association) entre les deux variables dans la population. JAUNE VERT RIDE NRJ NRV NR LISSE NLJ NLV NL NJ NV N

3. Fréquences attendues Les effectifs attendus dans l'hypothèse d'indépendance entre les deux caractères sont obtenus par l'application du principe des probabilités combinées. La probabilité d'avoir des pois à la fois jaunes et ridés : p JR = p J * p R Pour un effectif total de N pois, l'effectif attendu N RJ = N * p JR = N * [(N J /N) * (N R /N)] N RJ = (N J *N R )/N Plus généralement l'effectif attendu d'une case au croisement d'une ligne I et d'une colonne J, N IJ est obtenu par le produit des totaux marginaux, divisé par le grand total. N IJ = N. N I.. J N.. 4. Degrés de liberté Le nombre de ddl est égal au nombre de composantes indépendantes du tableau nécessaires pour estimer les fréquences théoriques. ν= (L - 1) * (C - 1) Mario Cannavacciuolo (2002) 10

5. Cas général : Tableau L x C Exemple de tableau de contingence 2 variables qualitatives : A (C états) et B (L états) K= L x C = nbre de cases N.j et Ni. : totaux marginaux N.. : effectif total Fréquences observées (Oij) Fréquences attendues (Aij) A1 A2 NI. A1 A2 NI. B1 29 11 40 24.6 15.4 40.0 B2 8 12 20 12.3 7.7 20.0 B3 7 5 12 7.4 4.6 12.0 B4 4 2 6 3.7 2.3 6.0 N.J 48 30 78 48.0 30.0 78.0 Chaque fréquence attendue suivant l hypothèse d indépendance est obtenue par la formule : A X IJ 2 = = N. N I.. J N.. 2 L C ( ) = 6069. et ν = (L-1)(C-1) = 3 Oij Aij Aij Cette expression est distribuée approximativement comme un khi² χ² 0.05 [3] = 7.81 > X² La valeur observée ne dépasse donc pas la valeur critique. Conclusion : test non significatif au seuil de 5% L hypothèse d indépendance entre les 2 variables ne peut être rejetée. Mario Cannavacciuolo (2002) 11