Cours 11 : Homogénéité de la variance et transformations non linéaires



Documents pareils
Cours 9 : Plans à plusieurs facteurs

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Rapidolect Les Productions de la Columelle ( ) Page 1

Équations non linéaires

Chapitre 4: Dérivée d'une fonction et règles de calcul

Evaluation de la variabilité d'un système de mesure

Introduction aux Statistiques et à l utilisation du logiciel R

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

FONCTION DE DEMANDE : REVENU ET PRIX

Chapitre 2 Le problème de l unicité des solutions

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

CHAPITRE VIII : Les circuits avec résistances ohmiques

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Principe d un test statistique

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

CAPTEURS - CHAINES DE MESURES

Régression linéaire. Nicolas Turenne INRA

Fonctions de deux variables. Mai 2011

Comparaison de fonctions Développements limités. Chapitre 10

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Correction du baccalauréat ES/L Métropole 20 juin 2014

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Suites numériques 4. 1 Autres recettes pour calculer les limites

Logiciel XLSTAT version rue Damrémont PARIS

3 Approximation de solutions d équations

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

1 Complément sur la projection du nuage des individus

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Suites numériques 3. 1 Convergence et limite d une suite

Relation entre deux variables : estimation de la corrélation linéaire

Table des matières. I Mise à niveau 11. Préface

Couples de variables aléatoires discrètes

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

TESTS D'HYPOTHESES Etude d'un exemple

Exercices Corrigés Premières notions sur les espaces vectoriels

Calculs de probabilités avec la loi normale

Conseil économique et social

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 0 Introduction à la cinématique

Introduction à l approche bootstrap

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Probabilités III Introduction à l évaluation d options

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

4. Résultats et discussion

avec des nombres entiers

Correction de l examen de la première session

TABLE DES MATIERES. C Exercices complémentaires 42

Circuits RL et RC. Chapitre Inductance

Chapitre 3 : INFERENCE

Brock. Rapport supérieur

Estimation et tests statistiques, TD 5. Solutions

Cours d Analyse. Fonctions de plusieurs variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Problèmes de crédit et coûts de financement

Lecture graphique. Table des matières

Cours 02 : Problème général de la programmation linéaire

Représentation des Nombres

Annexe commune aux séries ES, L et S : boîtes et quantiles

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

NOTIONS DE PROBABILITÉS

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Séries Statistiques Simples

Calcul différentiel sur R n Première partie

Les indices à surplus constant

L assurance de la qualité à votre service

Fonctions de plusieurs variables

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Le Modèle Linéaire par l exemple :

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La méthode des scores, particulièrement de la Banque de France

Chapitre 1 Régime transitoire dans les systèmes physiques

Frédéric Laroche 2009

Théorème du point fixe - Théorème de l inversion locale

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Feuille TD n 1 Exercices d algorithmique éléments de correction

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Moments des variables aléatoires réelles

Algorithmes d'apprentissage

La classification automatique de données quantitatives

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Chapitre 6. Fonction réelle d une variable réelle

Simulation de variables aléatoires

I. Polynômes de Tchebychev

Les travaux doivent être remis sous forme papier.

TSTI 2D CH X : Exemples de lois à densité 1

NON-LINEARITE ET RESEAUX NEURONAUX

Logique. Plan du chapitre

Transcription:

Cours 11 : Homogénéité de la variance et transformations non linéaires Table des matières Section 1. Régularité de la nature et effets linéaires... 2 Section 2. Homogénéité des variances... 2 Section 3. Restauration de l homogénéité des variances... 3 3.1. Transformation par la racine carrée... 3 3.2. Transformation logarithmique... 4 3.3. Transformation angulaire... 4 Section 4. Restauration de la linéarité dans le cas d effets courbes... 4 Section 5. Conclusion... 6 Exercices... 7 Lectures Suggérée : Howell, chapitre 11.9. Objectifs Détecter si la variance entre les groupes est homogène préalablement à la réalisation d une analyse de variance. Si oui, effectuer des transformations dans le but de restaurer l homogénéité des variances. Détecter si des résultats suivent une tendance précise même si les moyennes ne forment pas une ligne droite. Transformer les données pour que les résultats deviennent linéaires si une régularité est suspectée. Cours 11. Homogénéité de la variance et transformations non linéaires 1

Section 1. Régularité de la nature et effets linéaires La recherche de lois scientifiques passe la découverte de régularités. La meilleure façon est de faire des mesures quand un facteur varie suivant plusieurs niveaux. Lorsqu'un graphe des résultats montre une ligne parfaitement droite, on sait qu'on vient de découvrir une régularité. Dans les faits cependant, il est rare d'obtenir des effets linéaires, surtout en psychologie. En physique, Newton a révolutionné le monde en mettant en évidence un effet linéaire de l'accélération sur la force, F(a) = m a. De la même façon au début du XX ième siècle, l'effet photo-électrique était très déroutant jusqu'à ce que Einstein en 1905 trouve une façon de regarder les résultats tel que l'effet photo-électrique était parfaitement linéaire. De façon générale, découvrir une relation linéaire entre un facteur et une mesure est la meilleure indication qu'il existe une régularité, surtout si l'effet se maintient lorsque l'expérience est répétée. Quand l'effet n'est pas linéaire, une façon de vérifier que l'effet est bien réel est de voir si la courbe du graphe ne peut pas être transformée de telle façon que l'effet résultant forme une ligne droite. Ce faisant, le chercheur démontre la régularité de façon frappante, et en plus, il montre quelle peut bien être la forme de la courbe avant transformation. En psychologie, une loi importante est la loi de l'apprentissage. Cependant, il ne s'agit pas d'un effet linéaire: En début d'apprentissage, les participants apprennent très vite à faire mieux (moins d'erreur ou réponses plus rapides, selon ce que le chercheur mesure). Par contre, au fur et à mesure que les participants approchent de leur plancher, l'amélioration se fait de plus en plus lentement. L'ensemble forme une courbe du genre: 800 600 400 heures de pratique Figure 1 : Performances typiques obtenues sur 10 heures d entraînement Newell et Rosenbloom ont montré en 1981 la régularité de cette courbe en trouvant une transformation des axes qui rende la courbe parfaitement linéaire et ont montré sur une cinquantaine d'ensembles de données obtenus sur une grande variété de tâches très différentes les unes des autres (tel le temps pour rouler un cigare, le temps pour trouver Charlie, le nombre d'erreur de multiplication, etc.) qu'à chaque fois, la courbe devenait très linéaire. Ils ont été les premiers à détecter "la loi d'apprentissage". Section 2. Homogénéité des variances Un postulat important à la base de l'anova concerne l homogénéité des variances. Plusieurs études semblent démontrer que dans le cas d échantillons d effectifs égaux, le test F est un test robuste, c est à dire qu il est peu affecté par la violation du postulat de normalité Cours 11. Homogénéité de la variance et transformations non linéaires 2

des données brutes et la violation de l homogénéité des variances. C est une des raisons pour laquelle plusieurs auteurs recommandent fortement l utilisation de groupes égaux. Toutefois, Wilcox (1987) démontre que même dans le cas d échantillons de tailles égaux, le test F peut être affecté par une hétérogénéité sévère des variances, d où l importance d une vérification préalable à l aide de tests statistiques. Conover et al. (1981) ont recensé et comparé 56 tests d homogénéité des variances. Un des meilleurs est le test de Levene (1960) et sa variante, le test de Brown-Forsythe (1976). Le test de Levene consiste à utiliser une analyse de variance simple sur des valeurs Z qui sont la distance de chaque donnée brute X à la moyenne de son groupe X i. Comme on soustrait la moyenne, toutes les valeurs Z ne devraient refléter que la variance autour de zéro. S il existe encore un effet du traitement, cela signifie que la variance n est pas également répartie entre les conditions. Formellement Z = X - X i H 0 : σ 2 1 =σ 2 2 =... =σ 2 p Le rejet de l hypothèse nulle (un ratio F significativement supérieur à 1.00) implique la présence d hétérogénéité dans les variances et la nécessité de recourir à une transformation non linéaire des données dans le but de ramener les scores extrêmes plus près de la moyenne. Une variante du test de Levene est le test de Brown-Forsythe. Elle consiste à soustraire la médiane dans chaque condition plutôt que la moyenne. Malheureusement, ces deux tests ne sont pas réalisés automatiquement par le logiciel SPSS. Il faut donc soit écrire un programme qui va calculer les Z avant de faire une ANOVA usuelle, ou alors utiliser les autres tests incorporés dans le logiciel SPSS. Ces tests alternatifs sont le test de Cochrans et le test de Bartlett. Section 3. Restauration de l homogénéité des variances N importe quelle transformation non linéaire peut être réalisée sur les données brutes. Cependant, il faut savoir quel est votre objectif avant de procéder. Si l hypothèse d homogénéité des variances est rejetée, il est nécessaire d effectuer l une des transformations suivantes qui aura pour effet de normaliser les distributions, soit de rendre les variances plus comparables entre les conditions. Notons qu une transformation est très facile à réaliser avec la plupart des logiciels d analyses statistiques. 3.1. Transformation par la racine carrée Cette transformation implique de changer les X ainsi : X' = X + 0.5 Elle est souvent utile lorsque la variable dépendante est une fréquence, par exemple, le nombre d erreurs, le nombre de réponses, etc. Cours 11. Homogénéité de la variance et transformations non linéaires 3

3.2. Transformation logarithmique Cette transformation est parfois utilisée lorsque la variable dépendante est mesurée en unité de temps, par exemple, secondes, minutes, etc. Cette transformation a pour effet de stabiliser la variance et de normaliser les distributions qui ont une asymétrie positive. Elle s obtient avec la transformation suivante : X' = Log( X +1.0) 3.3. Transformation angulaire Dans une expérience, il arrive souvent que la variable dépendante soit exprimée en pourcentage, ce qui se produit par exemple lorsqu on mesure le nombre de bonnes réponses sur un maximum possible. Dans ce cas, si les variances sont hétérogènes, il faut procéder à une transformation angulaire de la forme : X' = 2ArcSin X Dans ce cas, X devient une mesure exprimée en radians. La variable X doit être incluse entre 0 et 1, sinon la transformation donnera des résultats aberrants. Section 4. Restauration de la linéarité dans le cas d effets courbes Dans un grand nombre d expérience, on utilise des niveaux qui s accroissent continûment, suivant une échelle de type II. Dans ces cas, la relation devient très facile à analyser (comme on le verra aussi au cours 12), et la pente de la droite a une signification directe. Par exemple, supposons une expérience de recherche visuelle. Dans cette expérience, on montre à un sujet une scène contenant 1, 2, 3, objets, et le sujet doit décider aussi rapidement que possible si un objet précis (la cible) est présent. L exemple par excellence se trouve dans les livres «Où est Charlie». Le graphe suivant illustre le type de données que l on peut obtenir dans un plan à 4 mesures répétées sur le nombre d objets (1 à 4). Temps de ré ponses ms 1 2 3 4 Nombre d objets Figure 2 : Performances typiques lors de la recherche d un objet cible parmi plusieurs objets distrayants Dans ce cas, la pente de la fonction nous indique le temps qu il faut pour traiter chaque objet supplémentaire. Il s agit donc d une indication du mouvement de l'attention. Cours 11. Homogénéité de la variance et transformations non linéaires 4

À l occasion, on obtient des effets qui, sans être linéaires, semblent doté d une régularité très précise. Par exemple, on peut étudier le temps qu il faut pour décider si deux objets successifs sont identiques ou différents. On trouve que le temps pour dire «identique» s accroît avec la complexité des objets, comme on le voit sur le panneau de gauche de la Figure 3. Cependant, l accroissement n est pas linéaire, mais forme plutôt une courbe concave. Dans ces cas, pour voir si la relation est vraiment stable plutôt que simplement illusoire, on peut faire un graphe de type log-log 250 100 100 100 Complexité Complexité Figure 3 : (gauche) Performances typiques lors d une tâche même-différent; (droit) même résultats sur un graphique log-log. Comme on le voit sur le panneau de droite de la Figure 3, avec un graphe log-log, les données sont parfaitement linéaires, ce qui suggère que la courbe empirique obtenue à gauche n est pas farfelue ou résultante du hasard. Utiliser un graphe de type log-log revient à transformer les données brutes X et les niveaux a i. La relation est simplement a i = Log(a i ) et X = Log(X ). Ce genre de transformation est souvent utilisé en ingénierie, et commence à l être en psychologie, notamment en perception, où il semble exister un grand nombre de lois très stables, mais non linéaires. Un autre exemple concerne la loi d'apprentissage. Il semble bien établi que les performances s'améliorent avec la pratique suivant une équation du type: Perf(N) = a + b N -c où Perf mesure la performance après N heures d'entraînement, et a, b, c sont les paramètres du sujet. Souvent, Perf est le temps pris pour compléter une tâche, temps qui se réduit avec la pratique. La courbe ressemble à celle du panneau de gauche de la Figure 4 qui devient linéaire sur un graphe de type log-log, comme on le voit sur le panneau de droite de la Figure 4. Cours 11. Homogénéité de la variance et transformations non linéaires 5

800 600 400 700 500 700 500 heures de pratique heures de pratique Figure 4 : (gauche) Performances typiques lors d une tâche d entraînement; (droit) même résultats sur un graphique log-log. Section 5. Conclusion Cours 11. Homogénéité de la variance et transformations non linéaires 6

Exercices 1. Soit les données de la Figure 5 (fictives) représentant des taux d'erreur d'un participant dans deux tâches différentes en fonction du nombre d'heure d'entraînement (première colonne): Log(session)? Si oui, quel type de graphe avez-vous fait? Figure 5 : Données de la question 1 a) Est-ce que les effets sont linéaires dans la tâche 1 (colonne 2)? dans la tâche 2 (colonne 3). Pour répondre à la question, faites un graphe des moyennes. b) Calculer dans deux autres colonnes le log (ln) du taux d'erreur dans la tâche 1, dans la tâche 2. Est-ce que l'effet devient linéaire en fonction de session? Si oui, quel type de graphe avez-vous fait? c) Calculer dans une dernière session le log du nombre d'heure d'entraînement. Est-ce que l'effet devient linéaire en fonction de Cours 11. Homogénéité de la variance et transformations non linéaires 7