Approche expérimentale en IHM



Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Principe d un test statistique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Introduction aux Statistiques et à l utilisation du logiciel R

Évaluations aléatoires : Comment tirer au sort?

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Les probabilités. Chapitre 18. Tester ses connaissances

Item 169 : Évaluation thérapeutique et niveau de preuve

Evaluation de la variabilité d'un système de mesure

Analyse Combinatoire

Qu est-ce qu une probabilité?

Chapitre 3. Les distributions à deux variables

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

CHAPITRE VIII : Les circuits avec résistances ohmiques

TESTS D'HYPOTHESES Etude d'un exemple

MATHÉMATIQUES APPLIQUÉES S4 Exercices

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

23. Interprétation clinique des mesures de l effet traitement

Optimiser les performances du mouvement de monte de l Axe Z.

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Fluctuation d une fréquence selon les échantillons - Probabilités

Relation entre deux variables : estimation de la corrélation linéaire

Date : Tangram en carré page

Collecter des informations statistiques

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Logiciel XLSTAT version rue Damrémont PARIS

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

PROBABILITÉS CONDITIONNELLES

Probabilités conditionnelles

CE QU IL FAUT SAVOIR PARTICIPATION À UN ESSAI CLINIQUE SUR UN MÉDICAMENT

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

Suites numériques 3. 1 Convergence et limite d une suite

Les assurances sociales en Suisse

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

NOTIONS DE PROBABILITÉS

Estimation et tests statistiques, TD 5. Solutions

T de Student Khi-deux Corrélation

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Dossier d'étude technique

Quelques rappels concernant la méthode expérimentale

À l'intention des parents

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à l approche bootstrap

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Algorithme. Table des matières

LES DIFFERENTS TYPES DE MESURE

Qualité du logiciel: Méthodes de test

Chapitre 2. Eléments pour comprendre un énoncé

Exercices sur le chapitre «Probabilités»

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

PARTICIPATION À UN ESSAI CLINIQUE SUR UN MÉDICAMENT CE QU IL FAUT SAVOIR

Cours de Tests paramétriques

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Probabilités conditionnelles Loi binomiale

Lois de probabilité. Anita Burgun

Correction de l examen de la première session

Probabilités sur un univers fini

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

FAQ Conditions de candidature... 2 Procédure de candidature et remise de prix... 2 Le dossier de candidature... 3

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Statistiques Descriptives à une dimension

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Régression linéaire. Nicolas Turenne INRA

PROGRAMME (Susceptible de modifications)

Dérivés Financiers Contrats à terme

Recherche dans un tableau

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Compilateur Hyperlink. Données extraites et rapports d'erreurs

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

1. Introduction Création d'une requête...2

CRÉER UN COURS EN LIGNE

choisir H 1 quand H 0 est vraie - fausse alarme

Jeux mathématiques en maternelle. Activités clés. Jeu des maisons et des jardins (Yvette Denny PEMF)

Raisonnement par récurrence Suites numériques

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Merci beaucoup de votre collaboration

Fonctions de plusieurs variables

Biostatistiques : Petits effectifs

INF6304 Interfaces Intelligentes

modélisation solide et dessin technique

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Cours 9 : Plans à plusieurs facteurs

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Retraite. Date de la retraite

Qu est-ce que le ehealthcheck?

Interface PC Vivago Ultra. Pro. Guide d'utilisation

Transcription:

Plan Approche expérimentale en IHM Michel Beaudouin-Lafon, LRI Wendy Mackay, INRIA mbl@lri.fr mackay@lri.fr http://insitu.lri.fr Qu est-ce que l approche expérimentale Concevoir une expérience Un peu de statistiques in situ - Projet commun du PCRI - LRI Université Paris-Sud & INRIA Futurs Qu est-ce que l approche expérimentale? Méthode scientifique d évaluation Fondée sur le test d hypothèse : On compare au moins deux conditions, A et B, sur des échantillons des deux populations Outil : expérimentation contrôlée Isoler la variable d intérêt (A/B) Fixer (ou contrôler) les autres variables Soumettre les sujets aux différentes conditions Observer (mesurer) les réponses Déterminer si A et B sont (statistiquement) différentes Exemple Comparaison des menus linéaires et circulaires Hypothèse : les menus circulaires (A) sont plus rapides que les menus linéaires (B) Expérience : tâche abstraite de sélection on fait varier le nombre d items par menu on mesure le temps de sélection d un item mackay@lri.fr, mbl@lri.fr 1

Difficultés de cette approche Fiabilité Peut-on avoir confiance dans les résultats? Peut-on répliquer l expérience? Validité Validité interne : A-t-on observé le bon phénomène? Validité externe : Les résultats sont-ils généralisables? Fiabilité Peut-on avoir confiance dans les résultats de l expérience? L expérience est-elle réplicable? Donnerait-elle les mêmes résultats si on la répétait? => éliminer les biais expérimentaux => utiliser suffisamment de sujets => utiliser des statistiques appropriées Risques d erreurs : faux positifs Risques d erreurs de première espèce (type I) On observe une différence dans l échantillon, alors qu il n y en a pas dans la population => on fixe ce risque a priori : c est le niveau de confiance Plus il est faible, plus on risque de ne pas pouvoir conclure Niveau de confiance : p = 0,05 On est sûr à 95% que les résultats observés sur un échantillon de sujets sont dus à une différence réelle au sein de la population et pas à l effet du hasard p = 0,05 veut donc dire que j ai une chance sur 20 d observer un effet qui n est pas réel! Risques d erreurs : faux négatifs Risques d erreurs de deuxième espèce (type II) On n observe pas de différence dans l échantillon, alors qu il y en a une dans la population Ce risque peut être calculé, il dépend de la puissance du test statistique qui est utilisé. En IHM, on s intéresse peu à quantifier ce risque : ça ne coûte pas cher de refaire l expérience... mackay@lri.fr, mbl@lri.fr 2

Validité Validité interne On manipule le facteur F, on observe l effet E Est-ce une causalité, ou une simple corrélation? Ou bien F et E ont-elles une cause commune C? Exemple : Corrélation observée entre le nombre de cigognes et le taux de natalité après la guerre à Strasbourg Est-ce que les cigognes apportent les bébés?!?... non... Cause commune : urbanisation Validité Validité externe Les résultats observés en laboratoire sont-ils pertinents hors du laboratoire? Problème des conditions expérimentales la tâche est-elle réaliste? les sujets se comportent-ils normalement? l environnement physique est-il représentatif? Exemple : la loi de Fitts mesure une performance limite, rarement observée en pratique Mise en œuvre : falsification Problème : on ne peut pas prouver qu une hypothèse est vraie (H => E et E) H!!! on peut seulement prouver qu une hypothèse est fausse! (H => E et non E) => non H Solution : On définit H0, l hypothèse nulle, comme l absence de différence, pour une mesure donnée et une population donnée, entre les conditions A et B Si l on observe un effet, on rejette H0 (c est le but!) Exemple Comparaison : menus linéaires (ML) et circulaires (MC) H0: il n y a pas de différence significative entre le temps de sélection dans un menu circulaire TS(MC) et linéaire TS(ML) On mesure TS pour des ML et MC de tailles différentes On compare les temps de pointage Si la différence est significative (> à une seuil), H0 est rejetée On peut aussi mesurer le taux d erreur TE et formuler une hypothèse nulle relative à cette mesure mackay@lri.fr, mbl@lri.fr 3

Que peut-on dire si H0 est rejettée? Seulement ceci : On peut dire, avec un niveau de confiance de 95%, qu il y a une différence entre les conditions A et B En particulier, on ne PEUT PAS DIRE qu on a prouvé que A est mieux que B! Que peut-on dire si H0 n est pas rejettée? RIEN, rien et rien! En particulier, ON NE PEUT PAS DIRE QUE H0 EST VRAIE! On peut simplement dire que l expérience est inconclusive (en fait, on peut dire un peu plus si on sait calculer la puissance du test) Concevoir une expérience 1. Spécifier l'hypothèse Que compare-t-on? 2. Spécifier les variables indépendantes Qu'est-ce qui varie? 3. Spécifier les variables dépendantes Qu'est-ce qu'on mesure? 4. Opérationnaliser le comportement Qu'est-ce qu'on étudie? 5. Spécifier la procédure Quels sont les groupes expérimentaux et de contrôle? 6. Identifier les tests statistiques appropriés Y a-t-il une différence significative? Exemple d'hypothèse Comparer les menus linéaires et circulaires Hypothèse nulle H0 : Il n'y a pas de différence de performance entre les utilisateurs en temps de sélection et taux d'erreur pour la sélection d'un item dans un menu linéaire ou dans un menu circulaire, quelle que soit l'expérience antérieure d'utilisation de la souris ou d'autres types de menus par l'utilisateur. mackay@lri.fr, mbl@lri.fr 4

Spécifier les variables indépendantes Les variables indépendantes (ou facteurs) sont celles que l on fait varier ou que l on contrôle Les combinaisons de variables définissent les conditions Dans notre expérience : Type de menu : Taille du menu : Expertise du sujet : linéaire, circulaire 3, 6, 9, 12, 15 items expert, novice, intermittent Note : on traite l expertise du sujet comme facteur => 2 x 5 x 3 = 30 conditions Spécifier les variables dépendantes Les variables dépendantes sont celles que l on mesure On les appelle également mesures Pour faire une analyse statistique fiable, il faut suffisamment de mesures pour chaque condition Typiquement : de l ordre de 30 (car on s approche alors d une distribution normale) Dans notre expérience : Temps pour sélectionner un item Nombre d erreurs Opérationnaliser le comportement La partie la plus délicate de la conception! Simplifier au maximum la tâche pour éliminer les biais et les facteurs extérieurs... sans la dénaturer Exemple : tâche de pointage de Fitts - on passe à une dimension cible = bande verticale - pointage réciproque allers-retours entre deux cibles Opérationnaliser le comportement Dans notre expérience : Mêmes étiquettes pour les items des menus Même position du menu (centre de l écran) Afficher l item à sélectionner au lieu d avoir à le trouver 1 2 3 4 5 6 3 4 2 5 1 6 mackay@lri.fr, mbl@lri.fr 5

Opérationnaliser le comportement Planifier l expérience : affecter les sujets Menace de validité Si la tâche est trop abstraite, on ne pourra pas généraliser But : Clé : Contrôler la variabilité des sujets Affectation aléatoire à des groupes Menace de fiabilité Si l on a des biais extérieurs, ils peuvent fausser les résultats Recommandations : - Utiliser des plans d expérience éprouvés exemple : le paradigme du pointage de Fitts - Simplifier le plan d expérience (moins de variables) - Faire des expériences pilote (petit nombre de sujets) Reconnaître les classes et en faire une variable indépendante Exemple : degré d'expertise des sujets Minimiser les différences entre groupes Exemple : distribution homogènes des "bons" sujets Utiliser suffisamment de sujets Déterminé par le type de test statistique, le degré de confiance recherché et la variabilité des données Plan expérimental inter-sujets Choisir une population Sélectionner autant de groupes que de conditions Affecter chaque groupe à une condition Suppositions : D'autres variables non contrôlées sont distribuées aléatoirement entre les groupes exemple : droitier/gaucher Les seules différences systématiques entre les groupes sont les variables indépendantes Utiliser des tests statistiques appropriés pour distinguer la variabilité entre groupes Plan expérimental intra-sujets Choisir une population Exposer chaque sujet à toutes les conditions Contrôle automatique de la plupart des autres variables meilleur contrôle de la variabilité inter-sujets Permet d'utiliser un nombre plus faible de sujets Impossible si une variable indépendante est liée aux sujets exemple : niveau d expertise Utiliser des tests statistiques appropriés pour prendre en compte la corrélation entre mesures mackay@lri.fr, mbl@lri.fr 6

Effets d apprentissage, interférences Problème principal des plans intra-sujets : apprentissage La performance d un sujet dans la condition B peut être affectée par le fait qu il a d abord été exposé à A Transfert positif : performance améliorée pour B Exemple : tâche de recherche Le sujet se souvient des réponses Transfert négatif : performance dégradée pour B Exemple : tâche de navigation Déplacement de la vue / déplacement du document Contre-balancer les effets d apprentissage Mesurer l effet de l apprentissage Au lieu d un plan A B, faire un plan A B A Comparer les performances de A avant/après B Contre-balancer les effets d apprentissage avec plusieurs groupes (plan expérimental mixte) : Au lieu d un groupe exposé à A puis B, faire deux groupes Un groupe exposé à A puis B Un groupe exposé à B puis A Comparer les performances dans chaque condition A et B pour chaque groupe Plan expérimental mixte Choisir une population Spécifier les variables inter-sujets : - catégories de sujets (ex: le niveau d expertise) - variables sujettes à apprentissage Constituer les groupes un groupe par condition inter-sujets Pour chaque groupe : contrebalancer les effets d apprentissage entre sujets exposer les sujets aux conditions intra-sujets Contre-balancer les effets d ordre L ordre d exposition d un sujet à différentes conditions peut avoir un effet sur les mesures exemple : fatigue qui s accumule, ou apprentissage Si on veut contre-balancer les effets d ordre sur 3 conditions 6 ss-groupes : A B C, A C B, B A C, B C A, C A B, C B A => explosion du nombre de sujets nécessaires! Solution : faire un carré latin 3x3 A B C Chaque ligne correspond à un groupe B C A Les effets d ordre sont neutralisés C A B mackay@lri.fr, mbl@lri.fr 7

Contre-balancer les effets de séquence Les effets de séquence sont des effets d apprentissage entre une condition et la suivante On peut aussi neutraliser les effets de séquence à l aide d une série exhaustive A C C B A B B A C A A B C B B C C A A Chaque paire A A / A B / A C etc apparait 2 fois Ordre presque contre-balancé : rangs moyens de A = 10.8, B = 8.7, C = 9.0 Cela devient compliqué avec plus de variables Plan expérimental Dans notre expérience : Variable inter-sujets : niveau d expertise (N=novice, E=expert, I=intermittent) Variables intra-sujets : type de menu (L = linéaire, C = circulaire), nombre d items (3, 6, 9, 12, 15) 3 groupes, un par niveau d expertise Dans chaque groupe, deux-sous groupes pour contre-balancer l effet d apprentissage : L puis C, C puis L Pour chacun de ces 6 sous-groupes, randomiser l ordre du nombre d items Pour chaque condition, chaque sujet fait plusieurs essais Plan expérimental Combien de sujets? 3 groupes x 2 sous-groupes x 5 ordres = 30 sujets Si l on n a accès qu à 15 sujets, on peut randomiser les combinaisons sous-groupe x ordre Combien d essais par condition et par sujet? Pour un menu de n items, il y a n types d essais On veut 30 essais par condition et par item en tout, comme on a 15 sujets, on va faire 2 essais par item pour les menus les plus longs => 30 essais par bloc Dans un bloc, on randomise l ordre des items Durée de l expérience : 2x5x30 = 300 essais 3 secondes par essai => 15 minutes par sujet Conduire l'expérience PRÉDIRE: Ecrire ce que l'on attend comme résultat! Contrôler les facteurs de biais Donner une consigne claire Utiliser des instructions identiques Garder les mêmes conditions d'un sujet à l'autre Expérimentation en "double aveugle" L'expérimentateur ne sait pas de quel groupe il s'agit Minimiser les contacts informels mackay@lri.fr, mbl@lri.fr 8

Exemples de sources d'erreurs Sujets Le sujet s'attend à un résultat particulier Le sujet déforme sa réponse en fonction de connaissances préalables Expérimentateurs Le sujet est influencé par l'expérimentateur Situation Mesure d un phénomène différent Désaccord entre observations répétées Conduire l expérience Expliquer et faire signer un consentement informé aux sujets Identifier les sujets et assurer leur anonymat Associer un numéro à chaque sujet En fonction de ce numéro, le programme doit connaitre les conditions pour ce sujet Collecter les données expérimentales S assurer qu elles sont fiables et valides Minimiser les traitements lors de la collecte collecter des données brutes Prédictions Pour notre expérience : Quelle que soit l expertise et la taille du menu, le menu circulaire sera plus rapide que le menu linéaire Autres prédictions : Pour les menus linéaires, la performance décroit lorsque le rang de l item du menu augmente Pour les menus circulaires, la performance ne dépend pas du rang de l item mais décroit avec le nombre total d items dans le menu Collecter les données Enregistrer un fichier facilement analysable par l homme et la machine Start S1 E C-L 3-12-15-9-6 Jeu 16 Nov 2006 15:45:54 Condition S1 E C 3 Jeu 16 Nov 2006 15:46:35 # sujet expertise type taille item hit/miss tps(ms) Trial S1 E C 3 2 Hit 1254 Trial S1 E C 3 1 Miss 885... Condition S1 E C 12 Jeu 16 Nov 2006 15:54:22 Trial S1 E C 12 5 Hit 1003... End S1 E C-L 3-12-15-9-6 Jeu 16 Nov 20056 16:23:55 mackay@lri.fr, mbl@lri.fr 9

Analyser les résultats Traitement statistique des données recueillies S'assurer que le test statistique choisi est valide Distribution de population (normale) Type de données (ordinale) Procédure d'échantillonage (aléatoire) Taille de l'échantillon (n=30) Déterminer le niveau de confiance des résultats L'hypothèse selon laquelle l'expérience de l'utilisation de la souris ne fait pas de différence est rejetée avec un niveau de confiance de 0.95 Interpréter les résultats : prudence! Evaluer la fiabilité Les tests statistiques mesurent cette fiabilité Tests post-hoc, par exemple pour l apprentissage Evaluer la validité interne Confronter les résultats aux prédictions Y a-t-il des effets inattendus? Evaluer la validité externe Les résultats sont-ils généralisables? Une différence significative mais faible n est pas nécessairement très intéressante Un peu de statistiques Types de variables et Distributions Corrélation et Test de Pearson Test du Chi-2 Note Cette partie du cours est inspirée de Concepts and Applications of Inferential Statistics Richard Lowry disponible en ligne à l adresse http://faculty.vassar.edu/lowry/webtext.html Test de Student Analyse de variance mackay@lri.fr, mbl@lri.fr 10

Statistiques C'est un domaine TRÈS vaste Il est difficile de faire des suppositions correctes Il est facile de se tromper On peut faire des tests simples Statistiques descriptives Réduire la masse des données, ex : la moyenne Statistiques inférentielles Inférer des propriétés d une population à partir de celles d un échantillon, ex : mesurer la probabilité qu une différence observée soit réelle Types de variables Le type d une variable détermine les propriétés de ses valeurs, et donc les tests statistiques applicables Variable nominale : ensemble de valeurs sans ordre ni relation ex : sexe, type de périphérique d entrée Variable ordinale : ensemble de valeurs ordonnées, mais pas équidistantes ex : degré de préférence (0-5), note (A-F) Variable scalaire : ensemble ordonné avec une échelle si possible : échelle linéaire et absolue (avec un zéro) ex : nombre, température, distance, temps Variables courantes en IHM Variables indépendantes (facteurs) : Souvent nominales Type de technique d interaction testée Expertise du sujet Parfois ordinale ou scalaire Nombre d items dans un menu ID d une tâche de pointage Statistiques descriptives Comment résumer un ensemble de mesures d une variable Distribution des fréquences des valeurs Variables dépendantes (mesures) : Scalaires Temps pour exécuter une opération Ordinales Fréquence de certaines actions Nombre d'erreurs Degré de préférence pour une technique Types de distributions Mesures de tendance centrale Mesures de variabilité Mesure de la corrélation entre deux variables mackay@lri.fr, mbl@lri.fr 11

Types de distribution Mesures de tendance centrale S appliquent à des variables scalaires Moyenne : Somme des valeurs divisée par leur nombre Médiane : Valeur milieu des N valeurs triées N impair : valeur d indice (N+1)/2 N pair : moyenne des valeurs d indice N/2 et N/2 + 1 Mode : Valeur la plus fréquente Il peut y avoir plusieurs modes (2 modes = bimodal) Mesures de variabilité Mesurent l étalement de la distribution Intervalle : distance entre valeur minimale et maximale Variance et écart-type : somme des carrés entre chaque valeur et la moyenne variance : s 2 = (X i - M) 2 / N écart-type : s = sqrt ( (X i - M) 2 / N) L écart type peut servir d échelle de la distribution z i = (X i - M) / s Corrélation entre deux variables Mesurer la relation entre deux variables scalaires En général une variable indépendante X et une variable dépendante Y Mesure du coefficient de corrélation linéaire r (-1 r 1) r = (X i - M X )(Y i - M Y ) / sqrt ( (X i - M X ) 2 ( Y i - M Y ) 2 ) r 2 s interprète comme la proportion de la variabilité de Y qui est associée à la variabilité de X 1- r 2 est la variance résiduelle, celle qui n est pas expliquée ATTENTION : corrélation ne veut pas dire cause! mackay@lri.fr, mbl@lri.fr 12

Statistiques inférentielles Complexe, plus puissant que les statistiques descriptives Fondé sur la théorie des probabilités Question fondamentale : signification statistique des résultats mesurés par les statistiques descriptives sur des échantillons d une population Exemples sur nos deux expériences : Pointage : la corrélation observée entre ID et TM est-elle le fait du hasard, ou existe-t-elle dans la population? Menus : la différence observée entre menus linéaires et circulaires est-elle généralisable à la population? Un exemple simple On a deux dés, un bleu (X) et un rouge (Y) On jette les dés 10 fois, et on enregistre les valeurs (Xi, Yi) A priori, le coefficient de corrélation devrait être 0. En réalité, la théorie des probabilités nous permet de calculer qu il y a 12% de chances que le coefficient de corrélation soit plus grand que 0.5! MAIS Si on avait jeté les dés 30 fois, cette probabilité serait 0.5% Signification statistique Les tests statistique permettent de déterminer la probabilité qu une corrélation ou une différence observées dans un échantillon se produise par tirage au hasard. On se fixe un niveau de confiance p, p.ex. 5% Si le phénomène observé avait moins de 5% de chances de se produire par hasard, on dit que le résultat est significatif pour ce niveau de confiance. P-value : Critère alpha = 0,05 0,05 = 1/20 S'il n'y a pas de différence et que je fait cette expérience 20 fois, un test donnera un résultat significatif les 19 autres donnera un résultat non-significatif Les tests statistiques font des hypothèse sur la population dont est extrait l échantillon, et ne sont valides que dans la mesures où ces hypothèse sont satisfaites. Ils nécessitent aussi un échantillon de taille suffisante. mackay@lri.fr, mbl@lri.fr 13

Directionalité du test Il y a deux types d hypothèses expérimentales : Hypothèse non-directionnelle Il y a une différence entre X et Y Hypothèse directionnelle X est supérieur à Y (ou inférieur, mais pas les deux) Le test est différent selon la directionalité : Dans le premier cas, on considère les deux branches de la distribution, dans le second une seule branche Test de Pearson Evaluer la signification statistique d une corrélation entre deux variables scalaires Si l on suppose un coefficient de corrélation nul dans la population, quelle est la probabilité qu un échantillon de taille N ait une corrélation r? OU Etant donné un échantillon de taille N, quelle valeur doit atteindre le coefficient de corrélation pour être significatif au niveau de confiance 95%? Test du Chi-2 Ce test s applique au cas où l on compte le nombre d occurences dans des catégories nominales. Il peut être utilisé lorsque l on a plusieurs dimensions, correspondant à des variables indépendantes Exemples : le nombre d utilisateurs - qui préfèrent tel type de menus (1D) - qui préfèrent tel type de menus selon leur niveau d expertise (2D) - qui préfèrent tel type de menus selon leur niveau d expertise et le périphérique d entrée utilisé (3D) Le test permet de dire si le résultat observé est statistiquement différent de la répartition attendue. Tests impliquant les moyennes Lorsque l on mesure des variables scalaires, les prédictions sont souvent de la forme : en moyenne, le temps de sélection est plus court pour un menu circulaire que pour un menu linéaire On compare donc des moyennes d échantillons, et la question est de savoir si la différence observée est significative ou simplement le fruit du hasard L hypothèse principale de ces tests est en général que la distribution des mesures de la population suit une loi normale et que l échantillon est aléatoire mackay@lri.fr, mbl@lri.fr 14

La loi normale La loi normale se manifeste chaque fois que l on a une variabilité purement probabiliste autour d une valeur moyenne donnée Exemple : on tire des séries de 20 essais à pile ou face et on compte le nombre de fois que pile sort On obtient la courbe en cloche caractéristique de la loi normale Plus le nombre d essais augmente, plus on se rapproche de la distribution théorique Test de Student (t-test) Probablement le test le plus utilisé en stats. inférentielles (en psychologie) - pour les n petits Compare les moyennes de deux échantillons et indique si la différence observée est significative Conditions de validité : la population suit une loi normale, les échantillons sont aléatoires et assez grands, les mesures sont indépendantes Exemple : On compare la moyenne des temps de sélection d un item dans un menu circulaire et dans un menu linéaire Si la différence est significative avec un niveau de confiance de 95%, on peut rejeter l hypothèse nulle Test de Student (t-test) Le test n est pas le même selon que les échantillons sont corrélés ou non corrélés Non corrélés : on a pris deux groupes de sujets différents (plan inter-sujets) Corrélés : on a pris un seul groupe qu on a mesuré dans les deux conditions (plan intra-sujets) Le test est plus sensible dans le cas corrélé car il peut plus facilement éliminer la différence inter-sujets Il faut rester prudent dans l interpétation, car l effet peut précisément être dû à la corrélation! Analyse de variance (ANOVA) L analyse de variance généralise le test de Student à un nombre arbitraire de catégories et de dimensions en comparant plusieurs moyennes entre elles Exemple : on compare 3 types de menus et pas 2 Faire des tests de Student entre paires de catégories ne donne pas des résultats corrects L ANOVA permet de séparer la variabilité interne à chaque échantillon de la variabilité entre échantillons mackay@lri.fr, mbl@lri.fr 15

Analyse de variance (ANOVA) Inconvénient de l ANOVA Perte de spécifité : comparaison globale des moyennes Test de Tukey : permet de trouver les paires d échantillons qui ont des différences significatives entre leurs moyennes (après le test) Comme pour le test de Student, l ANOVA est plus puissante lorsque les échantillons sont corrélés (plan intra-sujets) Si l on suit quelques règles (notamment des échantillons de tailles identiques), l ANOVA est robuste : les résultats sont fiables même si les hypothèse (loi normale) ne sont pas bien satisfaites L ANOVA permet également de mesurer les interactions entre facteurs Tests pour notre exemple Vérifier la qualité des données Exemple : distribution normale des temps de sélection Invalider l hypothèse nulle Test de Student sur les moyennes des temps de sélection selon le type de menu ANOVA sur les moyennes des temps de sélection selon le type de menu et l expertise Hypothèses secondaires Corrélations sur les temps de sélection selon le nombre d items et le numéro d item Exemple de résultats An empirical comparison of pie vs linear menus Callahan et al, proc. CHI 88, pp 95-100 Exemple de résultats Expérience de pointage avec zoom Moyenne et écart-type pour chaque ID Droite de régression Coefficient de corrélation r 2 =.995 mackay@lri.fr, mbl@lri.fr 16

Erreurs dans l'interprétation Les erreurs sont très fréquentes! Signification Importance p-value taille de l effet Une petite différence peut être très significative Les suppositions sont souvent fausses : Données qui ne suivent pas une loi normale Critère du test = 0,05 0,05 = 1/20 S il n y a pas d effet et que je fais l expérience 20 fois, l un des tests donnera un résultat significatif Résumé Expérimentations contrôlées : Manipuler des variables indépendantes Observer les effets sur les variables dépendantes Tirer des conclusions à partir de tests statistiques significatifs Permettent un plus grand contrôle mais peuvent ne pas être généralisables à des situations réelles Problèmes Mesure-t-on ce que l'on croit mesurer? Y a-t-il un effet dû aux conditions expérimentales? ex: effet Placebo mackay@lri.fr, mbl@lri.fr 17