Module Statistique-Informatique. Projet de statistique



Documents pareils
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyse de la variance Comparaison de plusieurs moyennes

Baccalauréat technologique

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à l approche bootstrap

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

MINISTÈRE DE L'AGRICULTURE, DE L'AGROALIMENTAIRE ET DE LA FORÊT

TESTS D'HYPOTHESES Etude d'un exemple

Figure 1 Différents éléments influençant les mesures de seuil réalisées en champ visuel

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

3 Les premiers résultats des plans d'actions

Evaluation de la variabilité d'un système de mesure

Systèmes de transport public guidés urbains de personnes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

À l'intention des parents

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Contrôle interne et organisation comptable de l'entreprise

1. Vocabulaire : Introduction au tableau élémentaire

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Logiciel XLSTAT version rue Damrémont PARIS

Observation des modalités et performances d'accès à Internet

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

LE PROBLEME DU PLUS COURT CHEMIN

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Copropriété: 31, rue des Abondances Boulogne-Billancourt

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

ANNEXE 1 RÈGLEMENTS GÉNÉRAUX 1 ASSOCIATION DES ARCHÉOLOGUES PROFESSIONNELS DU QUÉBEC (AAQ) CODE D ÉTHIQUE ET DES NORMES PROFESSIONNELLES

DYNAMIQUE DE FORMATION DES ÉTOILES

Cours 9 : Plans à plusieurs facteurs

La classification automatique de données quantitatives

Polytech Paris-Sud Parcours des écoles d'ingénieurs Polytech Voie C. Règlement des études et modalités de contrôle des connaissances

Nombre de crédits Nombre d'évaluation UE Majeure de spécialité 6 2. UE mineure de spécialité 3 ou 2 1. UE libre 1 1

Déclaration d'assurance (budget général) relative à l'exercice 1994 (25-26 octobre 1995)

Date : Tangram en carré page

Utilisation du Logiciel de statistique SPSS 8.0

Tableau récapitulatif de l analyse fréquentielle

Méthodes quantitatives en sciences humaines. 2 Pratique : 2 Étude personnelle : 2. BUREAU poste courriel ou site web

Concours 2008 / 2009 externe et interne réservé d ingénieurs des services culturels et du patrimoine, spécialité «services culturels»

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Répartition des coûts du compte de pass-on par catégorie de consommateurs

Contrôle des connaissances

Modalités de candidature et de certification. Niveau 1. Certification de personnes Expert méthode HACCP/SMSDA

Évaluations aléatoires : Comment tirer au sort?

REGLEMENT TECHNIQUE D EVALUATION DIAGNOSTIC IMMOBILIER EPREUVE CREP CERTIFICATION SANS MENTION

QUESTIONS/REPONSES SUR LE STATUT D'EXPORTATEUR AGREE DGDDI Bureau E1- septembre 2011 Statut d'exportateur agréé (EA)

Principe d un test statistique

Régression linéaire. Nicolas Turenne INRA

D.E.S.C.F - UV 1 - Module 8 Consolidation dans les groupes de sociétés. Corrigé - Cas IG/IP/MEE

Fiche conseil n 16 Audit

NOTIONS DE PROBABILITÉS

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

LE PLAN D'AMÉLIORATION DE LA FONCTION MARKETING

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Retentissement de la réforme de l'ircantec 2008 sur la retraite des Praticiens Hospitaliers.

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Théorie des sondages : cours 5

Les probabilités. Chapitre 18. Tester ses connaissances

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Les pôles commerciaux et leurs magasins

1 la loi: la loi du 4 août 1996 relative au bien-être des travailleurs lors de l'exécution de leur travail;

Avant-projet, Montage de projet, pré-projet, pré-études

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

NC 06 Norme comptable relative aux Immobilisations incorporelles

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

4. Résultats et discussion

C ) Détail volets A, B, C, D et E. Hypothèses (facteurs externes au projet) Sources de vérification. Actions Objectifs Méthode, résultats

Méthodes de développement. Analyse des exigences (spécification)

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Transmission d informations sur le réseau électrique

SDLV120 - Absorption d'une onde de compression dans un barreau élastique

Relation entre deux variables : estimation de la corrélation linéaire

UNITE U 6.2 : PROJET TECHNIQUE OBJET DE L'EPREUVE.

Les indices à surplus constant

Chapitre 1 Régime transitoire dans les systèmes physiques

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UE 1-1- Appréhension des concepts fondamentaux du droit Matières. UE Appréhension des concepts fondamentaux du droit Matières

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

PRÉSENTATION DES RÉSULTATS DE L'ENQUÊTE SUR LES SERVICES NUMÉRIQUES

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Classe de première L

Annexe commune aux séries ES, L et S : boîtes et quantiles

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Appendice 2. (normative) Structure de niveau supérieur, texte de base identique, termes et définitions de base communs

Régime de retraite patronal-syndical (Québec) de l'association internationale des machinistes (A.I.M.)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Disparités entre les cantons dans tous les domaines examinés

Soutenance de stage Laboratoire des Signaux et Systèmes

7.2 - Le traitement administratif des accidents de service, de travail et des maladies professionnelles

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Transcription:

Module S.I. - Projet de Statistiques Module Statistique-Informatique Projet de statistique Ecole Nationale Vétérinaire de Toulouse Département des Sciences biologiques et fonctionnelles UP de Biométrie D. Concordet

Module S.I. - Projet de Statistiques 2 L'objet de ce document est de vous fournir un exemple de projet traité. Il va de soi que la question que vous choisirez ne sera pas nécessairement calquée sur celle-ci. Notre objectif est ici simplement d'illustrer le type de questions qu'il serait bon de se poser avant le recueil des données et pendant l'analyse. Votre rapport doit contenir 4 parties qui correspondent aux 4 différentes étapes de toute les études. Nous avons ajouté une partie 0 qui correspond à la justification de la question posée. Vous n'êtes pas obligé d'en faire autant, nous désirons simplement que vous réfléchissiez à la démarche à suivre pour pouvoir répondre à une question aussi incongrue soit elle. Nous utiliserons dans ce document certains termes statistiques qui seront notés en gras italique. 0 ) Préambule Il est d'usage dans l'école de parler des conditions dans lesquelles se déroulent les examens et il paraît légitime de se demander si ces conditions influent sur les notes obtenues. En effet, certains de vos camarades laissent entendre que selon le type de surveillance, la tentation de "pomper" est plus ou moins grande. L'objet de l'étude que nous vous proposons est d'essayer de valider ou d'invalider (au moins qualitativement) cette théorie. 1 ) Une question et un plan d étude Avant de formuler plus précisément la question, il convient de préciser le vocabulaire que nous avons utilisé dans le préambule. Définition Il existe vraisemblablement différentes façons de surveiller un examen. Chercher à les classer est un exercice difficile. En effet, il n'est pas déraisonnable de penser que le degré de surveillance n'est pas constant au cours de l'épreuve et dans les différentes parties d'un amphi. On peut imaginer que certains surveillants se promènent pendant toute l'épreuve dans l'amphi, alors que d'autres en affectionnent plus particulièrement certaines régions. Une typologie des méthodes de surveillance d'un examen devrait donc prendre en compte ces deux variables. Cela apparaît difficile à effectuer, aussi le facteur type de surveillance sera confondu avec le facteur surveillant. La définition dont nous avons besoin pour formuler la question étant définie, il est maintenant possible de préciser la question à laquelle nous allons essayer de répondre : Le type de surveillance a t-il en moyenne un effet sur les notes obtenues par les étudiants? L'espace d'inférence Afin de définir avec précision l'espace d'inférence c'est à dire l'ensemble des individus auxquels les résultats de cette étude seront extrapolés, nous avons besoin d'au moins un postulat qui ne sera pas vérifiable dans cette étude. Ce postulat est le suivant : dans des conditions d'examens identiques, avec des épreuves de même nature, le pourcentage d'étudiants tentés de pomper ne dépend pas du temps (donc pas du semestre, ni de la promotion). En d'autres termes, il est possible de "choisir" pour l'étude n'importe quelle promo à n'importe quel moment de l'année. Si ce postulat est raisonnable, il sera possible d'extrapoler les résultats de l'étude à l'ensemble des étudiants de l'envt. (Il est facile de voir quel postulat devrait être vérifié pour pouvoir extrapoler les résultats à l'ensemble des étudiants vétérinaires). La variable "réponse" La variable "réponse" (ou encore variable à expliquer) est la variable dont on veut expliquer les variations à partir d'autres variables. Les variations (ou l'absence de variation) de la réponse doivent permettre de répondre à la question posée. La variable à expliquer est la note obtenue par un étudiant dans une discipline donnée. Elle peut varier en fonction d'un certain nombre de sources de variations qui nous servirons soit à répondre à la question posée, soit à la définition du plan d'étude. Dans un premier temps, il est donc nécessaire de faire la liste

Module S.I. - Projet de Statistiques 3 de toutes les sources de variations potentielles de la réponse. La liste suivante contient celles que nous avons identifiées : a) la valeur intrinsèque de l'étudiant b) le sexe de l'étudiant c) l'état physique et mental de l'étudiant au moment de l'examen d) la discipline e) le surveillant (le type de surveillance) a) La valeur intrinsèque de l'étudiant n'est pas l'objet de cette étude, il est cependant nécessaire de prendre en compte cette variabilité. Ceci peut être effectué en identifiant les étudiants par leur numéro d'anonymat par exemple. b) Il n'est pas du tout évident que le sexe de l'étudiant soit lié d'une quelconque façon à ses résultats. Cependant, il n'est pas difficile d'organiser l'étude de telle façon qu'il soit possible de conclure même dans le cas où ce facteur est lié à la note. c) L'état physique et mental de l'étudiant a vraisemblablement une grande importance sur le résultat d'une épreuve. Il paraît évident qu'un étudiant fatigué (qui aura fait la fête la veille) ne disposera pas de tous ses moyens pour travailler. La mise en place d'un moyen de mesurer cet état, nous paraît difficile aussi, nous éviterons que cette source de variation potentielle ne ruine l'étude en "randomisant" de façon adéquate. d) Il n'est pas déraisonnable de penser que les notes varient en fonction de la discipline. Une technique qui permettrait de s'affranchir de cette variation parasite, serait de n'organiser l'étude que sur une discipline. Cependant une telle pratique serait dangereuse compte tenu de l'espace d'inférence que nous avons choisi (tous les étudiants dans toutes les disciplines). Une méthode simple pour pouvoir conclure pour toutes les disciplines consisterait à organiser l'étude avec toutes les disciplines. Cette solution étant trop lourde à mettre en œuvre, une solution intermédiaire consiste à tirer un échantillon de discipline. Chaque discipline devra avoir la même probabilité de participer à l'étude. e) Le type de surveillance de l'épreuve est définie par le surveillant. Comme nous l'avons déjà laissé entendre, nous supposerons que chaque surveillant adopte une stratégie de surveillance qui lui est propre et qui est différente des autres : si tous les surveillants ont la même stratégie de surveillance, l'intérêt de l'étude devient alors limité (voire nul). Le plan d'étude proposé Le postulat décrit dans la partie consacrée à la définition de l'espace d'inférence, nous permet de choisir une promotion particulière. Compte-tenu de la taille des promotions, 3 amphis sont nécessaires à la bonne organisation d'un examen. Les étudiants doivent alors être répartis aléatoirement dans un amphi en stratifiant sur le sexe en d'autres termes, chaque amphi doit contenir a peu prés le même pourcentage de filles (donc aussi de garçons). Les étudiants sont repérés par leur numéro d'anonymat. Compte tenu des contraintes qu'imposent ce type d'étude, seules trois disciplines peuvent y participer Les étudiants doivent garder le même amphi pour chacune des disciplines. Les surveillants seront différents pour toutes les combinaisons amphi, discipline. Afin d'éviter tout biais, c'est à dire tout changement de comportement qui pourrait être induit par la participation à l'étude, l'étude sera réalisée en double aveugle : les étudiants et les surveillants ne sauront pas qu'ils participent à l'étude.

Module S.I. - Projet de Statistiques 4 Graphique 1 : Représentation du plan d'étude. Un étudiant de sexe M, passera ses examens des disciplines 1, 2, 3 dans l'amphi C. Ce plan est partiellement hiérarchique : il est hiérarchique dans le sens où un étudiant ne peut pas être des deux sexes à la fois passer ses examens dans plusieurs amphi, il est factoriel croisé car les facteurs amphi, sexe, discipline sont croisés.

Module S.I. - Projet de Statistiques 5 2 ) Le recueil des données Les données ont été recueillies conformément à ce qui avait été prévu. Ce paragraphe devrait contenir les explications relatives - aux données manquantes, - à l'exclusion de données, - à l'exclusion d'unités statistiques, - aux déviations à ce qui a été prévu. 3 ) L analyse des résultats Nous allons dans un premier temps effectuer une analyse descriptive afin de - vérifier si les conditions dans lesquelles l'étude a été planifiée ont été respectées, - vérifier qu'il n'existe pas de grossières erreurs (par exemple une note < 0 ou >20) - effectuer des représentations graphiques qui illustrent le phénomène étudié. a) Une analyse descriptive Vérification de l'homogénéité des distributions des sexes par amphi La table de contingence suivante permet de vérifier que le pourcentage de filles par amphi est à peu près constant. Frequencies AMPHI$ (rows) by SEXE$ (columns) F M Total +-------------+ A 51 36 87 B 45 24 69 C 84 57 141 +-------------+ Total 180 117 297 Row percents AMPHI$ (rows) by SEXE$ (columns) F M Total N +-----------------------+ A 58.620689 41.379311 100 87 B 65.217392 34.782608 100 69 C 59.574467 40.425533 100 141 +-----------------------+ Total 60.606061 39.393939 100 N 180 117 297 Test statistic Value DF Prob Pearson Chi-square 0.821030 2.000000 0.663308 Le tableau 2 (cf. annexe) donne les statistiques descriptives par amphi, sexe et discipline. Il semble que les notes moyennes varient en fonction : de l'amphi, c'est le phénomène que nous voulons étudier du sexe, cette variation si elle est suffisamment importante justifie la stratification effectuée de la discipline, cette variation était prévisible et ne présente pas un intérêt particulier dans le cadre de cette étude. Le graphique 2, représente les variation de la note moyenne en fonction des différentes sources de variations. Si les examens se déroulent dans des conditions équitables, toutes les courbes doivent être à peu près horizontales. Il semblent que certaines courbes ne sont pas horizontales. L'amplitude des écarts à l'horizontalité donne une information supplémentaire : s'ils sont "importants" alors l'examen ne s'est pas déroulé dans les conditions d'équité souhaitables, dans le cas contraire ils sont compatibles avec la variabilité intra et inter étudiants.

Module S.I. - Projet de Statistiques 6 L'objet de l'analyse inférentielle sera de vérifier si ces variations sont suffisamment importantes pour ne pas être confondues avec les variations induites par le "choix" particulier d'un échantillon d'étudiants. Les graphiques 3, 4 et 5 représentent respectivement les notes obtenues dans la discipline : 2 en fonction des notes obtenues dans la discipline 1, 3 en fonction des notes obtenues dans la discipline 1, 3 en fonction des notes obtenues dans la discipline 2 et ceci par amphi. Le nuage des points des notes des disciplines 1 et 2 obtenues dans l'amphi A (ronds noirs sur le graphique 1) est dans le cadrant Nord Ouest du graphique, ce qui accrédite l'hypothèse de différence des distributions des notes en fonction de l'amphi. b) Une analyse inférentielle. L'objet de cette partie est de confirmer ou d'infirmer les différences mises en évidence grâce à l'analyse descriptive. Dans la mesure où le cours concernant le modèle linéaire ne vous a pas encore été présenté, cette partie ne sera pas détaillée, seules les grandes étapes de l'analyse seront évoquées. Compte tenu de la structure partiellement hiérarchique du plan d'étude (cf. graphique 1), des analyses de variance par sexe et amphi ont été effectuées (cf. annexe). L'intérêt de ces analyses est d'évaluer (par sexe et par amphi) - la variabilité des notes imputable à la différence entre étudiants (variabilité inter- étudiant) - pour chaque étudiant, une variabilité (la variabilité intra-étudiant) non explicable à partir des seules informations dont nous disposons. De façon simplifiée, les notes de tous les étudiants du même sexe et se trouvant dans le même amphi ont été modélisées (décomposées) comme suit : Yi, j= µ + Ei+ Dj+ εi, j Y i, j est la note de l'étudiant i dans la discipline j, µ est l'effet moyen général qui dépend du sexe et de l'amphi. Il est estimé par la moyenne générale des étudiants du même sexe et dans le même amphi (nous en analyserons les variations plus tard). E i est l'effet différentiel du niveau i du facteur étudiant, il mesure "le niveau moyen" de l'étudiant i D j est l'effet différentiel du niveau j du facteur discipline, il mesure "le niveau moyen" des notes obtenues dans la discipline j ε i, j est le résidu de l'analyse, il mesure la différence entre la note obtenu par l'étudiant i dans la discipline j et celle qu'il aurait pu obtenir s'il était resté "homogène" pour toutes les disciplines. L'amplitude des E i (ou plus exactement leur variance) mesure la variabilité inter-individuelle. L'amplitude des ε i, j (leur variance) mesure la variabilité intra-individuelle. A partir de ces différentes analyses, il est possible (cf. cours sur l'analyse des plans à effets mixtes) d'évaluer des variances inter et intra individuelles globales. Le tableau suivant récapitule les résultats obtenus avec ces différentes analyses :

Module S.I. - Projet de Statistiques 7 Amphi Sexe Sources de variations Somme des Carrés des Ecarts Degrés de Liberté Variance ETUDIANT 218.306 11 M DISCIPLINE 70.722 2 A Error 173.944 22 ETUDIANT 182.588 16 F DISCIPLINE 75.451 2 Error 421.882 32 ETUDIANT 241.833 7 M DISCIPLINE 94.333 2 B Error 195.667 14 ETUDIANT 232.533 14 F DISCIPLINE 435.6 2 Error 239.067 28 ETUDIANT 256.982 18 M DISCIPLINE 308.211 2 C Error 365.123 36 ETUDIANT 391.81 27 F DISCIPLINE 618.5 2 Error 454.833 54 Total ETUDIANT 1524.052 93 16.38765591 DISCIPLINE 1602.817 12 133.5680833 Error 1850.516 186 9.949010753 Afin d'analyser les variations des notes en fonction de l'amphi, du sexe et de la discipline, une analyse de variance a été effectuée. De façon simplifiée, les notes moyennes des étudiants ont été modélisées comme suit : Y = µ + S + D + A + S* D + S* A + D* A + S* D* A + ε ( ) ( ) ( ) ( ) i, j, k i j k i, j ik, jk, i, jk, i, j, k Y i, j, k est la note moyenne des étudiants de sexe i pour la discipline j qui se déroule dans l'amphi k, µ est l'effet moyen général dont nous espérons (cf. hypothèse réalisée dans la définition de l'espace d'inférence) qu'il ne dépend ni du lieu ni du moment dans lequel les examens se déroulent. Il est estimé par la moyenne générale des notes. S i mesure "le niveau moyen" des notes des étudiant de sexe i D j mesure "le niveau moyen" des notes obtenues dans la discipline j A k mesure "le niveau moyen" des notes obtenues dans l'amphi k. La variance de ce terme nous renseigne sur la différence entre les notes moyennes obtenues dans chaque amphi. Dans la mesure où les étudiants ont été répartis aléatoirement dans les amphi, si cette variance est importante, il est légitime de penser que certains examens ne se sont pas déroulés dans des conditions équitables. Un examen des termes d'interactions permet de préciser les écarts à l'équité. Dans le cas où cette variance est faible, il n'est pas possible de conclure directement, il devient alors nécessaire d'examiner les termes d'interactions. ( S ) *, est un terme d'interaction qui mesure le fait que la différence entre les notes moyennes des étudiants D i j des deux sexes varie avec la discipline. Ce terme n'est pas intéressant dans notre étude. S* est un terme d'interaction qui mesure le fait que la différence entre les notes moyennes des étudiants, ( ) A ik des deux sexes varie avec l'amphi. La variance de ce terme nous renseigne sur la différence d'attitude entre les garçons et les filles relativement à la pompe.

Module S.I. - Projet de Statistiques 8 ( D ) *, est un terme d'interaction qui mesure le fait que la différence entre les notes moyennes des étudiants A jk dans des disciplines différentes varie avec l'amphi. ( S* D* A) i, j, k est un terme d'interaction qui mesure le fait que la différence entre les notes moyennes des étudiants dans des disciplines différentes varie avec l'amphi et le sexe. ε i, j, k la variance de ce terme contient la variabilité intra et inter individuelle. Le tableau suivant contient les résultats de l'analyse fournie par un logiciel de statistique Effects coding used for categorical variables in model. Categorical values encountered during processing are: SEXE$ (2 levels) F, M AMPHI$ (3 levels) A, B, C DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 297 Multiple R: 0.579 Squared multiple R: 0.335 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P SEXE$ 94.858 1 94.858 7.843 0.005 AMPHI$ 2.678 2 1.339 0.111 0.895 DISCIPLINE 1041.636 2 520.818 43.060 0.000 SEXE$*DISCIPLINE 89.136 2 44.568 3.685 0.026 AMPHI$*DISCIPLINE 123.655 4 30.914 2.556 0.039 AMPHI$*SEXE$ 2.680 2 1.340 0.111 0.895 AMPHI$*SEXE$ *DISCIPLINE 18.021 4 4.505 0.372 0.828 Error 3374.569 279 12.095 Les tests effectués par cette analyse de variance ne sont pas directement utilisables, en effet (cf. cours) tous ces tests sont réalisés sans faire la distinction entre variance intra et inter individuelle. En reprenant les estimations des variances intra et inter obtenues grâce aux analyses par sexe et amphi, les tests appropriés peuvent être effectués (cf. annexe). Une nouvelle table d'analyse peut ainsi être construite : Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P SEXE$ 94.858 1 94.858 5.789 0.018 AMPHI$ 2.678 2 1.339 0.082 0.922 DISCIPLINE 1041.636 2 520.818 52.349 0.000 SEXE$*DISCIPLINE 89.136 2 44.568 4.480 0.013 AMPHI$*DISCIPLINE 123.655 4 30.914 3.107 0.017 AMPHI$*SEXE$ 2.680 2 1.340 0.082 0.922 AMPHI$*SEXE$ *DISCIPLINE 18.021 4 4.505 0.453 0.770 Error 3374.569 279 12.095 inter-étudiant 1524.052 93 16.387 intra-étudiant 1850.516 186 9.949

Module S.I. - Projet de Statistiques 9 Il apparaît que les variations expliquées par les facteurs sexe, discipline, sexe*discipline, amphi*discipline sont significatives c'est à dire non assimilables à la variabilité de référence qui doit être choisie de façon adéquate (inter ou intra individuelle). Remarque : Afin de s'assurer que les résultats des analyses de variances que nous venons d'effectuer sont interprétables, il est nécessaire de vérifier la cohérence des trois postulats fondamentaux du modèle linéaire : l'homoscédasticité, l'indépendance, la normalité. Dans la mesure où cette vérification nécessite l'utilisation de techniques qui seront abordées plus tard, nous ne les présenterons pas dans cet exemple de rapport. 4 ) Discussion, conclusion Les variations des notes moyennes en fonction du sexe sont significatives. Il semble donc que les précautions prises au moment de la planification de l'étude (c'est à dire la stratification sur le facteur sexe) ont été judicieuses. Les variations des notes par disciplines sont significatives. Il est facile d'expliquer ce phénomène par la différence du système de notation choisi par chaque enseignant ou (et) par la différence de difficulté de chacun des examens. Les différences entre les moyennes des notes (globales) par amphi n'est pas significative. Cependant, l'interaction entre les facteurs amphi et discipline est significative ce qui peut géométriquement être interprété de la façon suivante : la différence entre les moyennes par discipline varie en fonction de l'amphi. Il est donc probable que - soit le pourcentage d'étudiants qui ont pompés dans une discipline varie en fonction de l'amphi, - soit le gain de point apporté par la pompe est plus important (pour une discipline) dans un amphi que dans les autres - soit les deux. La présence de cette interaction peut s'expliquer par le fait que le type d'épreuve retenue par les enseignants des disciplines de l'étude n'est pas le même : les enseignants de la discipline 2 ont choisi le QCM alors que les enseignant des disciplines 1 et 3 ont choisis des épreuves écrites. Le graphique suivant "montre" (il est nécessaire de faire un test supplémentaire pour en avoir le cœur net) que l'interaction est expliquée par le fait que pour la discipline 2, la note moyenne des étudiants de l'amphi A est supérieure (significativement) aux notes moyennes des étudiants des autres amphi.

Module S.I. - Projet de Statistiques 10 16 15 14 13 Note moyenne 12 11 Discip. 1 Discip. 2 Discip. 3 10 9 8 A B C Amphi Si c'est effectivement le type d'épreuve qui explique cette différence, cela signifie que nous avons oublié une source de variation majeure et l'espace d'inférence tel que nous l'avons défini plus haut n'a plus de sens. En effet, dans la mesure où ce facteur de variation n'a pas été identifié a priori, les discipline incluses dans l'étude ne représentent pas forcément (au moins sur le choix du type d'épreuve) toutes les disciplines. Afin de contrôler les effets de ce facteur, il aurait été nécessaire de stratifier sur ce facteur, c'est à dire d'imposer un pourcentage fixé, et connu a priori, de disciplines qui utilisent les QCM (resp. les épreuves où il est nécessaire de rédiger). Il n'était pas possible dans cette étude de différencier les formes de surveillances aussi, ne pas avoir observé de différences entre les notes moyennes des amphi A, B, C pour les disciplines 1 et 3 ne garantie pas qu'il n'y a pas eu de pompe. La seule affirmation raisonnable qui peut être formulée est la suivante : s'il pompe il y a eu, elle a été homogène sur tous les amphi. Une façon de répondre clairement à la question posée serait d'avoir un amphi témoin dans lequel il serait possible d'affirmer qu'il n'y a pas de pompe.

Module S.I. - Projet de Statistiques 11 ANNEXES Amphi Sexe Discipline1 Discipline2 Discipline3 N of cases 12 12 12 Minimum 5 6 10 Maximum 20 16 18 Median 10 11.5 14 Mean A M 11.33 10.67 13.92 95% CI Upper 14.26 12.51 15.48 95% CI Lower 8.41 8.82 12.35 Std. Error 1.33 0.84 0.71 Standard Dev 4.60 2.90 2.47 N of cases 17 17 17 Minimum 8 0 10 Maximum 19 17 20 Median 15 13 13 Mean A F 14.71 11.76 13.65 95% CI Upper 16.24 14.06 15.19 95% CI Lower 13.18 9.47 12.11 Std. Error 0.72 1.08 0.73 Standard Dev 2.97 4.47 3.00 N of cases 8 8 8 Minimum 2 1 10 Maximum 17 16 16 Median 13.5 12 14.5 Mean B M 12.5 9.25 14 95% CI Upper 16.72 14.00 15.84 95% CI Lower 8.28 4.50 12.16 Std. Error 1.78 2.01 0.78 Standard Dev 5.04 5.68 2.20 N of cases 15 15 15 Minimum 9 1 11 Maximum 19 15 20 Median 16 10 16 Mean B F 15.4 8.8 15.4 95% CI Upper 17.15 11.24 16.54 95% CI Lower 13.65 6.36 14.26 Std. Error 0.82 1.14 0.53 Standard Dev 3.16 4.41 2.06 N of cases 19 19 19 Minimum 4 2 10 Maximum 18 16 19 Median 13 10 16 Mean C M 12.53 9.37 15.05 95% CI Upper 13.94 11.48 16.31 95% CI Lower 11.11 7.26 13.79 Std. Error 0.67 1.00 0.60 Standard Dev 2.93 4.37 2.61 N of cases 28 28 28 Minimum 7 2 10 Maximum 20 13 20 Median 15.5 11 16 Mean C F 14.89 9.46 15.5 95% CI Upper 16.22 10.85 16.51 95% CI Lower 13.56 8.07 14.49 Std. Error 0.65 0.68 0.49 Standard Dev 3.42 3.58 2.60 Tableau 2 : Statistiques descriptives des notes en fonction de l'amphi, du sexe et de la discipline.

Module S.I. - Projet de Statistiques 12 Graphique 2 : Variations des notes moyennes en fonction de l'amphi, du sexe, de la discipline. 16 15 14 13 Note moyenne 12 11 10 Disc.1 F Disc.2 F Disc.3 F Disc.1 M Disc.2 M Disc.3 M 9 8 A B C Amphi

Module S.I. - Projet de Statistiques 13 graphique 3 : notes obtenues dans la discipline 2 en fonction des notes obtenues dans la discipline 1 par amphi. 18 16 14 12 Disc. 2 10 8 6 4 2 0 Amphi1 Amphi2 Amphi3 0 5 10 15 20 25 Disc. 1 graphique 4 : notes obtenues dans la discipline 3 en fonction des notes obtenues dans la discipline 1 par amphi. 20 18 16 14 Disc. 12 10 8 6 4 2 0 Amphi1 Amphi2 Amphi3 0 5 10 15 20 Disc.1

Module S.I. - Projet de Statistiques 14 graphique 5 : notes obtenues dans la discipline 3 en fonction des notes obtenues dans la discipline 2 par amphi. 20 18 16 14 Disc. 12 10 8 6 4 2 0 Amphi1 Amphi2 Amphi3 0 5 10 15 20 Disc.2 ANALYSES DE VARIANCE PAR SEXE ET PAR AMPHI The following results are for: SEXE$ = M AMPHI$ = C Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (19 levels) 1, 2, 5, 8, 9, 18, 25, 26, 30, 35, 38, 42, 43, 53, 65, 69, 70, 71, 95 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 57 Multiple R: 0.779 Squared multiple R: 0.608 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 256.982 18 14.277 1.408 0.187 DISCIPLINE 308.211 2 154.105 15.194 0.000 Error 365.123 36 10.142

Module S.I. - Projet de Statistiques 15 The following results are for: SEXE$ = F AMPHI$ = C Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (28 levels) 3, 4, 6, 11, 12, 19, 24, 34, 36, 37, 39, 44, 50, 51, 52, 54, 55, 56, 61, 73, 78, 83, 84, 85, 87, 90, 91, 97 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 84 Multiple R: 0.830 Squared multiple R: 0.690 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 391.810 27 14.511 1.723 0.045 DISCIPLINE 618.500 2 309.250 36.716 0.000 Error 454.833 54 8.423 The following results are for: SEXE$ = M AMPHI$ = A Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (12 levels) 7, 14, 15, 22, 27, 28, 32, 46, 49, 59, 68, 77 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 36 Multiple R: 0.790 Squared multiple R: 0.624 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 218.306 11 19.846 2.510 0.032 DISCIPLINE 70.722 2 35.361 4.472 0.023 Error 173.944 22 7.907 The following results are for: SEXE$ = F AMPHI$ = A Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (17 levels) 10, 13, 16, 17, 31, 33, 40, 57, 58, 62, 67, 76, 86, 89, 92, 93, 99 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 51 Multiple R: 0.616 Squared multiple R: 0.380

Module S.I. - Projet de Statistiques 16 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 182.588 16 11.412 0.866 0.610 DISCIPLINE 75.451 2 37.725 2.861 0.072 Error 421.882 32 13.184 The following results are for: SEXE$ = M AMPHI$ = B Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (8 levels) 20, 48, 60, 72, 79, 81, 82, 96 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 24 Multiple R: 0.795 Squared multiple R: 0.632 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 241.833 7 34.548 2.472 0.071 DISCIPLINE 94.333 2 47.167 3.375 0.064 Error 195.667 14 13.976 The following results are for: SEXE$ = F AMPHI$ = B Effects coding used for categorical variables in model. Categorical values encountered during processing are: ETUDIANT (15 levels) 21, 23, 29, 41, 45, 47, 63, 64, 66, 74, 75, 80, 88, 94, 98 DISCIPLINE (3 levels) 1, 2, 3 Dep Var: NOTE N: 45 Multiple R: 0.858 Squared multiple R: 0.736 Analysis of Variance Source Sum-of-Squares DF Mean-Square F-Ratio P ETUDIANT 232.533 14 16.610 1.945 0.065 DISCIPLINE 435.600 2 217.800 25.509 0.000 Error 239.067 28 8.538

Module S.I. - Projet de Statistiques 17 TESTS "CORRIGES" DE L'ANALYSE DE VARIANCE GLOBALE Test for effect called: SEXE$ Test of Hypothesis Source SS DF MS F P Hypothesis 94.858 1 94.858 5.789 0.018 Error 1523.991 93 16.387 Test for effect called: Test of Hypothesis AMPHI$ Source SS DF MS F P Hypothesis 2.678 2 1.339 0.082 0.922 Error 1523.991 93 16.387 Test for effect called: AMPHI$*SEXE$ Test of Hypothesis Source SS DF MS F P Hypothesis 2.680 2 1.340 0.082 0.922 Error 1523.991 93 16.387 Test for effect called: DISCIPLINE Test of Hypothesis Source SS DF MS F P Hypothesis 1041.636 2 520.818 52.349 0.000 Error 1850.514 186 9.949 Test for effect called: SEXE$*DISCIPLINE Test of Hypothesis Source SS DF MS F P Hypothesis 89.136 2 44.568 4.480 0.013 Error 1850.514 186 9.949 Test for effect called: AMPHI$*DISCIPLINE Test of Hypothesis Source SS DF MS F P Hypothesis 123.655 4 30.914 3.107 0.017 Error 1850.514 186 9.949 Test for effect called: AMPHI$*SEXE$*DISCIPLINE Test of Hypothesis Source SS DF MS F P Hypothesis 18.021 4 4.505 0.453 0.770 Error 1850.514 186 9.949