Michel Rioux, ing., M.Ing. Directeur Génie des opérations et de la logistique (514) GOL675 Planification et

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TRANSPORT ET LOGISTIQUE :

STATISTIQUES. UE Modélisation pour la biologie

L exclusion mutuelle distribuée

VI. Tests non paramétriques sur un échantillon

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

LES GENERATEURS DE NOMBRES ALEATOIRES

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités III Introduction à l évaluation d options

données en connaissance et en actions?

Calcul élémentaire des probabilités

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

FONCTION DE DEMANDE : REVENU ET PRIX

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exemples d application

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Introduction à la statistique non paramétrique

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

FORMULAIRE DE STATISTIQUES

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Arbres binaires de décision

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Logiciel XLSTAT version rue Damrémont PARIS

1 Définition de la non stationnarité

Application sur le Dispositif en Blocs Complètement Randomisés

Pourquoi l apprentissage?

[BASE DE DONNEES BSPACE]

Principe d un test statistique

Cours de méthodes de scoring

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Estimation et tests statistiques, TD 5. Solutions

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Cours 9 : Plans à plusieurs facteurs

Régression linéaire. Nicolas Turenne INRA

Introduction aux Statistiques et à l utilisation du logiciel R

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Examen de Logiciels Statistiques

Équations non linéaires

Microsoft Excel : tables de données

Estimation du coût de l incessibilité des BSA

Sujet 4: Programmation stochastique propriétés de fonction de recours

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Formation continue et bons de formation

CHAPITRE 2 : Structure électronique des molécules

Le risque Idiosyncrasique

Base de Données Economiques & Sociales (dite Unique) des entreprises

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Limitations of the Playstation 3 for High Performance Cluster Computing

IBM SPSS Regression 21

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Modèles pour données répétées

Analyse en Composantes Principales

Statistique inférentielle TD 1 : Estimation

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Chapitre 3 : INFERENCE

Jeux sous forme extensive (Jeux dynamiques)

Biostatistiques : Petits effectifs

Le Modèle Linéaire par l exemple :

1 Complément sur la projection du nuage des individus

La solution à vos mesures de pression

Chapitre 3. Les distributions à deux variables

Item 169 : Évaluation thérapeutique et niveau de preuve

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Processus de validation des coûts à l appui de l attestation par l DPF

I. Cas de l équiprobabilité

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Note:... Q1 :... Q2 :... Q3 :... Q4 :... Bonus :... Total :...

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 5 : Flot maximal dans un graphe

Formation projet informatique. Expression de besoins, définir un besoin informatique

L Econométrie des Données de Panel

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Econométrie et applications

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

8. Gestionnaire de budgets

LES DECIMALES DE π BERNARD EGGER

Quelques algorithmes simples dont l analyse n est pas si simple

Transcription:

Michel Rioux, ing., M.Ing. Directeur Génie des opérations et de la logistique (514) 396-8617 michel.rioux @etsmtl.ca Planification et optimisation d expériences Chapitre 3 - ANALYSE DE LA VARIANCE À UN FACTEUR -

Plan de la présentation Justification de l ANAVAR Exemple d introduction Calcul des sommes de carrés Tableau d ANAVAR Adéquation du modèle Interprétation des résultats Comparaisons multiples 2

Plus de deux facteurs! Que faire? Le test t ne s applique plus directement Pourtant, plusieurs situations pratiques comprennent plus de deux facteurs ou plus de deux modalités L analyse de la variance (ANAVAR ) devient l outil privilégié ilé ié pour de telles situations ti L «ANOVA» a été développée par Fisher au début des années 1920 et a été initialement appliquée dans des expériences d agriculture L ANAVAR est maintenant très utilisée dans une multitude de spécialités 3

Un exemple : abrasion physico-chimiquechimique On désire étudier le relation entre la puissance RF d un outil au plasma et son taux d abrasion physico-chimique hi i (taux de décapage) afin de pouvoir régler la puissance RF pour obtenir le taux voulu Modalités du facteur : 160W, 180W, 200W et 220W Réponse : taux d abrasion Facteurs constants : Gaz (C2F6) Ouverture entre les électrodes (0.80 cm) Répétitions : cinq échantillons par réglages (randomisés) (Voir le fichier Excel pour randomiser) 4

Un exemple : abrasion physico-chimiquechimique 5

Un exemple : abrasion physico-chimiquechimique 6

Un exemple : abrasion physico-chimiquechimique En se basant seulement sur la représentation graphique des données, on remarque certain faits saillants : Il semble y avoir un effet entre la puissance RF et le taux d abrasion Il semble y avoir corrélation positive Cet effet pourrait être légèrement non linéaire La variance semble assez stable à chaque modalité 7

Un exemple : abrasion physico-chimiquechimique Est-ce que le changement de puissance modifie le taux d abrasion moyen? Y a-t-il un niveau optimal pour la puissance? Un moyen objectif pour répondre à ces questions serait nécessaire Le test t ne s applique pas dans ce cas, car il y a quatre niveaux Attention : 6 tests t consécutifs à 95% génèrent un niveau de confiance global << 95%! 8

L analyse de la variance à 1 facteur En général, il y a «a» niveaux du facteur (traitements) et «n» répétitions, complètement randomisées Le nombre total d essais est donc N = an Nous traitons le cas des effets fixes alors que les effets aléatoires seront traités plus tard durant la session L ANAVAR a comme objectif de tester l hypothèse de l ÉGALITÉ DES MOYENNES 9

L analyse de la variance à 1 facteur L ANAVAR s appuie sur un partitionnement de la variabilité des données de la réponse en fonction d un modèle explicatif Le modèle de base est le suivant : i = 12 1,2,..., a yij = μ+ τi + εij, j = 1,2,..., n μ = moyenne générale, τi = effet du i èmetraitement, ε = ij 2 erreure experimentale, NID(0, σ ) 10

L analyse de la variance à 1 facteur Autres façons pour décrire le modèle de base : y = μ + τ + ε est appelé le modèle des effets ij i ij Avec μ = μ+ τ, nous obtenons i y ij i ij i = μ + ε qui est appelé le modèle des moyennes Un modèle de régression serait une autre option 11

ANAVAR à 1 facteur Notation : Total des observations du traitement i : y i. n = i. Moyenne des observations du traitement i : y. =, = 1,2,..., Total de toutes les observations : y.. a n = i= 1 j= 1 y.. Moyenne générale de toutes les o bservations : y.. = N Où N = an j= 1 y ij y i i a n y ij 12

ANAVAR à 1 facteur La variabilité totale est mesurée par la somme totale des carrés : a n SS = ( y y ) T i= 1 j= 1 Le partitionnement de base des carrés est : ij.. 2 a n a n 2 2 ( y ij y.. ) = [( yi. y.. ) + ( yij yi. )] i= 1 j= 1 i= 1 j= 1 a a n 2 2 (...) i ( ij i. ) i= 1 i= 1 j= 1 = n y y + y y SS = SS + SS T Traitements E 13

ANAVAR à 1 facteur Éléments de la démonstration a n a n 2 2 ( yij y.. ) = [( yi. y.. ) + ( yij yi. )] i= 1 j= 1 i= 1 j= 1 a n 2 2 2 = [( yi. y.. ) + 2( yi. y.. )( yij yi. ) + ( yij yi. ) ] i= 1 j= 1 a n a n a n 2 2 = [( y i. y.. ) ] + 2 [( y i. y.. )( y ij y i. )] + [( y ij y i. ) ] i= 1 j= 1 i= 1 j= 1 i= 1 j= 1 a n a n 2 2 = [( yi. y.. ) ] + 0 + [( yij yi. ) ] i= 1 j= 1 i= 1 j= 1 a a n 2 2 = n ( yi. y.. ) + ( yij yi. ) i = 1 i = 1 j = 1 n SS = SS + SS T Traitements E. n i ( yij yi. ) = yi. nyi. = yi. n = 0 j= 1 n y 14

ANAVAR à 1 facteur Une grande valeur de SS Traitements indique une différence importante entre les moyennes des traitements Une faible valeur de SS Traitements suggère une absence d effet entre les traitements SS = SS + SS T Traitements E SS = SS + SS Totale Entre les traitements À l'intérieur des traitements L hypothèse formelle est la suivante : H H 0 1 2 1 : μ = μ = = μ a : μ μ,pour au moins une paire de (i, j) 1 i j ( H : Au moins une moyenne se distingue) 15

ANAVAR à 1 facteur Alors que les sommes de carrés ne peuvent être comparées directement pour tester l égalité des moyennes, les carrés moyens eux peuvent l être Un carré moyen est une somme de carrés divisée par ses degrés de liberté : dftotal = dftraitements + df Erreur an 1= a 1 + a( n 1) SSTraitements SSE MSTraitements =, MSE = a 1 a( n 1) Si les moyennes des traitements sont égales, le carré moyen des traitements et celui de l erreur seront égaux (théoriquement deux estimations de la même variance) Si les moyennes des traitements diffèrent, le carré moyen des traitements sera supérieur à celui de l erreur 16

Tableau d ANAVAR La distribution de référence pour F 0 est celle de Fisher F a-1, 1 a(n-1) ( On rejette l hypothèse nulle si F > F α a a n 0, 1, ( 1) 17

Tableau d ANAVAR Pour les (laborieux) calculs manuels : 18

Tableau d ANAVAR : Exemple 3-1 19

Tableau d ANAVAR : Exemple 3-1 P-value = 2.88x10-9 20

Estimation des paramètres Modèle: y ij = μ+ τ i + ε ij Estimations : ˆ μ = y.. ˆ τ i = yi. y.. i = 1,2,..., a Intervalles deconfiance (une comparaison à la fois) : Moyenne d'un traitement μ = μ + τ i i MS y t μ y + t E i. α i i. α, N a, N a 2 n 2 Différence entre traitements MS n E Niveau de confiance! = 1 r*α Pour r comparaisons simultanées Bonferroni : Prendre α/r plutôt que α 2MSE 2MSE y i. y j. t α μ i μ j y i. y j. + t α, N a n, N a n 1- r*α/r = 2 2 1-α globalement 21

Vérification de l adéquation du modèle d ANAVAR La vérification des hypothèses théoriques est importante Normalité Homogénéité des variances Indépendance Le modèle s ajuste-t-il bien aux données? Plus tard, nous discuterons des options disponibles quand les hypothèses théoriques ne sont pas respectées 22

Vérification de l adéquation C est par les résidus du modèle qu on vérifie les hypothèses Modèle: yij = μ + τi + εij Résidus : = ˆ e ˆ ij = y ij y ij Où yˆ est une estimation de la donnée : ij ( ) yˆ = ˆ μ+ ˆ τ = y.. + y y y ij i i... ˆij = y i. e y y ij ij ij Les résidus ne doivent pas avoir de structure particulière NID(0, σ 2 ) = y y ij i. 23

Vérification de l adéquation Peut-on distinguer une structure dans les résidus? Ils sont dans les coins supérieurs à droite 24

Vérification de l adéquation Normalité des résidus 25

Vérification de l adéquation Indépendance des résidus L indépendance est difficile à corriger, d où l intérêt de toujours randomiser. 26

Vérification de l adéquation Résidus versus valeurs prédites 27

Vérification de l adéquation Transformations les plus communes 28

Interprétation - Régression Etch_Rate RF_Power 575 160 542 160 530 160 539 160 570 160 565 180 593 180 590 180 579 180 610 180 600 200 651 200 610 200 637 200 629 200 725 220 700 220 715 220 685 220 710 220 29

Interprétation - Régression 30

Interprétation - Régression Etch_Rate = 1147.77-8.2555*RF_Power 77 + 0.028375*RF_Power^2 028375*RF 31

Interprétation - Régression 32

Comparaisons multiples (Tests Post-ANOVAR ) L ANAVAR teste l hypothèse des moyennes égales En s assurant que les résidus soient corrects Si l hypothèse nulle est rejetée, on ne sait pas quelle(s) moyenne(s) se distingue(nt) Déterminer les moyennes spécifiques qui se démarquent est appelé le problème de comparaisons multiples après ANAVAR Il existe plusieurs méthodes différentes Nous focaliserons sur celle des tests t appariés de Fisher Fisher s Least Significant Difference (ou Fisher s LSD) Method 33

Comparaisons multiples Analyse graphique 34

Exemple dans les services 35

Exemple dans les services 36

37

Exemple dans les services 38

39