Michel Rioux, ing., M.Ing. Directeur Génie des opérations et de la logistique (514) GOL675 Planification et

Michel Rioux, ing., M.Ing. Directeur Génie des opérations et de la logistique (514) 396-8617 michel.rioux @etsmtl.ca Planification et optimisation d expériences Chapitre 3 - ANALYSE DE LA VARIANCE À UN FACTEUR -

Plan de la présentation Justification de l ANAVAR Exemple d introduction Calcul des sommes de carrés Tableau d ANAVAR Adéquation du modèle Interprétation des résultats Comparaisons multiples 2

Plus de deux facteurs! Que faire? Le test t ne s applique plus directement Pourtant, plusieurs situations pratiques comprennent plus de deux facteurs ou plus de deux modalités L analyse de la variance (ANAVAR ) devient l outil privilégié ilé ié pour de telles situations ti L «ANOVA» a été développée par Fisher au début des années 1920 et a été initialement appliquée dans des expériences d agriculture L ANAVAR est maintenant très utilisée dans une multitude de spécialités 3

Un exemple : abrasion physico-chimiquechimique On désire étudier le relation entre la puissance RF d un outil au plasma et son taux d abrasion physico-chimique hi i (taux de décapage) afin de pouvoir régler la puissance RF pour obtenir le taux voulu Modalités du facteur : 160W, 180W, 200W et 220W Réponse : taux d abrasion Facteurs constants : Gaz (C2F6) Ouverture entre les électrodes (0.80 cm) Répétitions : cinq échantillons par réglages (randomisés) (Voir le fichier Excel pour randomiser) 4

Un exemple : abrasion physico-chimiquechimique 5

Un exemple : abrasion physico-chimiquechimique 6

Un exemple : abrasion physico-chimiquechimique En se basant seulement sur la représentation graphique des données, on remarque certain faits saillants : Il semble y avoir un effet entre la puissance RF et le taux d abrasion Il semble y avoir corrélation positive Cet effet pourrait être légèrement non linéaire La variance semble assez stable à chaque modalité 7

Un exemple : abrasion physico-chimiquechimique Est-ce que le changement de puissance modifie le taux d abrasion moyen? Y a-t-il un niveau optimal pour la puissance? Un moyen objectif pour répondre à ces questions serait nécessaire Le test t ne s applique pas dans ce cas, car il y a quatre niveaux Attention : 6 tests t consécutifs à 95% génèrent un niveau de confiance global << 95%! 8

L analyse de la variance à 1 facteur En général, il y a «a» niveaux du facteur (traitements) et «n» répétitions, complètement randomisées Le nombre total d essais est donc N = an Nous traitons le cas des effets fixes alors que les effets aléatoires seront traités plus tard durant la session L ANAVAR a comme objectif de tester l hypothèse de l ÉGALITÉ DES MOYENNES 9

L analyse de la variance à 1 facteur L ANAVAR s appuie sur un partitionnement de la variabilité des données de la réponse en fonction d un modèle explicatif Le modèle de base est le suivant : i = 12 1,2,..., a yij = μ+ τi + εij, j = 1,2,..., n μ = moyenne générale, τi = effet du i èmetraitement, ε = ij 2 erreure experimentale, NID(0, σ ) 10

L analyse de la variance à 1 facteur Autres façons pour décrire le modèle de base : y = μ + τ + ε est appelé le modèle des effets ij i ij Avec μ = μ+ τ, nous obtenons i y ij i ij i = μ + ε qui est appelé le modèle des moyennes Un modèle de régression serait une autre option 11

ANAVAR à 1 facteur Notation : Total des observations du traitement i : y i. n = i. Moyenne des observations du traitement i : y. =, = 1,2,..., Total de toutes les observations : y.. a n = i= 1 j= 1 y.. Moyenne générale de toutes les o bservations : y.. = N Où N = an j= 1 y ij y i i a n y ij 12

ANAVAR à 1 facteur La variabilité totale est mesurée par la somme totale des carrés : a n SS = ( y y ) T i= 1 j= 1 Le partitionnement de base des carrés est : ij.. 2 a n a n 2 2 ( y ij y.. ) = [( yi. y.. ) + ( yij yi. )] i= 1 j= 1 i= 1 j= 1 a a n 2 2 (...) i ( ij i. ) i= 1 i= 1 j= 1 = n y y + y y SS = SS + SS T Traitements E 13

ANAVAR à 1 facteur Éléments de la démonstration a n a n 2 2 ( yij y.. ) = [( yi. y.. ) + ( yij yi. )] i= 1 j= 1 i= 1 j= 1 a n 2 2 2 = [( yi. y.. ) + 2( yi. y.. )( yij yi. ) + ( yij yi. ) ] i= 1 j= 1 a n a n a n 2 2 = [( y i. y.. ) ] + 2 [( y i. y.. )( y ij y i. )] + [( y ij y i. ) ] i= 1 j= 1 i= 1 j= 1 i= 1 j= 1 a n a n 2 2 = [( yi. y.. ) ] + 0 + [( yij yi. ) ] i= 1 j= 1 i= 1 j= 1 a a n 2 2 = n ( yi. y.. ) + ( yij yi. ) i = 1 i = 1 j = 1 n SS = SS + SS T Traitements E. n i ( yij yi. ) = yi. nyi. = yi. n = 0 j= 1 n y 14

ANAVAR à 1 facteur Une grande valeur de SS Traitements indique une différence importante entre les moyennes des traitements Une faible valeur de SS Traitements suggère une absence d effet entre les traitements SS = SS + SS T Traitements E SS = SS + SS Totale Entre les traitements À l'intérieur des traitements L hypothèse formelle est la suivante : H H 0 1 2 1 : μ = μ = = μ a : μ μ,pour au moins une paire de (i, j) 1 i j ( H : Au moins une moyenne se distingue) 15

ANAVAR à 1 facteur Alors que les sommes de carrés ne peuvent être comparées directement pour tester l égalité des moyennes, les carrés moyens eux peuvent l être Un carré moyen est une somme de carrés divisée par ses degrés de liberté : dftotal = dftraitements + df Erreur an 1= a 1 + a( n 1) SSTraitements SSE MSTraitements =, MSE = a 1 a( n 1) Si les moyennes des traitements sont égales, le carré moyen des traitements et celui de l erreur seront égaux (théoriquement deux estimations de la même variance) Si les moyennes des traitements diffèrent, le carré moyen des traitements sera supérieur à celui de l erreur 16

Tableau d ANAVAR La distribution de référence pour F 0 est celle de Fisher F a-1, 1 a(n-1) ( On rejette l hypothèse nulle si F > F α a a n 0, 1, ( 1) 17

Tableau d ANAVAR Pour les (laborieux) calculs manuels : 18

Tableau d ANAVAR : Exemple 3-1 19

Tableau d ANAVAR : Exemple 3-1 P-value = 2.88x10-9 20

Estimation des paramètres Modèle: y ij = μ+ τ i + ε ij Estimations : ˆ μ = y.. ˆ τ i = yi. y.. i = 1,2,..., a Intervalles deconfiance (une comparaison à la fois) : Moyenne d'un traitement μ = μ + τ i i MS y t μ y + t E i. α i i. α, N a, N a 2 n 2 Différence entre traitements MS n E Niveau de confiance! = 1 r*α Pour r comparaisons simultanées Bonferroni : Prendre α/r plutôt que α 2MSE 2MSE y i. y j. t α μ i μ j y i. y j. + t α, N a n, N a n 1- r*α/r = 2 2 1-α globalement 21

Vérification de l adéquation du modèle d ANAVAR La vérification des hypothèses théoriques est importante Normalité Homogénéité des variances Indépendance Le modèle s ajuste-t-il bien aux données? Plus tard, nous discuterons des options disponibles quand les hypothèses théoriques ne sont pas respectées 22

Vérification de l adéquation C est par les résidus du modèle qu on vérifie les hypothèses Modèle: yij = μ + τi + εij Résidus : = ˆ e ˆ ij = y ij y ij Où yˆ est une estimation de la donnée : ij ( ) yˆ = ˆ μ+ ˆ τ = y.. + y y y ij i i... ˆij = y i. e y y ij ij ij Les résidus ne doivent pas avoir de structure particulière NID(0, σ 2 ) = y y ij i. 23

Vérification de l adéquation Peut-on distinguer une structure dans les résidus? Ils sont dans les coins supérieurs à droite 24

Vérification de l adéquation Normalité des résidus 25

Vérification de l adéquation Indépendance des résidus L indépendance est difficile à corriger, d où l intérêt de toujours randomiser. 26

Vérification de l adéquation Résidus versus valeurs prédites 27

Vérification de l adéquation Transformations les plus communes 28

Interprétation - Régression Etch_Rate RF_Power 575 160 542 160 530 160 539 160 570 160 565 180 593 180 590 180 579 180 610 180 600 200 651 200 610 200 637 200 629 200 725 220 700 220 715 220 685 220 710 220 29

Interprétation - Régression 30

Interprétation - Régression Etch_Rate = 1147.77-8.2555*RF_Power 77 + 0.028375*RF_Power^2 028375*RF 31

Interprétation - Régression 32

Comparaisons multiples (Tests Post-ANOVAR ) L ANAVAR teste l hypothèse des moyennes égales En s assurant que les résidus soient corrects Si l hypothèse nulle est rejetée, on ne sait pas quelle(s) moyenne(s) se distingue(nt) Déterminer les moyennes spécifiques qui se démarquent est appelé le problème de comparaisons multiples après ANAVAR Il existe plusieurs méthodes différentes Nous focaliserons sur celle des tests t appariés de Fisher Fisher s Least Significant Difference (ou Fisher s LSD) Method 33

Comparaisons multiples Analyse graphique 34

Exemple dans les services 35