Plans pour l étude de plusieurs facteurs

Plans pour l étude de plusieurs facteurs Hervé Monod, INRA Jouy-en-Josas, Unité MIA 1

Facteurs Réponses Phénomène Y Y = f(x 1,...,x p ) + ε x 1,...,x p modalités des facteurs explicatifs en entrée fonction f inconnue 2

Plans (multi-)factoriels étude simultanée de plusieurs facteurs en entrée pourquoi? gain en coût expérimental et en temps étude de chaque facteur sur une gamme de variation des autres facteurs possibilité de détecter des interactions 3

Exemple : rendement d une réaction 1. Stratégie une variable à la fois 2. Stratégie plusieurs variables à la fois 4

Principaux plans factoriels plan factoriel complet équirépété randomisé on choisit s 1 niveaux pour F1,..., s n niveaux pour Fn s 1... s n traitements = combinaisons de niveaux des facteurs on répète chaque traitement r fois (r 1) plan factoriel en blocs idem mais les unités expérimentales sont divisées en plusieurs blocs comment répartir les traitements entre les blocs? plan factoriel incomplet: quand s 1... s n > N approche plans D-optimaux approche plans fractionnaires réguliers approche plans pour surfaces de réponse 5

Plan factoriel complet Exemple : Plan pour 3 facteurs à 2 niveaux Influence des conditions de pétrissage sur la compressibilité d une pâte biscuitière Facteurs niveau 1 niveau +1 Farine (A) Apollo Thésée T o Bain-marie (B) 20 o C 35 o C Durée pétrissage (C) 5 mn 10 mn Plan factoriel complet 2 3 : les 8 combinaisons de niveaux sont équirépétées 6

Traitement A B C Y (Apollo, 20 o C, 5mn) 1 1 1 0.367 (Apollo, 20 o C, 10mn) 1 1 +1 0.532 (Apollo, 35 o C, 5mn) 1 +1 1 0.495 (Apollo, 35 o C, 10mn) 1 +1 +1 0.489 (Thésée, 20 o C, 5mn) +1 1 1 0.310 (Thésée, 20 o C, 10mn) +1 1 +1 0.485 (Thésée, 35 o C, 5mn) +1 +1 1 0.476 (Thésée, 35 o C, 10mn) +1 +1 +1 0.440 + + + + + + + + B C + + + A + 7

Effets factoriels 0.489 0.440 0.495 0.476 B 0.532 0.485 C + 0.367 0.310 A 0.489 0.440 0.495 0.476 B C 0.532 0.485 0.367 0.310 A Effet principal de A : e(a) = 1 8 [( Y Y + Y + Y ++ ) + (Y + + Y + + + Y ++ + Y +++ )] Interaction AB : ê(ab) = 1 8 [(+Y + Y + Y + Y ++ ) (Y + Y + + + Y ++ + Y +++ )] 8

Traitement M U A B C AB AC BC ABC Y (Apollo, 20 o C, 5mn) +1 1 1 1 +1 +1 +1 0.367 (Apollo, 20 o C, 10mn) +1 1 1 +1 +1 1 1 0.532 (Apollo, 35 o C, 5mn) +1 1 +1 1 1 +1 1 0.495 (Apollo, 35 o C, 10mn) +1 1 +1 +1 1 1 +1 0.489 (Thésée, 20 o C, 5mn) +1 +1 1 1 1 1 +1 0.310 (Thésée, 20 o C, 10mn) +1 +1 1 +1 1 +1 1 0.485 (Thésée, 35 o C, 5mn) +1 +1 +1 1 +1 1 1 0.476 (Thésée, 35 o C, 10mn) +1 +1 +1 +1 +1 +1 +1 0.440 9

Tableau d analyse de variance : Df Sum Sq Mean Sq F value Pr(>F) A 1 0.0036 0.00369 18.490 0.14 B 1 0.0053 0.00530 26.523 0.12 C 1 0.0111 0.01110 55.502 0.08. A:B 1 0.0001 0.00016 0.810 0.53 A:C 1 0.0000 0.00005 0.250 0.70 B:C 1 0.0182 0.01824 91.203 0.06. Residuals 1 0.0002 0.00020 10

Intérêts : Chaque effet principal estimé à partir de 4 répétitions Possibilité de détecter des interactions Généralisation à plus de 3 facteurs Généralisation à plus de 2 niveaux Possibilité de répartir en blocs par confusion d effets Possibilité de réaliser des fractions de plans Remarque : avec 3 facteurs seulement, il faut répéter les 8 traitements 11

Confusion d effets traitements avec un effet bloc Traitement M U A B C AB AC BC ABC (Apollo, 20 o C, 5mn) + + + + (Apollo, 35 o C, 10mn) + + + + (Thésée, 20 o C, 10mn) + + + + (Thésée, 35 o C, 5mn) + + + + (Apollo, 20 o C, 10mn) + + + + (Apollo, 35 o C, 5mn) + + + + (Thésée, 20 o C, 5mn) + + + + (Thésée, 35 o C, 10mn) + + + + + + + + L interaction ABC est confondue avec l effet bloc Les autres effets sont orthogonaux à l effet bloc 12

Fraction de plan Exemple : 4 facteurs à 2 niveaux On ne retient que les traitements tels que : ABCD = +1 MU A = BCD B = ACD C = ABD D = ABC AB = CD AC = BD BC = AD + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 13

Les effets factoriels sont confondus deux à deux : effets principaux confondus avec?? interactions 2 facteurs confondues avec?? = Fraction de Résolution IV 14

Fraction de plan de résolution III Exemple : 7 facteurs à 2 niveaux en 8 unités MU A B C D = AB E = AC F = BC G = ABC + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Effets principaux confondus avec?? 15

Retour sur l exemple 8 facteurs 2 8 = 256 traitements possibles Facteurs niveau 1 niveau +1 Farine (A) Apollo Thésée Hydratation (B) 17.7% 21.7% Vitesse pétrissage (C) 80 rpm 160 rpm Durée pétrissage (D) 5 mn 10 mn T o Bain-marie (E) 20 o C 35 o C Temps de repose (F ) 10 min 20 min Vitesse laminage (G) 0.5 m/min 1.1 m/min Ecartement cylindres (H) 2.4 mm 7.0 mm Fraction 2 8 4 en 16 unités expérimentales, de Résolution IV 16

Relations de définition : E = BCD G = ABC F = ACD H = ABD 17

Conclusion plans factoriels PROBLEME Très nombreux facteurs, sélectionner les plus influents Etudier l influence simultanée de nombreux facteurs avec peu d observations, détecter les principales interactions Etude plus détaillée de facteurs quantitatifs Optimiser la formulation d un mélange Améliorer la qualité et la robustesse simultanément METHODE Plans de screening (résolution III ou IV) Plans factoriels 2 n complets ou fractionnaires, résolution V Plans factoriels 3 n ou 4 n, surfaces de réponses Plans de mélange Plans de Taguchi 18

Plans pour surfaces de réponse Principe général plusieurs facteurs quantitatifs F 1,...,F n Modèle de surface de réponse (inconnu): Y = f(z 1,...,z n ) + ε On veut prédire correctement la réponse sur l ensemble du domaine de variation des z i connaitre l influence de chaque facteur et les interactions (souvent) rechercher les valeurs des F i qui optimisent la (ou les) réponse 19

Codage des facteurs définir les limites de variation zmin i, zmax i de chaque facteur F i ; les niveaux codés de chaque facteur varient entre 1 et +1: x i = 2z i (zmoins i +zplus i ) zmoins i zplus i on travaille par la suite avec les niveaux codés Modèle polynomial Modèle approché développement polynomial: Y = θ 0 + θ 1 x 1 +... + θ n x n + ε (ordre 1) ou Y = θ 0 + θ 1 x 1 +... + θ n x n + θ 11 x 2 1 +... + θ nnx 2 n + θ 12x 1.x 2 +... + ε (ordre 2) Plan d expérience: recherche des points qui permettent de bien estimer les paramètres et prédire la réponse démarche souvent séquentielle 20

Modèle du premier degré Y = Xθ + ε X = 1 (x 1 ) 1... (x n ) 1.... 1 (x 1 ) i... (x n ) i.... ; X X = 1 (x1 ) i... (x1 ) 2 i... (xn ) i (x1 ) i (x n ) i..... (xn ) 2 i 1 (x 1 ) N... (x n ) N 21

Plans pour le modèle du 1er degré plans factoriels 2 p ou 2 p q de résolution au moins III plans de Plackett et Burman plans simplex Pour construire un plan de Plackett et Burman ligne de départ + + + + + + N = 12 + + + + + + + + N = 16 + + + + + + + + + + N = 20 lignes suivantes par permutations cyclique dernière ligne de 1 randomisation: permutation des lignes 22

Propriétés des plans 2 s ou 2 s q : ces plans permettent d ajuster un modèle avec effet principal (linéaire) de chacun des facteurs les colonnes de X sont orthogonales les estimations des différents effets sont non corrélées et de précision optimale en ajoutant des répétitions au centre, on peut tester la présence d une courbure (effets quadratiques) et estimer la variance résiduelle 23

Modèle du second degré X = 1 (x 1 ) 1... (x n ) 1 (x 1 ) 2 1... (x n ) 2 1 (x 1 ) 1 (x 2 ) 1... (x n 1 ) 1 (x n ) 1.......... 1 (x 1 ) i... (x n ) i (x 1 ) 2 i... (x n ) 2 i (x 1 ) i (x 2 ) i... (x n 1 ) i (x n ) i.......... 1 (x 1 ) N... (x n ) N (x 1 ) 2 N... (x n) 2 N (x 1) N (x 2 ) N... (x n 1 ) N (x n ) N 0 B @ 1 P (x1 ) i P (x1 ) 2 i P P... (x n) i (x1 ) 2 P i... (x n) 2 P i (x1 ) i (x 2 ) i... P P... (x1 ) i (xn) i (x1 ) 3 P i... (x1 ) i (xn) 2 P i (x1 ) 2 i (x 2 ) i... P (xn 1 ) i (xn) i P (x1 ) i (x n 1 ) i (xn) i.................. P (x n) 2 i P (x1 ) 2 i (x n) i... P (x n) 3 i P (x1 ) i (x 2 ) i (xn) i... P (xn 1 ) i (xn) 2 i P (x1 ) 4 i... P (x1 ) 2 i (x n) 2 i P (x1 ) 3 i (x 2 ) i... P (x1 ) 2 i (x n 1 ) i (x n) i............... P (x n) 4 i P (x1 ) i (x 2 ) i (xn) 2 i... P (x1 ) 2 i (x 2 )2 i... P (xn 1 ) i (xn) 3 i P (x1 ) i (x 2 ) i (x n 1 ) i (xn) i...... P (xn 1 ) 2 i (x n) 2 i 1 C A 24

25 UVSQ-CNAM, Master Ingéniérie de la Statistique 2008-2009, Surfaces de réponse Prédictions de la variable réponse Réponse moyenne en un point x quelconque du domaine d étude η(x) = E(Y (x)) = θ 0 + θ 1 x 1 +... + θ n x n + θ 11 x 2 1 +... + θ nnx 2 n + θ 12x 1.x 2 +... + θ nn 1 x n 1.x n = f(x) θ avec f(x) = (1, x 1,...,x n, x 2 1,...,x n, x 1.x 2,...,x n 1.x n ) Prédiction: η(x) = θ 0 + θ 1 x 1 +... + θ n x n + θ 11 x 2 1 +... + θ nn x 2 n + θ 12 x 1.x 2 +... = f(x) θ Var( η(x)) = f(x) (X X) 1 f(x) σ 2 Var(Ŷ (x)) = (1 + f(x) (X X) 1 f(x)) σ 2 dépend du plan dépend de x varie dans le domaine d étude ne dépend pas de la valeur des paramètres (cf. modèle linéaire) [Exercice: variance de prédiction pour un 2 2 et modèle de degré 1]

Propriétés recherchées pour les plans pour surfaces de réponses Orthogonalité: les colonnes de X (= les régresseurs) sont mutuellement orthogonales, après centrage des régresseurs quadratiques les estimations des effets sont non corrélées ou corrélées avec le terme constant Isovariance par rotation: la variance de prédiction en x ne dépend que de la distance au centre de x invariance de la précision par rapport à la direction Précision: précision uniforme : précision homogène sur l ensemble du domaine d étude optimalité: minimisation de critères de variance sur les paramètres ou sur les prédictions dans le domaine d étude 26

Exemple à deux facteurs 1.2 Essai A B 1 1 1 2 1 1 3 1 1 4 1 1 5 1.414 0 6 1.414 0 7 0 1.414 8 0 1.414 9 0 0 10 0 0 pred 1.0 0.8 0.6 x2 0.0 1.0 0.5 0.5 0.4 1.0 1.0 0.5 0.0 0.5 1.0 x1 Plan 27 Variance de prédiction

Plans pour le modèle du 2nd degré plan factoriel 3 n ou 3 n q de résolution au moins 3 plan composite centré plan factoriel 2 n ou 2 n q + répétitions du point central + points en étoile (sur les axes) réseaux uniformes de Doehlert plan de Box-Benhken 28

Propriétés possibles des plans central-composite isovariance par rotation si α = (N c ) 1/4 orthogonalité si α = ( [ N c + N s + N 0 N c ] 2 N c 4 précision uniforme dans sphère de rayon 1 nbre de fact. 2 3 4 5 5 N f 4 8 16 32 16 N a 4 6 8 10 10 N 0 isovariance 1 1 1 1 1 préc. unif. 5 6 7 10 6 orthog. 8 12 12 17 10 N préc. unif. 13 20 31 52 32 orthog. 16 26 36 59 36 α 1.41 1.68 2.00 2.38 2.00 ) 1/4 29

Analyse d un plan pour surface de réponse analyse de variance estimation des paramètres représentations graphiques + tests spécifiques + recherche des x i optimisant la réponse + recherche de zones satisfaisant des contraintes sur des variables réponses Tests spécifiques: tester la validité du modèle SCR = (Y X θ) (Y X θ) somme des carrés résiduels; E(SCR) = (N p)σ 2 si le modèle est correct répétitions au centre estimation non biaisée de σ 2 : SCE 0 = ((Y 0 ) i Ȳ0) 2 ; E(SCE 0 ) = (N 0 1)σ 2 si le modèle est correct (SCR SCE 0 )/SCE 0 ) suit une loi de Fisher centrée à N p N 0 + 1 et N 0 1 ddl 30

Analyse de la surface de réponse prédite Exemple: η(x 1, x 2 ) = 80 + 1.2x 1 0.1x 2 5.5x 2 1 4.8x 1 x 2 2.5x 2 2 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 31

Analyse canonique On note b = θ 1. B = θ 1,1... θ1,n...... θ n θ n,1... θn,n L équation de réponse est alors: η(x) = θ 0 + x b + x Bx 32

Recherche du point stationnaire x S (s il existe) On note η S = b 0 + 1 4 b B 1 b. η x = b + 2Bx Equation canonique de la surface de réponse = 0 si et seulement si ˆx S = 1 2 B 1 b on montre que η(x) = η S + (x x S ) B(x x S ) on décompose B selon ses vecteurs propres v k : B = k a kv k v k (a k sont les valeurs propres) on a (x x S ) B(x x S ) = k a kz 2 k avec z k = (x x S ) v k les axes associés aux variables z 1,...,z k sont les axes principaux de la surface de réponse équation canonique: η(z) = η S + a k z 2 k 33

Interprétation des coefficients canoniques d abord vérifier si le point stationnaire est proche ou non du domaine d intérêt tous les a k > 0 le point stationnaire x S est un minimum tous les a k < 0 le point stationnaire x S est un maximum autres cas le point stationnaire x S est un point de selle si une valeur propre a k 0: la réponse ne change pratiquement pas dans cette direction 34

Plans D-optimaux Principe général (facteurs quantitatifs) on pose des domaines de variation pour chaque facteur on précise le nombre d observations disponibles N on pose un modèle polynomial, ex: Y = θ 0 + θ 1 Z 1 + θ 1 Z 2 + θ 1 Z3 + θ 11 Z 2 1 + θ 12 Z 2 2 +θ 12 Z 1.Z 2 + ε la matrice X du plan s écrit à partir des (Z j ) on cherche les valeurs des (Z j ) qu il faut choisir pour maximiser le déterminant de la matrice d information X X 35

Pourquoi maximiser le déterminant de X X? Var( θ) = (X X) 1 le déterminant de X X est inversement proportionnel au volume des ellipsoïdes de confiance de θ les plans D-optimaux sont invariants par changement des unités de mesure des régresseurs Z Méthodes de recherche de plans D-optimaux résultats théoriques algorithmes de recherche (ex: PROC OPTEX de SAS) 36

Exemple: Mise au point d un procédé de réaction 5 facteurs identifiés Facteur Description Domaine rtemp température 150-350 degrés press pression 10-30 psi temps durée de réaction 3-5 mn solv quantité de solvant 20-25% source source du matériau 1,2,3,4,5 Contrainte: ne pas mettre les 3 premiers facteurs simultanément à leur plus haut ou plus bas niveau 37