Analyse des données 1: erreurs expérimentales et courbe normale 1
Incertitude vs. erreur Une mesure expérimentale comporte toujours deux parties: la valeur vraie de la grandeur mesurée et l'erreur sur cette valeur. Pour une seule mesure on rapporte l incertitude, qui est l erreur maximale prévisible. L incertitude est liée à l instrument/outil de mesure. x mesuré = x meilleur ± incertitude La bonne méthode scientifique consiste à répéter les mesures à fin de pouvoir évaluer l erreur aléatoire (ou accidentel) réellement faite lors de manipulations. x mesuré = x moyenne ± écart-type 2
Types d erreurs expérimentales Les erreurs systématiques (erreurs déterminées) Valeurs définies Variation des valeurs dans une direction (positive ou négative) Les statistiques ne peuvent pas venir en aide à ces erreurs Elles peuvent être identifiées et donc corrigées par un calibrage approprié Affectent l exactitude des valeurs Erreurs aléatoires (erreurs indéterminées) Variation de part et d autre de la moyenne Normalement faibles et peuvent être réduites par un traitement du signal Affectent la précision et la reproductibilité Erreurs majeures Evidentes et requièrent de refaire le tout (ex: catastrophe expérimentale, contamination de l échantillon) 3
Données expérimentales Lorsque des mesures expérimentales sont répétées plusieurs fois, les valeurs obtenues ne sont pas les mêmes (sauf coïncidence) parce que l erreur aléatoire n est pas la même à chaque fois. Des données expérimentales brutes sont constituées de la vraie valeur, µ, à laquelle on ajoute la composante erreur. S il n y a pas d erreur systématique, la composante erreur est distribuée au hasard selon une loi normale. Les observations individuelles sont aussi distribuées selon une loi normale. 4
Nombre d ampoules La loi normale et la distribution gaussienne Si une expérience est répétée un grand nombre de fois (n ), et si les erreurs sont purement aléatoires, les données expérimentales auront tendance à se distribuer de manière symétrique autour d une valeur moyenne. Courbe gausienne (forme de cloche) En effet, dans la plupart des analyses quantitatives, on observe expérimentalement que la distribution des données suit une courbe idéale appelée, «courbe gaussiene» ou «courbe d erreur normale». Durée de vie (h) Nombre d ampoules testées (n) = 4768 5
Distribution des erreurs aléatoires En supposant une erreur systématique nulle, on peut écrire: mesure vraie valeur erreur aléatoire x Comment se distribuent les erreurs aléatoires autour de la vraie valeur ( i = x i -µ)? Loi normale centrée sur la valeur «0». La valeur moyenne de est «0». n n xi 1 i i i1 n n 0 6
Distribution des erreurs aléatoires Fut proposée en 1733 par DeMoivre, connue sous le nom de loi des erreurs, courbe de Gauss, distribution normale, courbe en cloche La distribution normale est caractérisée par deux paramètres: La valeur centrale, (reliée à la moyenne) L écart-type,, exprime la dispersion des valeurs est une meilleure façon de représenter l erreur aléatoire que 7
Échantillon vs. population Il est plus probable qu une mesure en laboratoire sera répétée 3 à 6 fois, plutôt que 1000 fois. À partir de cette petite série de données (un «échantillon»), il est possible d estimer les paramètres statistiques que produirait une série infinie de données (une «population»). Il est donc possible d évaluer le comportement statistique d un phénomène à partir d un ensemble restreint de mesures. Échantillon, s x Population, 8
Moyenne et écart-type Les valeurs µ et σ caractérisent l'ensemble de la population. Alors que la moyenne,, et l écart-type, s, caractérisent l'échantillon. Moyenne et écart-type sont des évaluations de µ et σ. x Échantillon, s x Population,, 9
Les propriétés d une courbe gaussiene: La moyenne La moyenne d un ensemble limité tiré d une population de données (i.e. n est un petit nombre) x n x i i1 n moyenne arithmétique des n valeurs de x i La meilleure évaluation de µ (population) est encore la moyenne arithmétique, et 10
Les propriétés d une courbe gaussiene: La moyenne Lorsque n est petit, diffère souvent de car un petit échantillon de données ne représente pas exactement sa population. La différence attendue entre x et diminue rapidement si l on augmente le nombre de mesures. x Échantillon, s x Population, Cette différence devient négligeable dès que n atteint 30. 11
Les propriétés d une courbe gaussiene: L écart-type L écart-type indique comment les valeurs mesurées sont regroupées autour de la moyenne. L écart-type, s, d un ensemble restreint de données: s n i1 x i x n 1 2 1 2 Si n > 30, on utilise n L écart-type de la population,, est donné par n (x i ) 2 i1 n où n-1 est le nombre de degrés de liberté 12
Nombre d ampoules L écart-type et la précision d une mesure Plus l écart-type est petit, plus les données sont étroitement regroupées autour de la moyenne (voir graphique à droite). Une distribution gaussienne étroite (i.e. écart-type petit) est indicative d une mesure précise. L'écart-type est le paramètre le plus utilisé dans l'analyse des données expérimentales. Les chimistes utilisent habituellement l écart-type d un ensemble pour indiquer la précision de leurs données. x Durée de vie (h) 13
L ÉCART-TYPE DES RÉSULTATS CALCULÉS Il faut souvent estimer l écart-type d un résultat qui a été calculé à partir de quelques données expérimentales qui ont chacune un écart-type d échantillon connu. Le tableau 1 donne les équations permettant de calculer les écarts-types de résultats obtenus par différentes opérations arithmétiques. Tableau 1: Propagation des erreurs dans les opérations algébriques Type d opération Exemple* Écart-type de y Addition ou soustraction Multiplication ou division y a bc y a b c s y s a 2 s b 2 s c 2 s y y 2 s a s 2 b s 2 c a b c Exponentielle y a x s y y x s a a Logarithme y log 10 a s y 0,434 s a a Exponentielle en base 10 y 10 a s y y 2,303s a * a, b et c sont des variables expérimentales dont les écarts-types sont symbolisés respectivement par s a, s b et s c. Chiffres significatifs! 14
Nombre d ampoules Équation d une courbe gaussienne L équation d une courbe gaussienne prend la forme y 1 2 2 2 e( x ) / 2 Pour un nombre restreint de données, on peut dire que y x et s, ainsi 1 2 2 s 2 e( x x ) / 2s Durée de vie (h) 15
Exemple d une courbe gaussienne calculée Par exemple, si = 1 et = 0, on obtient les données (x-y) cidessous et la courbe illustrée à droite. y 1 2 2 2 e( x ) / 2 x y -3 0.004431848-2 0.053990966-1 0.241970724 0 0.39894228 1 0.241970724 2 0.053990966 3 0.004431848 16
Représentation unique de la dispersion des erreurs Il est utile d exprimer la dispersion des valeurs autour de la moyenne en multiple de l écart-type (i.e. façon unique pour exprimer les diverses erreurs). C est-à-dire, x i est transformé en z i, qui est exprimé selon: z i x i Cote «z» x i x s 17
Courbe gaussienne et la variable «z» La variable «z» est distribuée normalement, avec une moyenne égale à zéro. = 0 Par exemple, pour une courbe gaussienne où = 1 et = 0: = 1 Lorsque z i = +1, x i est 1 au-dessus de la moyenne. Lorsque z i = -2, x i est 2 en dessous de la moyenne. 18
Distribution normale des valeurs z i On peut ré-écrire la loi normale pour «z»: y i 1 2 i 2 e 2 x i 2 2 1 z 2 e 2 Avantage: Sous cette forme réduite, toutes les courbes normales ont la même représentation. 19
Probabilité - 1 La probabilité de faire une mesure de valeur «x i», pour un événement tiré d'une population d'événements distribués selon une loi normale, ne s'évalue pas directement. C'est la probabilité que la valeur «x i», soit située entre x 1 et x 2 qui peut s'évaluer en mesurant la surface sous la courbe normale entre ces deux limites, i.e. P {x 1 < x i < x 2 }: 20
Probabilité - 2 Comme dans le cas des valeurs «x i», la probabilité que la valeur «z i» (qui est reliée a x i ) se trouve dans un intervalle donné est égale à la surface sous la courbe normale entre les deux limites de l intervalle. = 1 et = 0 Par exemple, la probabilité de mesurer «z» entre -2 et -1 est 0.136, qui correspond à l aire de la région ombrée dans la courbe à droite. 21
Probabilité - 3 Puisque la somme des probabilités de toutes les valeurs mesurées est égale à 1, l aire sous la courbe gaussienne de z = - à z = + est égale à 1. = 1 et = 0 Dans l équation de la courbe gaussienne y i 1 2 e(x i ) 2 / 2 2 facteur de normalisation le facteur de normalisation garantit que la surface de la courbe est égale à 1 («courbe normale d erreur»). 22
z a z z 23
Nombre d ampoules Problème Supposons que le manufacturier d ampoules offre de remplacer gratuitement chaque ampoule dont la durée de vie est moins de 600 h. Si le manufacturier prévoie vendre 1 M d ampoules, combien d ampoules supplémentaires doit-il garder de remplacement? Durée de vie (h) 24
Nombre d'ampoules Selon la courbe de distribution normale, la durée de vie moyenne d une ampoule est 845.2 ± 94.2 h Solution Il faut calculer le z i qui correspond à un x i de 600 h: 500 z i x i x s (600845.2) 94.2 2.60 400 Selon le Tableau 4-1, l aire sous la courbe entre la valeur moyenne, x, et z =-2.60 est 0.4953. 300 200 100 0 500 600 700 800 900 1000 1100 1200 durée de vie (h) 25
Nombre d'ampoules Solution Selon la courbe de distribution normale, la durée de vie moyenne d une ampoule est 845.2 ± 94.2 h Il faut calculer le z i qui correspond à un x i de 600 h: 500 z i x i x s (600845.2) 94.2 Selon le Tableau 4-1, l aire sous la courbe entre la valeur moyenne, x, et z =-2.60 est 0.4953. L aire totale entre - et est 0.5000. Donc, l aire de - à -2.60 est 0.5000-0.4953=0.0047 L aire à gauche de 600 h est seulement de 0.47% de l aire totale en dessous de la courbe. Nombre d ampoules de remplacement = 10 6 x 0.47% =4700 x 2.60 400 300 200 100 Aire de - à 845 h = 0.5 Aire de 600 h à 845 h = 0.4953 0 500 600 700 800 900 1000 1100 1200 durée de vie (h) zone pertinente 26
L intervalle de confiance de la moyenne La valeur exacte de la moyenne (représentative d une population de données), n est jamais accessible parce que sa détermination exige un nombre infini de mesures. Cependant, les outils statistiques permettent de fixer des limites autour d une moyenne déterminée expérimentalement (pour un ensemble restreint de données), les limites entre lesquelles se situe avec un certain degré de probabilité. On appelle ces limites les limites de confiance, et l intervalle qu elles définissent l intervalle de confiance. L intervalle de confiance pour est donné par: x txs t n où «t» est le paramètre statistique souvent appelé le t de Student 27
(Nombre de degrés de liberté) (Niveaux de confiance) N.B.: pour le calcul de l intervalle de confiance, 28 le nombre de degrés de liberté = n - 1
Exemple de calcul d intervalle de confiance Un chimiste a obtenu les données suivantes pour la teneur en alcool d un échantillon de sang: % C 2 H 5 OH = 0,084; 0,089 et 0,079. Calculez les intervalles de confiance pour la moyenne, avec un niveau de confiance de 80 % et de 95%. x Pour les 3 mesures, = 0,084% et s = 0,005%. Le tableau 4-2 indique que pour deux degrés de liberté (n-1), t = 1,89 pour 80% de confiance et t = 4,30 pour 95% de confiance. Alors, à 80% = x ts n 0,0841,890,005 3 = 0,084±0,005% de C 2 H 5 OH à 95% = C 2 H 5 OH. x ts n 0,084 4,300,005 3 = 0,084±0,012% de 29
Comparaison d une moyenne expérimentale avec la valeur vraie (Test t) Pour comparer la moyenne obtenue expérimentalement avec une valeur connue ou certifiée et décider si la valeur mesurée concorde avec la valeur vraie: 1- On détermine t calculé : t calcul valeur vraie x s n 2- On compare t calculé avec le t de Student pour un intervalle de confiance de 95%. 3- Si t calculé > t de Student, les deux valeurs sont considérées différentes. 30
Comparaison des moyennes de deux ensembles de résultats Une quantité est mesurée plusieurs fois par deux différentes méthodes. Deux résultats sont obtenus, chacun avec son écart-type. Le chimiste doit juger si les deux méthodes donnent sensiblement le même résultat ou si la différence qu il peut détecter entre les moyennes des deux séries d analyse effectuées, est réelle. Méthode 1: n 1 mesures avec valeur moyenne x 1 Méthode 2: n 2 mesures avec valeur moyenne x 2 31
Si on suppose que les écarts-types des populations des deux méthodes sont très semblables, on peut calculer une valeur de t selon la relation: t calcul x 1 x 2 s group n 1 n 2 n 1 n 2 où s group mthode 1 2 x j x 2 2 x i x 1 n 1 n 2 2 mthode 2 s 1 2 n 1 1s 2 2 n 2 1 n 1 n 2 2 t calculé est le paramètre discriminatoire que l on calcule avec les valeurs expérimentales et s groupé est l écart-type pondéré des deux moyennes. La valeur de t calculé est comparée avec le t de Student pour (n 1 +n 2-2) degrés de liberté. Si t calculé > t de Student (intervalle de confiance de 95%), les deux résultats diffèrent appréciablement. On peut utiliser le même test pour établir si deux échantillons, analysés par une seule méthode, sont identiques. 32
Si les écarts-types des populations des deux méthodes ne sont pas semblables, on peut calculer une valeur de t selon la relation: t calculé x 1 s n 2 1 1 x 2 s n 2 2 2 Nombre de degrés de liberté = (s 2 1 / n 1 s 2 2 / n 2 ) 2 (s 2 1 / n 1 ) 2 n 1 1 (s 2 2 / n 2 ) 2 2 n 2 1 33
Est-ce que le gaz isolé de l air est plus dense que l azote (N 2 ) produit chimiquement? (n=7) (n=8) 34
Si on suppose que les écarts-types des populations des deux échantillons sont très semblables: s group s 1 2 n 1 1s 2 2 n 2 1 n 1 n 2 2 0.0001432 (71)(0.00138) 2 (81) 782 0.00102 t calcul x 1 x 2 n 1 n 2 2.310112.29947 s group n 1 n 2 0.00102 78 78 20.2 Pour 7+8-2 =13 degrés de libertés, t de Student se situe entre 2.228 (10) et 2.131 (15) pour 95% de confiance. Conclusion: t calculé > t Student et donc les moyennes sont différentes et le gaz isolé de l air (Ar) est plus dense que l azote. 35
Test de rejet d une donnée (Test Q) Lorsqu une série de données contient un résultat excentrique qui diffère sensiblement de la moyenne, on doit prendre la décision de le garder ou de le rejeter. Le test Q est un test statistique simple, très largement utilisé pour les valeurs excentriques. Il consiste à calculer la valeur expérimentale Q exp en divisant par l étendue w la valeur absolue de la différence entre le résultat suspect x q et son plus proche voisin x n : Q exp x q x n w 36
Ce Q exp est ensuite comparé aux valeurs de rejet Q crit données dans le tableau. Si Q exp > Q crit, le résultat suspect sera rejeté ou non selon le degré de confiance que l on s est préalablement fixé. Valeurs critiques pour le quotient de rejet Q Q crit (Rejeter si Q exp > Q crit ) Nb. d observations 90% de confiance 95% de confiance 99% de confiance 3 0,941 0,970 0,994 4 0,765 0,829 0,926 5 0,642 0,710 0,821 6 0,560 0,625 0,740 7 0,507 0,568 0,680 8 0,468 0,526 0,634 9 0,437 0,493 0,598 10 0,412 0,466 0,568 x 6 est la valeur suspecte. x 1 x 2 x 3 x 4 x 5 x 6 x 5 est la valeur la plus proche de x 6. x w Q exp x 6 x 5 x 6 x 1 Si Q exp > Q crit, x 6 est rejet. 37
Références A. Badia et al., CHM 1501/CHM 1979 Chimie expérimentale 1 (manuel de travaux pratiques), annexe B «Traitement des données», pp. 93-105. M. D Amboise, CHM 1501/CHM 1979/CHM 1502 Données expérimentales et usage d Excel 2004. J.A. Mendham, R.C. Denney, J.D. Barnes, M.J.K. Thomas, Analyse chimique quantitative de Vogel, traduction et révision scientifique de la 6 e édition anglaise, De Boeck & Larcier s.a., 2006, chapitre 4 «Statistiques: introduction à la chimiométrie», pp. 125-181. D.C. Harris, Quantitaive Chemical Analysis, 6è éd., chapitre 4 «Statistics», pp. 61-76. 38