Formulaire de Statistiques

Formulaire de Statistiques Table des matières Intervalles de confiance... 2 Variable quantitative... 2 Variable qualitative... 2 Comparaison observé/théorique... 2 Variable quantitative... 2 Variable qualitative... 3 Comparaison d échantillons indépendants... 3 Variable quantitative... 3 Cas n 1 : deux grands échantillons (n 1 et n 2 > 30)... 3 Cas n 2 : au moins un petit échantillon (n 1 et/ou n 2 > 30)... 4 Variable qualitative... 4 Test ε : utile si risque unilatéral, n 1 et n 2 > 30... 4 Test du ² d homogénéité : utile surtout si risque bilatéral... 5 Comparaison d échantillons appariés... 6 Variable quantitative... 6 Variable qualitative... 6 Test du ² de Mac Nemar : comparaison de fréquences appariées... 6 Corrélation et régression... 6 Covariance estimée cov(x ; y)... 6 Démontrer l existence ou l absence d une corrélation linéaire... 7 Calcul Coefficient de corrélation r... 7 Test de significativité du coefficient de corrélation... 7 Test du ² d indépendance... 7 Droite de régression... 7 Equation de la droite de régression y i=ax i+b... 7 Test de significativité de la pente a... 8 Intervalle de confiance de la pente a... 8 Laura RUESCHE - 2013. Page 1

Intervalles de confiance Variable quantitative Avec m : moyenne de l échantillon s : écart type estimé de l échantillon n : effectif de l échantillon ε α : 1.96 si α = 0.05 - X -> N(0;1) dans la population - Si n < 30 : utiliser t α (table de Student, ddl =n-1) à la place de ε α Variable qualitative Avec p : fréquence observée, q=1-p n : effectif de l échantillon ε α : 1.96 si α = 0.05 - np et nq >> 5 - np i, np s, nq i et nq s > 5 (bornes de l I c) Comparaison observé/théorique Variable quantitative Hypothèse nulle H 0 : m = μ Hypothèse alternative H 1 : m μ, au risque α (préciser si risque uni/bilatéral) Avec m : moyenne de l échantillon, μ : moyenne dans la population s : écart type estimé de l échantillon n : effectif de l échantillon - X -> N(0;1) dans la population - Si n < 30 : utiliser t α (table de Student, ddl =n-1) à la place de ε α Laura RUESCHE - 2013. Page 2

Interprétation : - Si > ε α on rejette H 0 - Si < ε α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») Variable qualitative Hypothèse nulle H 0 : p = p 0 Hypothèse alternative H 1 : p p 0, au risque α (préciser si risque uni/bilatéral) Avec : p : fréquence observée, p 0 : fréquence théorique dans la population n : effectif de l échantillon - np, nq, np 0, nq 0 > 5 - Si n < 30 : utiliser t α (table de Student, ddl =n-1) à la place de ε α Interprétation : - Si > ε α on rejette H 0 - Si < ε α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») Comparaison d échantillons indépendants Variable quantitative Cas n 1 : deux grands échantillons (n 1 et n 2 > 30) H 0 : m 1 = m 2 H 1 : m 1 m 2, au risque α (préciser si risque uni/bilatéral) Avec m 1 : moyenne de l échantillon 1 s² 1 : variance de l échantillon 1 n 1 : effectif de l échantillon 1 - X -> N(0;1) dans la population - Vérifier l hypothèse d identité des variances (homoscédasticité) par le test F de Fisher - n 1 et n 2 > 30 sinon, utiliser test T de Student (table de Student, ddl =n 1+n 2-2) à la place de ε α Test F de Fisher Laura RUESCHE - 2013. Page 3

Interprétation : H0 : s²1=s²2 H1 : s²1 s²2 au risque α=5% Calcul : avec s² 1> s² 2 Comparaison de F calculé avec F de la table de Fisher (si α = 5% prendre la table au point 2.5) ddl : ν 1=n 1-1 ; ν 2=n 2-1 - Si > ε α on rejette H 0 - Si < ε α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») Cas n 2 : au moins un petit échantillon (n 1 et/ou n 2 > 30) H 0 : m 1 = m 2 Test de Student H 1 : m 1 m 2, au risque α (préciser si risque uni/bilatéral) Avec s² c : variance estimée moyenne - Hypothèse d homoscédasticité vérifiée (test F) - Si test F OK : calculer la variance estimée moyenne ( ) ( ) Interprétation : - Si > t α on rejette H 0 - Si < t α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») - Avec t α = t de la table de Student, ddl =n 1+n 2-2 Variable qualitative Test ε : utile si risque unilatéral, n 1 et n 2 > 30 H 0 : p 1 = p 2 H 1 : p 1 > ou < p 2 au risque α unilatéral Avec : Laura RUESCHE - 2013. Page 4

- n, n, n, n, > 5 - Si n < 30 : utiliser le test de Student avec ddl = n 1+n 2-2 Interprétation : - Si > ε α on rejette H 0 - Si < ε α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») Test du ² d homogénéité : utile surtout si risque bilatéral NB : il est possible de comparer plus de 2 échantillons/classes grâce à ce test Hypothèses : - H0 : i pi = pi0 - H 1 : pi pi0 Tableau de contingence (exemple) : Fumeurs Non-fumeurs Total colonne Malades Oi 1 Ci 1 Oi 3 Ci 3 m Sains Oi 2 Ci 2 Oi 4 Ci 4 s Total ligne f nf Effectif global Avec : Oi : effectifs observés, Ci : effectifs théoriques calculés sous H0 : - Effectif global N > 20 - Si N ϵ ]20 ; 40] : faire la correction de Yates - Si N > 40 : pas de correction nécessaire même si certains C i <5 - Si certains Oi < 5 : faire un regroupement de classes si possible. Calcul : [ ( ) ] Avec la correction de Yates : [ ( ) ] Laura RUESCHE - 2013. Page 5

Interprétation : - Comparer ² c avec ² de la table : ddl = (nb de lignes -1)(nb de colonnes -1) - Si classes : ddl = nb de classes -1 - Si > ² α on rejette H 0 - Si < ² α on ne peut pas rejeter H 0 (ne pas surtout écrire «on accepte H0») Comparaison d échantillons appariés Variable quantitative 1) Calculer la série Z avec z i = x i - y i (différence relative entre les deux séries) 2) Calculer m z la moyenne des différences, et s² z la variance de différences 3) Effectuer un test de Student de comparaison de la moyenne des différences m z avec une moyenne théorique μ = 0, en posant l hypothèse que la série Z suit une distribution gaussienne dans la population ; Variable qualitative Test du ² de Mac Nemar : comparaison de fréquences appariées Soit : a = nombre d occurrences de A+/Bb= nombre d occurrences de A-/B+ a + b 10 Formule : ( ) A comparer avec ² de la table ddl = 1 Corrélation et régression Définitions : - Corrélation : deux variables => calcul d une covariance possible - Régression : une variable et un paramètre fixe Covariance estimée cov(x ; y) ( ) ( ) Laura RUESCHE - 2013. Page 6

Démontrer l existence ou l absence d une corrélation linéaire Calcul Coefficient de corrélation r NB : r ϵ ]-1 ; 1[ [ ( ) ] [ ( ) ] Test de significativité du coefficient de corrélation Test de Student à n-2 ddl - H0 : r = 0 : pas de liaison affine entre X et Y - H 1 : r 0 au risque α (préciser si risque uni/bilatéral) on suppose que X et Y -> N(0 ;1) dans la population Test du ² d indépendance - H0 : pas de liaison affine entre X et Y - H 1 : il existe une liaison affine au risque α Idem que le Test du ² d homogéneité Droite de régression Equation de la droite de régression y i=ax i+b Calcul de la pente a ( ) ( ) Calcul de l ordonnée à l origine b : Avec : Laura RUESCHE - 2013. Page 7

Test de significativité de la pente a Test de Student à n-2 ddl : comparaison de la pente à 0 - H0 : r = 0 - H 1 : r 0 au risque α Avec s² a : variance de la pente a Intervalle de confiance de la pente a Avec t α/2 : t de la table de Student correspondant au risque α/2 Laura RUESCHE - 2013. Page 8