Biostatistiques : Petits effectifs

Dimension: px
Commencer à balayer dès la page:

Download "Biostatistiques : Petits effectifs"

Transcription

1 Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694

2 Plan Données Générales : Définition des statistiques Principe de l échantillonnage Principe du test statistique Tailles d échantillons Analyse descriptive / Test de Normalité. Petits échantillons : Petits / Grands échantillons. Comparaison de deux ou plusieurs échantillons. Tests non-paramétriques Mesure de l'association entre plusieurs variables.

3 La Statistique et les Biostatistiques La STATISTIQUE : discipline traitant du recueil (plans d expérience, sondages, ), du traitement et de l interprétation de données caractérisées par une grande variabilité. Partie des mathématiques appliquées, utilisant la théorie des probabilités. Beaucoup de domaines d applications Sondages : enquêtes d opinion Industrie : contrôle de qualité Marketing : scoring, profil de consommateurs Médecine : épidémiologie, recherche clinique.. Statistiques appliquées à la Médecine = BIOSTATISTIQUES Données spécifiques : variabilité inter et intra, données interprétées, Méthodes spécifiques : survie, courbes ROC, plans d expérience

4 Méthodologie statistique Employer bien sûr la "bonne" procédure statistique pendant l analyse!!! MAIS cela ne suffit pas Choisir le bon type d étude Choisir le bon plan d expérience Choisir les bons critères de jugement Définir les variables recueillies Qualité des données recueillies Avant l étude!!! Analyse statistique rigoureuse (tests, modèles, ) Bonne interprétation des résultats Fin d étude

5 L Échantillonnage

6 L inférence statistique On désire étudier une population P Principe : On tire un échantillon E de taille n issu de P On analyse les caractéristiques de E On généralise à P Attention!! E doit être un échantillon représentatif de P (même probabilité pour chaque individu de se retrouver dans E) E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats Définir très précisément la population que l on désire étudier!!

7 Les fluctuations d échantillonnage Quand on tire aléatoirement un échantillon, on a des fluctuations. Exemple : on s intéresse aux 10 premiers étudiants entrant dans l amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants qui assisteront au cours sont des femmes? NON!!! On considère que dans la population totale, les proportions d hommes et de femmes sont les mêmes P(H)=P(F)=1/2 Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 et calculer la probabilité d observer 0,1,2,,10 femmes P(X=k)

8 Les prendre en compte Comment prendre en compte les fluctuations d échantillonnage? 1) En vérifiant que l échantillon est représentatif (tests d adéquation par exemple) 2) En donnant la marge d erreur que l on commet en raisonnant sur un échantillon (Intervalles de confiance) 3) En maîtrisant les risques d erreurs (puissance dans le cas de comparaisons)

9 Principe du test statistique

10 Le test statistique Un travail de recherche est bâti pour répondre à une question Le test statistique est basé sur 3 principes généraux : Le test statistique sert à répondre à une question Le test statistique est un test d hypothèse : à la question on associe une hypothèse (H0) Le test statistique ne peut conclure de manière certaine : preuve expérimentale donc il faut prendre un risque (première espèce) Conclusion fondée sur un test statistique Principe du test statistique

11 Principe du test statistique Question : une pièce de monnaie est-elle pipée? Étape 1 : on cherche à prouver qu elle est pipée Étape 2 : confrontation expérimentale : on jette 50 fois la pièce. Étape 3 : test d hypothèse Si pièce non pipée : P(Face)=P(Pile)=1/2 Choix de l hypothèse à tester notée H0 : :«la pièce de monnaie n est pas pipée» Soit X : nombre de «Pile» (ou Face) Si H0 est vraie, la loi de X est connue (binomiale) P(X=k)= C p (1 p) k k N-k N

12 Principe du test statistique : Notion de risque Si H0 vraie, toutes les configurations sont possibles, y compris P(0P)=(0,5) !! P (X=k) k

13 Principe du test statistique : Notion de risque Il faut décider : on choisit un risque raisonnable = 5% On partage l ensemble des possibilités en 2 zones, selon le risque 5% : 18P 25P 32P 0P Compatible H0 = 95% 50P Très improbable sous H0 = 5% de chance =REJET DE H0 Limites de la zone compatible avec H0 se déterminent grâce au calcul des probabilités. Ici 18-32

14 Principe du test statistique : Règle de décision Zone compatible avec H0 = probabilité de 95% de se produire si H0 vraie Zone de rejet de H0 = probabilité de 5% de se produire si H0 est vraie!!! (risque) Règle de décision : on fixe a priori la règle suivante : - Si le résultat de l expérience se trouve dans la zone compatible avec H0 (exemple 22P), on ne décide rien («non significatif») - Si il se situe dans le zone «rejet de H0» on déclare H0 FAUSSE, donc on déclare H1 vraie, mais au risque 5%. - Exemple : 15P, on décide que la pièce est truquée Risque de première espèce = Probabilité de rejeter H0 à tort = 5%

15 Notion de Puissance d un test Décision Vérité H0 H1 Compatible H0 β Rejet de H0 = on décide H1 α 1-β α = Proba (décider H1 / H0 est vraie) = risque de première espèce β = Proba ( décider «compatible avec H0» / H1 est vraie) = risque de deuxième espèce Puissance = 1-β = Proba ( décider H1 / H1 est vraie) α = Risque d'affirmer qu'il y a une différence significative alors qu'elle n'existe pas réellement. β = Risque d'affirmer qu'il n'y a pas de différence significative alors qu'elle existe réellement. Puissance = Probabilité de détecter une différence si elle existe réellement

16 Notion de puissance d un test Puissance dépend de la différence mais aussi de la variabilité Puissance dépend du risque de première espèce α, mais inutile en pratique car α fixé à 5% Puissance = F(,N,DS) En pratique, on estime et DS et on déduit N

17 En pratique Dépend du plan d expérience : Nombre de groupes Indépendant / Apparié (patient propre témoin) Dépend du critère de jugement principal Numérique Binaire Survie Des 2 risques : α : risque de première espèce : généralement 5% β : risque de seconde espèce : inférieur à 20%

18 Application : Taille des échantillons Comparaison de 2 moyennes (groupes indépendants) n = 2 2( + ) = 1 α 1 β z z σ ² σ ² K ² ² Test bilatéral Test unilatéral Alpha Beta Zalpha Zbéta K Alpha Beta Zalpha Zbéta K (Formules approchées)

19 Exemple Différence attendue ( ) : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% Puissance (1-β ): 90% N 10 = 21.01* = ( par groupe ) Puissance Nombre de Patients par Groupe

20 Application : Taille des échantillons Comparaison de 2 fréquences (groupes indépendants) n P (1 P ) + P (1 P ) P (1 P ) + P (1 P ) = ( + ) = K A A B B z z 2 A A B B 1 α 1 β ( PA PB )² ( PA PB )² Test bilatéral Test unilatéral Alpha Beta Z1 Z2 K Alpha Beta Z1 Z2 K (Formules approchées)

21 Exemple P A = 0.1, P B = 0.2 Risque de première espèce (α ): 5% Puissance (1-β ): 90% N = 10.51* 25 = 263 ( par groupe ) Puissance Effectif par Groupe

22 Puissance d un test et Taille d échantillon Comparaison de deux antihypertenseurs avec : : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% 1- β = 0.9 N1=N2=86 L étude a été réalisée sans calcul de puissance préalable sur 2 groupes de 30 sujets. Puissance = 1-β = 0.48!!! Ne pas confondre : Conditions d application du test et Puissance du test

23 Traitement statistique des données

24 Méthodes Statistiques : définitions générales INDIVIDU : «Objet» sur lequel un ou plusieurs caractères peuvent être observés. POPULATION : Ensemble des individus pris en considération. VARIABLE : peut être qualitative (attribut) ou quantitative (numérique). DISCRETES (Nombre limité de valeurs) QUANTITATIVES CONTINUES (prend ses valeurs dans un intervalle VARIABLES BINAIRES ( Présent / Absent ) QUALITATIVES NOMINALES (SEXE, Couleur des Yeux, CSP, ) ORDINALES = SCORE (Notion d ordre)

25 Les méthodes statistiques Univariée (moyenne, DS, ) Descriptive Multivariée (ACP, ) La statistique Univariée (tests, ) Inférentielle Multivariée (modèles, )

26 La Statistique Descriptive BUTS : Contrôle de qualité des données, descriptifs simples (moyennes, ). Synthétiser, résumer, structurer l'information contenue dans les données. Mettre en évidence des propriétés de l'échantillon. Suggérer des hypothèses. Analyses univariées : moyennes, histogramme, box-plot, fréquences, Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles. Principales méthodes multivariées: Méthodes de classification : déterminer des sous-groupes homogènes Méthodes factorielles : réduire le nombre de variables par construction d'axes synthétiques (ACP, AFC, ACM,...), mais aussi sous-groupes d individus 2 classes de méthodes souvent complémentaires Cours N 2

27 La Statistique Inférentielle Univariée BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire. Utilisation de tests statistiques se référant à des modèles probabilistes. EXEMPLES : Comparaison de moyennes (test T, Wilcoxon, ) ANOVA (+ + +!!!) / Modèle mixte Comparaison de fréquences (Khi², Fisher exact) Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)...

28 STATISTIQUE DESCRIPTIVE UNIVARIEE

29 Analyse descriptive univariée 3 Objectifs : Contrôle des données : Fréquences et Box-plots Calcul des statistiques descriptives : moyenne,. Présentation des résultats : Moyenne et Déviation standard ou Médiane et Quartiles Fréquence avec Intervalle de confiance

30 Paramètres statistiques de base Moyenne : x = 1 n n i= 1 x i Variance estimée: n 1 = n 1 s² x x i= 1 ( i ) 2 Déviation standard : racine carrée de la variance Min, Max, Médiane, Quartiles, Centiles

31 Le Box-Plot ( Boîte à Moustaches ) X max 0 1,5 (Q3-Q1) Q3 Médiane + II=Q3-Q1 0 : valeur comprise entre 1.5 et 3 interquartiles * : valeur supérieure à 3 interquartiles Q1 1,5 (Q3-Q1) X min

32 Représentations graphiques VARIABLES DISCRETES Femme 45% Homme 55% Homme Femme VARIABLES CONTINUES VARIABLES QUALITATIVES

33 Distribution d un paramètre (loi) Différentes formes observables D e n s i t y X Modélisation de la distribution : Hypothèse de loi

34 Tests de Normalité Hypothèses de normalité requise pour test T, ANOVA régression, Intervalles de confiance (valeurs normales) SHAPIRO-WILK ( N< 50 ) KOLMOGOROV-SMIRNOV ( N> 50 )

35 Présentation des résultats Toujours rappeler la population étudiée, les patients inclus ou exclus, Préciser les méthodes statistiques utilisées Faire des tableaux de synthèse Utiliser des graphiques Existence de recommandations ( ) Suivre scrupuleusement les guidelines si article scientifique!!!

36 Présentation des résultats Utilisation de la moyenne si distribution symétrique, de la médiane si distribution asymétrique médiane moyenne Pas de moyenne sans déviation standard Pas de médiane sans quartiles Pas de fréquence sans Intervalle de confiance

37 Intervalles de confiance à 95% d un paramètre numérique : si X suit une loi normale x ± 1.96 DS d une moyenne : quelque soit la loi de X, si n > 30 x ± 1.96 n DS d une fréquence si np, nq > 10 p ± 1.96 p(1 - n p)

38 Normalité d un paramètre

39 La droite de Henry Normalité : très important car condition de nombreux tests Méthode graphique qui permet de vérifier la normalité d une distribution Soit X, une variable aléatoire N(m,σ²) φ : ]-,+ [ [0,1] x φ (x) = P(X<x) Exemple : p On définit la fonction réciproque : φ -1 : [0,1] ]-,+ [ p φ -1 (p) z p z

40 En pratique 1 Ri Soit (X1,..., Xn) un échantillon issu de X, R1,..., Rn les rangs associés, Yi = φ n + 1 Si X suit une loi normale, alors les points (Xi,Yi) sont alignés Cas particulier des diagrammes P-P R 2 = Droite de pente 1/σ coupant l axe des abscisses en m.

41 Le test de Shapiro-Wilk Test implémenté dans de nombreux logiciels et utilisé pour des petits échantillons Basé sur le calcul des différences symétriques : d1 = Xn - X1 d2 = Xn-1 - X dk = Xn-k+1 - Xk On obtient k=n/2 ou k=(n-1)/2 différences selon la parité de n Puis on calcule : b k n = aid, i S² = ( x ) 2 i x i= 1 i= 1 puis W = b² S ² Les a i sont des coefficients dépendants de i et n Utilisation d une table qui permet de conclure.

42 Exemple Xi di ai ai*di = = = = = = = k b = a d = i= 1 n i= 1 i i ( ) 2 S² = x x = i W = H0 : le paramètre suit une loi normale Lecture de la table : α = 0.05 n = 15 C(α,n) = W > C(α,n) On ne rejette pas H0

43 Comparaisons de groupes

44 Comparaisons de groupes Dépend du type de variable : Qualitatitives : Khi² ou Fisher Exact Quantitatives Comparaison Quantitatives 2 approches: Tests paramétriques : Student par exemple Paramétrique = on fait une hypothèse sur la loi du paramètre on compare des moyennes : interprétation facile Hypothèse forte : normalité!!! Tests non paramétriques : Basé sur des rangs On compare des distributions : interprétation délicate Mais pas d hypothèse de loi mais conditions d application

45 Comparaisons de fréquence : le test du Khi² EXEMPLE : On veut savoir s il existe une relation de cause à effet entre un pneumococque et le décès. On dispose d un échantillon se résumant ainsi : V (vivant) D (décés) Pneumocoque G Autre G N=417 La mortalité est-elle plus élevée chez les pneumocoques? Soit H0 : Les 2 caractères sont indépendants Calcul des effectifs théoriques Tij=( Li * Cj) / N (tous supérieurs à 5) 1 degré de liberté Calcul de D² = 8,11 on rejette l indépendance

46 χ² d Indépendance : généralisation On souhaite savoir si deux paramètres A et B sont indépendants On construit le tableau de contingence croisant A et B Sous l hypothèse d indépendance, Calcul de : D² p k = i= 1 j= 1 Degrés de liberté : ν = (k-1) * (p-1) A 1 A 2... A j... A k B 1 O O1k L1 B 2 O O2k L B i Oij Li B p Op Opk Lp C1 C2... Cj... Ck N ( Tij Oij) Tij Tij ² Cj * Li = N Attention à Tij < 5 Utilisation de la table pour déterminer une valeur limite z Conclusion du test : si D² > z alors rejet de H0, donc il existe une liaison entre les caractères A et B

47 Cas particuliers : Fisher exact Test pouvant remplacer le χ² dans le cas d effectifs théoriques inférieurs à 5. Basé sur la combinatoire Valide quelque soient les effectifs théoriques Valide quelque soit le nombre de lignes et de colonnes Attention, temps de calcul prohibitif si le nombre de cases du tableau est élevé

48 Cas particuliers : Khi² apparié 2 Modalités 3 Modalités a c b d a b c L1 d e f L2 g h i L3 χ ( b c) ² ² = si b+c 10 χ b + c Approximation par la loi normale χ² à 1 ddl ( b c ) 1 ² ² = si b+c <10 b + c Test exact χ ² = C1 C2 C3 f + h c + g b + d * 1 1 * 2 2 * b + d c + g b + d f + h c + g f + h 2* * + * + * ( C L ) + ( C L ) + ( C L ) χ² à 2 ddl Test de Mac Nemar FLEISS : Statistical methods for rates and proportions

49 Comparaisons de moyennes

50 Tests paramétriques Chaque fois que possible, utiliser des tests paramétriques car plus faciles à interpréter et utilisent l information totale (pas de perte d information) et donc a priori plus puissants. Attention : des conditions à vérifier : Normalité de la distribution (population totale ou par sous-groupe) L équilibre des groupes (même effectif dans chaque groupe) L égalité des variances (test de Fisher ou de Levene) En fonction de la compatibilité avec certaines de ces conditions, possibilité d utiliser un test paramétrique

51 Comparaison de 2 groupes X ~ N(m,σ)? OUI NON N1, N2 > 30? OUI Égalité des Variances? NON OUI Loi symétrique? NON OUI NON Test de Student Approximation de Satterthwaite Test de Student Wilcoxon (non-paramétrique)

52 Comparaison de k groupes Paramétrique : ANOVA (pas au programme) Non paramétrique : test de Kruskal-Wallis H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mêmes dans les k groupes Cas 1 : on ne rejette pas H0 Pas de différence STOP Cas 2 : on rejette H0 Où sont les différences? Post-hocs Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 à 2)

53 Le modèle linéaire Permet de modéliser de nombreux plans d expérience, simples ou complexes, en indépendant ou apparié, à un ou plusieurs facteurs. Hypothèse préalable de normalité sur «l erreur» (les résidus) En fait, comme tout modèle linéaire, validation a posteriori : Analyse des résidus Analyse des individus influents

54 Tests non-paramétriques

55 Définition - Impact Utilisé en général sur de petits échantillons (taille inférieure à 30 individus). Pas de statistiques en dessous de 8 par groupe Attention : les théorèmes statistiques (Th Central limite, par exemple) ne s appliquent plus Nécessité de disposer de tests spécifiques Interprétation plus compliquée : on ne compare pas des moyennes. Problème de l estimation : Dans les statistiques standard : moyenne, déviation standard Dans les modèles

56 Tests non-paramétriques «Distribution-free» tests : tests ne faisant aucune hypothèse a priori sur la distribution des variables analysées (pas d hypothèse de normalité). Généralement basés sur l analyse des rangs. soit (X1, X2,, Xn) n valeurs numériques d une même variable RANG(X i ) : Position de la valeur X i dans la série classée par ordre croissant Problèmes : On obtient une nouvelle variable Rx qui varie de 1 à n Attention aux ex-aequo (individus ayant la même valeur Xi) On «gomme» les différences Tests moins puissants

57 Le test de Wilcoxon ou Mann-Withney Utilisé pour comparer les distributions de 2 groupes indépendants H0 : F a (X) <> F b (X) (les fonctions de répartition sont différentes) On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe. On obtient une variable de décision qui suit une N(0,1) si au moins 8 individus dans chaque groupe X Si distribution identiques, alors mélange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts). Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes

58 Le test de Wilcoxon Soit n et m les effectifs des groupe 1 et 2, Wx la somme des rangs du groupe A (ou B) Sous H0 : «les distributions sont identiques», on peut calculer E(Wx) et V(Wx) E( Wx) = n( n + m + 1) 2 et V ( Wx) = nm( n + m + 1) 12 Si n et m > 8, alors Z = Wx E( Wx) V ( Wx) suit une loi N(0,1) (Formules valides sans ex-aequo)

59 Le test de Kruskal-Wallis Utilisé pour comparer les distributions de plus de 2 groupes indépendants H0 : les distributions (fonctions de répartition) sont égales Basé sur la différence de la moyenne des rangs dans chaque groupe à la moyenne des rangs sur la population globale Si Ni 5, on obtient une variable de décision H qui suit un χ² à k-1 ddl 2 1 R (N+1) = k H i - N 2 S i= 1 ni 4 (Formule sans ex-aequo) ( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )

60 Kruskal-Wallis : différences 2 à 2? Exemple : 3 groupes G1, G2 et G3 Test global significatif On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc!!! Attention : Nécessité d une correction du risque α 2 options possibles : Option 1 : Utiliser les procédures implémentées dans certains logiciels (SAS, SPSS, ) et qui permettent une correction : Procédure de Dwass-Steel Procédure de Conover-Inman Option 2 : on effectue 3 tests de Wilcoxon au risque α/3

61 La méthode de Conover On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo). On réalise une ANOVA «normale» sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey) Méthode simple mais pas forcément optimale (simulations) et qui a été critiquée (préservation du risque alpha et puissance) Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conover and Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp

62 Quelques exemples

63 Exemple 1 : comparaison de 2 groupes Comparaison du BMI dans 2 groupes N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Gr Gr Question 1 : le BMI suit-il une loi normale dans cet échantillon? Test de Shapiro-Wilk : W=0.978 et p = On ne rejette pas H0 Le BMI suit une loi normale!

64 Exemple 1 : comparaison de 2 groupes Utilisation d un test paramétrique : le test de Student Égalité des Variances? Test de Fisher (ou Levene) F=1.56, p= Cas 1 : Variances égales Cas 2 : Variances inégales Test de Student sur variances poolées Test de Student avec corr Satterthwaite T = DF = 20 p < T = DF = p <

65 Exemple 1 : comparaison de 2 groupes Si le BMI n avait pas suivi une loi normale, alors utilisation du test de Wilcoxon. Somme des Rangs du Groupe 1 : 85.5 Somme des Rangs du Groupe 2 : Z = p = Les distributions du BMI sont statistiquement différentes dans les 2 groupes.

66 Exemple 2 : le test de Kruskal-Wallis 3 groupes de 10 individus Réponse cotée de 0 à 20 N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 Somme Ri Gr Gr Gr Test de KW : Khi² = DDL = 2 P <

67 Kruskal-Wallis : différences 2 à 2? 2 options possibles : Option 1 : correction disponible dans le logiciel On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc!!! Attention à la correction du risque α!! Option 2 : on effectue 3 tests de Wilcoxon au risque α/3 G1-G2 : p= G2-G3 : p= G1-G3 : p= < G1#G2, G1#G3 et G2#G3

68 Méthode de Conover On transforme la variable en rang On réalise l ANOVA sur les rangs Si rejet de H0, comparaisons post-hoc Test global : p < Tests post-hocs significatifs Mêmes conclusions qu avec le test de Kruskal-Wallis

69 Exemple 2 : Modèle linéaire Et si la loi était normale??? Test de Shapiro-Wilk p=0.3541! La distribution suit une loi normale Utilisation du modèle linéaire Test de l effet global Vérification de l influence et des résidus Si modèle OK et effet global significatif, alors calcul des tests post-hoc

70 Exemple 2 : Modèle linéaire Résidus aléatoires et normalement distribués Residual Obs Number 2 individus ayant une Distance de Cook (influence) supérieure à 4/n mais inférieure à 1. Vérification du modèle sans les 2 individus Cook's D Obs Number Modèle paramétrique parfaitement valide!!!

71 1 groupe Mesures répétées

72 2 mesures Problématique : même paramètre X mesuré 2 fois sur le même individu : Mesure Avant / Après traitement par exemple. Plusieurs méthodes possibles Cas 1 : X suit une loi normale Test paramétrique Test T apparié Cas 2 : X ne suit pas une loi normale Tests non paramétriques Test des signes Wilcoxon apparié

73 Test de Student pour données appariés On suppose que le paramètre X suit une loi normale, X mesuré 2 fois : X1 et X2 H0 : m1=m2 On calcule, pour chaque individu, la différence d, puis la moyenne et la déviation standard de la différence. alors t = d σ d n suit une loi de Student à n-1 ddl

74 Le test des signes On dispose de n différences Soit K le nombre de différences positives (ou négatives) Sous H0 : m1=m2, il y a une chance sur 2 qu une différence soit positive On peut établir la loi de K qui suit une loi binomiale K ~ B(n,1/2)

75 Le test de Wilcoxon pour données appariées On dispose de n différences en valeur absolue On ordonne par ordre croissant et on calcule les rangs Soit Wx la somme des rangs des différences positives Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx) E( Wx) = n( n + 1) 4 et V ( Wx) = n( n + 1)(2n + 1) 24 Si n > 10, alors Z = Wx E( Wx) V ( Wx) suit une loi N(0,1) (Formules valides sans ex-aequo)

76 Exemple 10 vins notés par 2 experts Num X1 X2 D Ri Moyenne Différence de notation? 1) Normalité? OUI : D suit une loi normale 2) Utilisation du T apparié m d =9 t=3.60 σ d =7.90 ddl=9 n=10 p= Très significatif!

77 Exemple Si la loi n avait pas été normale, utilisation de tests non paramétriques 1) Test des signes : K=2 différences négatives - K suit une B(10,1/2) p 2 k 10 C10 ( 0.5) en unilatéral, en bilatéral NS!! k = 0 = = 2) Wilcoxon apparié : Wx=50.5 (sommes des rangs des diff >0) n( n + 1) E( Wx) = = n( n + 1)(2n + 1) 10*11* 21 V ( Wx) = = = Wx E( Wx) Z = = = p=0.019 V ( Wx) 96.25?

78 3 mesures ou plus Problématique : même paramètre X mesuré k fois sur le même individu : Test de plusieurs traitements / Mesures répétées dans le temps. Plusieurs méthodes possibles Cas 1 : X suit une loi normale Paramétrique Modèle linéaire Cas 2 : X ne suit pas une loi normale Test non paramétriques Test de Friedman

79 Le test de Friedman Un échantillon de n individus, k mesures répétées On calcule le rang de chaque variable pour chaque individu Test basé sur la dispersion des rangs moyens de chaque mesure Q k 2 n k + Ri + i = k( k 1) = 2 (Formule valide sans ex-aequo) Q suit une loi de Khi² à k-1 ddl

80 Exemple 10 souris Hormone mesurée à M0, M6, M12 Obs X1 X2 X Rangs Obs R1 R2 R Q=16.8 Suit un Khi² à 2 ddl p= Très significatif!! Problème des tests post-hocs : pas simple!!! Alternative : Wilcoxon appariés 2 à 2 avec correction du risque α

81 Associations entre paramètres

82 Le coefficient de Corrélation : Introduction Utilisé pour étudier la liaison (ou l indépendance) entre 2 paramètres numériques. EXEMPLES : Rapport entre la taille et le poids Rapport entre un prix de vente et une superficie Interaction entre des paramètres biologiques etc... On considère donc un couple de variables (X,Y) N couples (Xi,Yi), réalisations du couple de variables aléatoires (X,Y)

83 Le coefficient théorique Soit (X,Y) un couple de variables aléatoires Le coefficient de corrélation linéaire entre X et Y est défini par : COV(X,Y) E(XY)-E(X)E(Y) ρ = = σ σ σ σ X Y X Y REMARQUES : ρ est toujours compris entre -1 et 1 Si X et Y sont indépendantes, alors E(XY)=E(X)E(Y) et donc ρ = 0 S il existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors ρ = 1

84 Le coefficient observé On dispose d un échantillon de taille N (N>30) (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) On définit le coefficient de corrélation de BRAVAIS-PEARSON par : 1 n (xi-x)(yi-y) n 1 n n r = et 2 avec S x = (xi-x) S (yi-y) SxSy n y = 1 n 1 De même que pour le coefficient théorique : r est compris entre -1 et 1 r = 0 : pas de liaison r proche de 1 : liaison fonctionnelle ATTENTION : absence de liaison n est pas équivalent à indépendance

85 Du bon usage de r!!! r mesure le caractère LINEAIRE d une liaison Usage réservé à des nuages de points où les points sont répartis de part et d autre d une tendance R est très sensible aux individus extrêmes. Attention aux valeurs aberrantes. Utilité de la représentation graphique.

86 Le coefficient de corrélation de Spearman Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn), (R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associés. Le coefficient de corrélation de Spearman calculé entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est égal au coefficient de corrélation de Pearson calculé entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn). Utilisé en non paramétrique si N<30

87 Exemple 2 paramètres numériques mesurés chez 10 patients Y X Mesure de l association : calcul du coefficient de Spearman R=0.973 p<0.0001

88 Des questions??? Alain Duhamel Pôle de Santé Publique - Patrick Devos Délégation à la Recherche - Julia Salleron Pôle de Santé Publique Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire) Contact : Mme Brigitte Bonneau Pôle de Santé Publique

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Décrire les données. Chapitre 2

Décrire les données. Chapitre 2 Chapitre 2 Décrire les données La description des données est une étape importante de la démarche d analyse. Beaucoup d enquêtes se limitent à cette étape, qui donne un premier niveau de lecture des résultats

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse Table des matières 1 Préambule 1 1.1 Démarche statistique...................................

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Points méthodologiques Adapter les méthodes statistiques aux Big Data

Points méthodologiques Adapter les méthodes statistiques aux Big Data Points méthodologiques Adapter les méthodes statistiques aux Big Data I. Répétition de tests et inflation du risque alpha II. Significativité ou taille de l effet? 2012-12-03 Biomédecine quantitative 36

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

JEAN-MARIE GOGUE STATISTIQUE PRATIQUE ASSOCIATION FRANÇAISE EDWARDS DEMING

JEAN-MARIE GOGUE STATISTIQUE PRATIQUE ASSOCIATION FRANÇAISE EDWARDS DEMING JEANMARIE GOGUE STATISTIQUE PRATIQUE ASSOCIATION FRANÇAISE EDWARDS DEMING JeanMarie Gogue 004 Table des matières Introduction 5. Les processus Voir un processus à travers un schéma Deux types de données

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2013-2014.

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2013-2014. Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2013-2014. Thèmes des séances de TD Thème n.1: Tableaux statistiques et représentations graphiques. Thème

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques

Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques Fiche TD avec le logiciel : a2-1-c Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques Sylvain Mousset Rappels de probabilités / statistiques Table des matières 1 Probabilités

Plus en détail

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011 Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Lois de probabilité à densité Loi normale

Lois de probabilité à densité Loi normale DERNIÈRE IMPRESSIN LE 31 mars 2015 à 14:11 Lois de probabilité à densité Loi normale Table des matières 1 Lois à densité 2 1.1 Introduction................................ 2 1.2 Densité de probabilité

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Cours STAT 2150. "Statistique non paramétrique: Méthodes de lissage"

Cours STAT 2150. Statistique non paramétrique: Méthodes de lissage Cours STAT 2150 "Statistique non paramétrique: Méthodes de lissage" Année académique 2008-2009 Séance 1 1 Table de matière du cours 1. Introduction (Fonction de répartition, histogramme, propriétés d un

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Résumé du Cours de Statistique Descriptive. Yves Tillé

Résumé du Cours de Statistique Descriptive. Yves Tillé Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Devoir Surveillé n 5 BTS 2009 groupement B

Devoir Surveillé n 5 BTS 2009 groupement B EXERCICE 1 (12 points) Devoir Surveillé n 5 BTS 2009 groupement B Les trois parties de cet exercice peuvent être traitées de façon indépendante. A. Résolution d une équation différentielle On considère

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES J. sci. pharm. biol., Vol.9, n - 00, pp. 9-0 EDUCI 00 9 VALLEE POLNEAU S.* DIAINE C. COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES Notre étude visait à comparer les résultats obtenus

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Cours MAT-4152-1. Collectes de données en contexte général. Mathématique

Cours MAT-4152-1. Collectes de données en contexte général. Mathématique Cours MAT-4152-1 Collectes de données en contexte général Mathématique MAT-4152-1 Collecte de données en contexte général PRÉSENTATION DU COURS Le but du cours Collecte de données en contexte général

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde.

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde. Simuler des expériences aléatoires avec une calculatrice Niveau Seconde. Situation étudiée Différentes selon les séances : Séance 1 : Jeu de pile ou face, tirages de boule dans une urne avec des proportions

Plus en détail

Classe de Terminale S

Classe de Terminale S Classe de Terminale S Programme BO HS n 4 du 30 août 001 II.3 Probabilités et statistique Après avoir introduit en classe de seconde la nature du questionnement statistique à partir de travaux sur la fluctuation

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail