Master 2 IEAPS STATISTIQUES METHODES QUANTITATIVES Didier Delignières

Dimension: px
Commencer à balayer dès la page:

Download "Master 2 IEAPS STATISTIQUES METHODES QUANTITATIVES Didier Delignières"

Transcription

1 Master IEAPS STATISTIQUES METHODES QUANTITATIVES Didier Delignières Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à établir les responsabilités.. La mesure. Puisque les statistiques servent à traiter des données numériques, se pose dans un premier temps le problème du recueil de ces données, c'est-à-dire le problème de la mesure... Mesure, échantillon, population. Une échantillon est un ensemble de données (et non un ensemble d'individus). Un échantillon est supposé représentatif d'une population parente de données. Il faut noter que la population parente n'est pas une population démographique: c'est l'ensemble des mesures possibles, compte-tenu de l'ensemble des variables incontrôlables. La population parente est donc toujours infinie. Une donnée est une information de nature numérique. La mesure va consister à relever des données numériques constituant l'échantillon. Stevens (98/9) a proposé une théorie désormais classique de la mesure. S'insurgeant contre l'idée ancienne que mesurer, c'est compter, il estime que le système numérique est un modèle comprenant plusieurs sortes, ou plutôt plusieurs niveaux de règles. La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en suivant une règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes sortes de mesure. La mesure sera possible quand il y aura isomorphisme entre les relations empiriques des objets et les relations formelles des nombres. A cette condition, les secondes servent de modèle pour les premières... Les niveaux de mesure Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles les nombres peuvent servir de modèles. Chacune de ces échelles se caractérise, au

2 niveau mathématique, par le type de transformation que l'on peut opérer sur l'ensemble de l'échelle sans en modifier la nature.... Echelles nominales L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules opérations empiriques possibles sont les relations d'égalité et d'inégalité entre les objets. La Classification Périodique des Eléments est une échelle de mesure de ce niveau (échelle nominale). Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se passe par exemple lorsque l'on modifie un codage (passer de homme=m et femme =F à homme = et femme=). L'analyse statistique va principalement porter sur les données de numération: à chaque classe déterminée par l'échelle nominale est affecté un effectif. Les données de numération sont toujours des entiers. Les données de numération peuvent être présentées sous forme de tableaux de contingence. A B C Total Effectifs x y z x+y+z Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise alors l'effectif d'une classe par le nombre total d'observations. La somme des fréquences est alors égale à. En multipliant une fréquence par 00, on obtient un pourcentage. L'intérêt des fréquences est de pouvoir faire des comparaisons entre distributions portant sur des effectifs totaux différents.... Echelles ordinales L'ordre: les nombres représentent les objets selon leur rang. Les opérations de détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des minéraux est un exemple de ce type de mesure (échelle ordinale). Les échelles ordinales supportent toute transformation monotone croissante. Ce type de fonction respecte l'ordre de données et les propriétés de l'échelle sont conservées. Les données relevées sont appelées données de rang. On peut noter que les rangs statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même en cas d'ex-aecquo. Par exemple: rang attribué rang statistique

3 A B. C. D

4 Exercice: attribuer les rangs Nbre de fautes Effectifs 0 0 Rangs Echelles d'intervalles Les intervalles: les nombres peuvent servir à représenter les différences ou les distances entre les éléments. On obtient des échelles de classement à intervalles égaux. Les opérations de détermination de l'égalité des intervalles et des différences sont possibles. les échelles de température Celsius et Fahrenheit sont de ce niveau. Les échelles d'intervalles supportent toute transformation affine de type y=ax + b. Ces transformations conservent la proportionnalité des intervalles et des différences. C'est une opération de ce type qui est réalisée lorsque l'on convertit des degrés Fahrenheit et degrés Celsius.... Echelles de rapport C =(F - ) x (/9) Les rapports: les nombres peuvent servir à représenter les rapports entre éléments. La détermination de l'égalité des rapports est possible. Ces échelles se distinguent des précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle Kelvin de température est une échelle de rapport. Les échelles de rapport ne supportent qu'une multiplication par une constante (y=ax). Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de l'échelle demeure donc invariante, et la proportionnalité des rapports est maintenue. C'est ce type de transformation qui est utilisé par exemple pour convertir une mesure des miles aux kilomètres: mile=. x km On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les transformations permises sont précises. Et la transformation permise à un niveau donnée est toujours un cas particulier de la fonction permise au niveau inférieur. Les échelles d'intervalles et de rapport procurent des données dites de scores. Les données de scores peuvent être représentées de diverses manières: - le tableau des effectifs (quels effectifs pour chaque niveau de mesure).

5 - le tableau des groupement en classes d'intervalles égaux - le tableau des proportions - le tableau des fréquences Classe Valeur centrale Effectif Fréquence Pourcentage x n -x n' X=(x n -x n' )/ n n/n (n*00)/n - histogramme (effectif) - courbe de fréquence Exercice: Score Effectif Fréquence Pourcentage Statistiques descriptives. Un premier objectif des statistiques est de décrire au mieux les échantillons, c'est-à-dire de les synthétiser au travers d'indices descriptifs, appelés également résumés statistiques. Ces résumés visent avant tout à donner des renseignements sur la tendance centrale et sur la dispersion de la distribution... Tendance centrale.... Moyenne. La valeur centrale qui résume au mieux une distribution de données de scores est la moyenne arithmétique: x m = N nulle: La moyenne a une propriété fondamentale: la somme des écarts à la moyenne est

6 Σ (x-m)=0 Les échelles de rapports permettent également le calcul de la moyenne géométrique, définie comme la racine nième du produit des n valeurs, ces dernières étant toutes strictement positives, et de la moyenne harmonique, définie comme l'inverse de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes strictement positives. Ces moyennes sont souvent préférée à la moyenne arithmétique, notamment en psychophysique. Exercice: Score 7 8 Effectif Totaux partiels Effectifs cumulés m= Σ(x)/N= 9/9 = Médiane. Le concept de moyenne n'a de sens que pour les données de scores, c'est-à-dire pour les échelles d'intervalles et de rapport. La tendance centrale d'une distribution de variables ordinales est représenté par la médiane. La médiane est définie comme la valeur de la variable telle que 0% des observations lui soient inférieure et 0% lui soient supérieure. Lorsque ne nombre total d'observation est impair, le définition de la médiane ne pose pas de problème: le rang médian est égal à : k=(n+)/ Dans le cas d'effectifs pair, on prend en général pour convention "d'arrondir" k au premier entier supérieur au quotient obtenu. Il est à noter que la médiane représente souvent non pas une donnée mais une classe de données ayant obtenu le même rang. Ceci peut poser problème quand par exemple on veut diviser un groupe par une coupure à la médiane (median split). Il faut alors décider à quelle demi-distribution appartiendra la classe médiane: on décide en général de réaliser l'affectation qui respectera au mieux la répartition théorique de 0-0. Notons enfin qu'il est tout à fait possible de calculer la médiane d'un échantillon de données de scores. Exercice:

7 k=(9+)/= 0/=0 La médiane est égale à... Mode. En ce qui concerne les échelles nominales, c'est-à-dire les données de numération, ni la moyenne ni la médiane ne sont accessibles. Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand (ou comme la valeur la plus fréquemment attribuée). Le mode n'a vraiment de sens que si une catégorie présente un effectif nettement supérieur aux autres. On peut noter enfin que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles. Exercice: Mode=.. Mesure de dispersion. Ces paramètres rendent compte de la façon dont se dispersent les données autour de la tendance centrale.... Variance et écart-type Plusieurs mesures de la dispersion sont envisageables: on peut par exemple mesurer l'intervalle de variation, c'est-à-dire la différence entre la plus grande et la plus petite mesure. Cet indice ne rend pas compte de la dispersion des notes autour de la moyenne. Une approche plus intéressante consiste à calculer la somme des carrés des écarts à la moyenne. Il est à rappeler que la somme des écarts à la moyenne est toujours nulle (les intervalles s'annulant de part et d'autre de la moyenne). On peut contourner le problème soit en prenant les valeurs absolues de écarts à la moyenne, soit en les élevant au carré. Cet indice ne peut cependant être utilisé que pour la comparaison d'échantillons de taille identique. Pour des échantillons de taille différentes, on a recours à la variance, qui est égale à la moyenne des carrés des écarts à la moyenne: On montre que: ( x m) v = N 7

8 Σ(x-m)² =Σ(x²-mx+m²) =Σx²-mΣx+Σm² =Σx²-(Σx/N)Σx+N(Σx/N)² =Σx²-(Σx)²/N+Σx²/N =Σx²-(Σx)²/N On a donc une expression plus simple de la variance: v = ( x) x N N Cette variance calculée sur un échantillon n'est évidemment qu'une estimation de la variance de la population parente. On montre qu'une meilleure estimation est obtenue par la formule suivante: v = ( x) x N N N- exprime le nombre de degrés de liberté de la variable: c'est-à-dire qu'il suffit que N- valeurs soient connues pour la détermination de la nième valeur. On note également que l'écart entre variance estimée et variance calculée est d'autant plus faible que N est grand. On utilise plus couramment l'écart-type, qui est égal à la racine carrée de la variance. σ = v L'écart-type a l'avantage d'être une mesure de distance (ou d'intervalle), alors que la variance est une mesure d'un intervalle au carré. Une grandeur donnée peut de ce fait être comparée à son écart-type, mais pas à sa variance. 8

9 x x-m (x-m)² x 7 Σx= N= m=/= Σ(x-m)²=.90 Σx = calcul : v=.909/0=.9 σ=. calcul v =(-(²/))/0 =(-(89/))/0 =(-8.09)/0 =.909/0 =.9 Exercice: Classe Valeur centrale x i Effectif n i 9 Σn i =0 (N) n i x i n i x i Σn i x i =0 (Σx) Σn i x i =900 (Σx ) 9

10 Moyenne = 7. Variance = (900-((0)²/0)/0 =.7 Ecart-type = 7. On peut noter à ce niveau que si l'on transforme une distribution d'intervalle par une transformation affine (y=ax + b), on a les relations suivantes: m= (a*m) + b σ=a*σ Les échelles de rapport permettent également le calcul du coefficient de variation, égal à l'écart-type divisé par la moyenne: ce coefficient permet de comparer la dispersion de deux distributions en s'affranchissant de l'unité de mesure, et même de la réalité mesurée (la taille est-elle plus dispersée que le poids?).... Autres mesures de dispersion. L'entropie est une mesure spécifique de la dispersion pour les échelles nominales. Elle est maximale lorsque les observations se répartissent de manière équilibrée sur toutes les catégories. Elle est minimale lorsque ces observations ne se répartissent que sur un nombre restreint de classes. La dispersion des distributions ordinales est appréciée par une série de valeurs jalonnant la distribution, appelées quantiles. Si l'on sépare la distribution en 0 intervalles, on parle de déciles. Dans ce cas 0% des observations figurent dans chacun des 0 intervalles. On utilise souvent les quartiles, divisant la distribution en quatre intervalles regroupant chacun % de l'effectif: on distingue alors le quartile inférieur (premier quartile), la médiane (second quartile) et le quartile supérieur (ou troisième quartile). Pratiquement, la position du quartile est donné par: (rang de la première donnée + rang de la médiane)/ et la position du Quartile : (rang de la médiane + rang de la dernière donnée)/. L'utilisation des quartiles, déciles et centiles est extrêmement répandue dans la standardisation des tests. Elle permet de situer rapidement un sujet au sein d'une population de référence (par exemple, une personne qui pèse 70kg et mesure m80 estelle plus lourde que grande ou plus grande que lourde?). 0

11

12 Exercice: Calcul des quartiles et déciles. Scores brutes Scores classés Rangs N= Moyenne= 88/=. Rang médiane= (+)/= Médiane= 9 Rang Quartile = (+)/=. Quartile = Rang Quartile = (+)/=8. Quartile = 78. Distribution des échantillons. On appelle distribution la répartition des effectifs sur chacun des niveaux de la mesure. Dans le cas des données de scores, on répartit les effectifs sur des intervalles de mesures. On représente graphiquement les distributions par des courbes de fréquences. Ces distributions peuvent être symétriques, modérément dissymétriques, biaisées à gauche ou à droite, en J ou en I, ou bimodales. Couramment, les statisticiens modélisent leurs distributions en fonctions binomiales ou normales. Le modèle binomial et le modèle normal renvoient à peu près à la même réalité (distributions symétriques autour de la moyenne). Néanmoins le modèle binomial renvoie à des variations discrètes et la modèle normal à des variations continues. Ces modèles sont intéressants dans le sens où ces distributions possèdent des propriétés mathématiques puissantes qui sous-tendent les tests statistiques... La distribution binomiale Une variable se répartit selon une distribution binomiale en n+ classes si les fréquences des n+ valeurs de la variable sont données par les termes successifs du développement de (p+q) n, avec p+q=.

13 Par exemple, on tire dans une urne contenant un grand nombre de boules noire ou blanche, dans les proportions p et q, respectivement. Le nombre de boules noires peut prendre n+ valeurs: 0,,,..., n. Les différentes probabilités d'apparition de ces valeurs suit une loi binomiale. La distribution binomiale est symétrique si p=q=/, et se rapproche de la symétrie si n devient grand. La moyenne de la distribution est et la variance de la distribution m=n*q v=n*p*q.. La distribution normale La distribution normale est symétrique, et centrée sur sa moyenne. Elle présente deux points d'inflexion I et I', symétriques (points où la tangente traverse la courbe). Ces points d'inflexion sont situés à un écart-type de la moyenne I=m+σ et I'=m-σ L'équation de la courbe représentative est de la forme suivante: f( x) = e σ π ( x m) σ Une distribution normale est entièrement définie par sa moyenne et son écarttype. On dit qu'une variable est normale si elle se distribue de telle sorte que les fréquences d'apparition des différents scores possibles suivent une loi normale. On dit que la courbe des fréquences de la variable est une courbe normale ou courbe de Gauss. Une telle courbe apparaît en traduction de l'influence d'un facteur principal, associé à d'autres facteurs non contrôlés, aléatoires (centrage sur le facteur principal, écart symétrique dus aux facteurs aléatoires.... Les tests de normalité. Plusieurs tests de normalité sont disponibles. Une première solution consiste à examiner les coefficients de skewness et de Kurtosis. Le coefficient de skewness est un indice d'asymétrie.

14 g m = avec m / m x m = ( ) et m n x m = ( ) n Si la distribution est normale, g=0 Le coefficient de Kurtosis est un indice d'aplatissement. g m = avec m m x m = ( ) n On doit obtenir g=0 si la distribution est normale. En cas de doute, on peut utiliser le test de Kolmogorov-Smirnov. Ce test est basé sur la comparaison des fréquences cumulées observées aux fréquences cumulées théoriques, calculées à partir de la table de la loi normale. - On commence par ordonner les données - On calcule les fréquences correspondant à chaque niveau de score - On calcule les fréquences cumulées correspondant à chaque niveau de score - On calcule les scores z correspondant à chaque niveau de score - On calcule pour chaque niveau de score les fréquences théoriques, à partir de la table de la loi normale (il faut tenir compte du fait que la table donne les fréquences des événements extérieurs à (-z,z). - On calcule les différences entre fréquence observée et théorique, pour chaque niveau de score. Score Effectifs Fréquence Fréquence cumulée z Fréquence cumulée théorique Différence m=.8 σ=. Le test porte sur la différence absolue maximale entre fréquence théorique et observée (ici.0). La table de Kolmogorov-Smirnov donne la différence maximale

15 théorique acceptable, en fonction de l'effectif de l'échantillon. Ces valeurs sont données directement pour les effectifs inférieurs à, et doivent être calculés au-delà. Ici pour N=0, on a Dth=.0 pour p=.0. On peut admettre l'hypothèse nulle et considérer la distribution comme normale. Exercice Score Effectifs Fréquence Fréquence cumulée z Fréquence cumulée théorique Différence m=. σ=. N= Dmax=0.0. à p=.0, Dth=.7. On peut donc refuser l'hypothèse nulle et affirmer que la distribution n'est pas normale... La loi normale réduite Si l'on transforme une distribution en retranchant la moyenne et en divisant par l'écart-type, on obtiendra une nouvelle distribution, de moyenne 0 et d'écart-type : c'est une distribution centrée réduite. z=(x-m)/σ Une telle transformation permet par exemple de comparer des distributions en s'affranchissant des unités de mesure. Exercice: m=0 σ= x z La loi normale réduite a des propriétés très importantes. On a étudié sa distribution, et notamment on a établi les correspondances entre les abscisses (les différentes valeurs de z) et les aires délimitées par ces abscisses.

16 La table fait correspondre à chaque valeur de z l'aire extérieure à la bande de plan située entre z et -z. Exemples: - z=.0 la table indique p=. Ceci signifie que.% de la distribution des z est située en dehors de l'intervalle (-.;.). Ou encore que 00-.=8.% de la distribution sont situés entre -. et.. Ou encore que (8.)/=.% de la distribution des z est situé entre 0 et.. La table peut être utilisée à l'inverse: Quelle est la valeur z pour que 0% de la distribution soit supérieure à z, ou inférieure à -z. Pour p=.0, la table indique z=.. La table normale réduite est à la base de la plupart des procédures statistiques. Quelques applications.. Français moyenne écart-type 7 Maths Moyenne 8 écart-type a. Un élève obtient en Français et 7 en maths. Sa performance relative estelle meilleure en français ou en maths? z fr =z math = Les performances sont équivalentes. b. Un élève obtient en français. Quelle note devrait-il obtenir en math pour une performance équivalente? z fr =(-)/7=-. si z math =-. x math =(-.*) + 8=.. Soit une distribution normale, m=7, σ=8 Quel pourcentage de notes sont situé entre x=7 et x=8. - Transformation en notes z z=- z= - table de la loi réduite:

17 z= p=.7 Si p' est la proportion de notes entre x et x, p'= -p =.8 8.% des notes sont situées entre 7 et 8.. Quel est le pourcentage de notes entre x= m+σ et x= m-σ? z=- z= p=.0 p'=.9 9.% des mesures sont situées entre x et x. Si l'on tire une note au hasard, il y a 9.% de chances qu'elle soit située entre x et x.. Quel est le pourcentage de notes entre x= m+σ et x= m-σ? 99.7%. Quelques valeurs remarquables de z: % p' z Limites de confiance de la moyenne d'un échantillon Un échantillon est toujours considéré comme extrait d'une population parente. Il n'en est pas l'image parfaite. Il existe une erreur due à l'échantillonnage. Tous les paramètres calculés (i.e. moyenne, écart-type) ne sont que des estimations de ceux de la population parente. Quelle confiance accorder à la valeur d'un paramètre calculé sur un échantillon?... Population parente à paramètres connus Soit une population parente de moyenne M=9. et σ=.. De cette population on extrait au hasard des échantillons de taille N. Les différentes moyennes obtenues 7

18 constituent un échantillon de moyenne, d'une population parente des échantillons de mesures, de moyenne m=m, et d'écart-type E. E est appelé erreur-type. On montre que E = σ N 8

19 E est d'autant plus réduit que N est élevé: N E Soit une population parente de moyenne M=0 et σ=. On extrait un échantillon d'effectif N=. Entre quelles limites a-t-on 90% chances de trouver la moyenne de l'échantillon? Il faut calculer les limites L et L de l'intervalle sur la distribution des moyennes. E=/ =/=. L= M-(.*E)=.87 L= M+(.*E)=. On a 90% de chances pour que la moyenne de l'échantillon se situe entre ces deux limites. Ou encore, j'ai 0% de chances de me tromper en disant que la moyenne se situe entre L et L. Exercice:. Soit une population parente de moyenne M=0 et σ=. On extrait un échantillon d'effectif N=. Entre quelles limites a-t-on 9% chances de trouver la moyenne de l'échantillon? Il faut calculer les limites L et L de l'intervalle sur la distribution des moyennes. E=/ =/=. L= M-(.9*E)=.0 L= M+(.9*E)=.90 On a 9% de chances pour que la moyenne de l'échantillon se situe entre ces deux limites. Ou encore, j'ai % de chances de me tromper en disant que la moyenne se situe entre L et L.. Au seuil p=.0, L=.0 et L=.0 9

20 . M=00 σ=0 N=0 7% p=. z=. L=9.8 L=0. E=0/.7=.7. M=00 σ=0 a. Quel effectif donner à l'échantillon pour avoir 9% de chance que la moyenne soit situé à +/- de la moyenne? L=9 L=0 z=.9 L=M-z(σ/ N) donc N=[(z*σ)/(M-L)] N=[(.9*0)/()] = (7.8) =. N= b. si p=.0 N=0... Population parente à paramètres inconnus On ne connaît que les paramètres de l'échantillon. Quelle confiance accorder à cette estimation? Les limites de confiance de la moyenne de l'échantillon sont L=m-t(σ/ N) et L=m+t(σ/ N) t est le t de Student, donné par une table spécifique. t dépend du seuil de probabilité choisi, et du nombre de degrés de liberté de l'échantillon ddl=n- Exemples: N= P=.0 t=.0 N=0 P=.0 t=.7 Exercice:. Echantillon de notes:

21 Au seuil.0, quelles sont les limites de confiance de la moyenne obtenue? N= m=.=. σ=. t=.07 L=0.8 L=. Au seuil.0, L=0. et L=.. Dans une épreuve, on fait l'hypothèse que la moyenne sera. On obtient une moyenne de. pour un écart-type de. ( N=9). L'hypothèse est-elle invalidée? Première méthode: ddl=8 t=.0 L=. -.0(/ 9) =.7 L=.0 Au seuil p=.0, l'hypothèse est invalidée. La différence entre la moyenne attendue et la moyenne obtenue est trop grande pour n'être expliquée que par le hasard. Seconde méthode, plus rapide: m A On calcule t tcalc = σ =.7 N On compare ensuite t calc et t lu, pour savoir si la différence est significative au seuil choisi. Si t calc > t lu, la différence est significative. Par contre, au seuil.0, on ne peut pas dire que cette différence est significative (t lu =.7) On peut noter qu'un test statistique met toujours à l'épreuve une hypothèse nulle, ou hypothèse de différence nulle H 0 : la différence constatée n'est pas significative.. Comparaison de moyennes. Les principes précédent sont principalement utilisés pour la comparaison des moyennes de deux ou plusieurs échantillons... Echantillons appariés

22 Lorsque les deux échantillons sont appariés (mesures répétées), on calcule pour chaque paire x x la différences d, puis m d la moyenne des différences. Si l'hypothèse nulle est vraie, cette moyenne devrait être égale à 0. le problème se ramène donc à la comparaison d'une moyenne obtenue et d'une moyenne attendue. On calcule t selon la formule précédente, avec A=0 Md t = df=n- σ Exemple: d N x x d A B C D E F G H H 0 : m et m sont les estimations d'une même moyenne. m=. et m= m d =/8=.7 σ d =. t calc =.0 au seuil p=.0, ddl=7, t lu =. t calc <t lu, H 0 est acceptée On n'apporte pas la preuve que des progrès ont été réalisés

23 Exercice: x x d A B C D E F G H I J m=. m= 0.8 M d =. N=0 σ d =. t calc =.098 ddl=9 tlu=. H 0 est rejetée. On peut affirmer qu'il y a un progrès lié à l'enseignement... Echantillons indépendants Le problème est de comparer les moyennes de deux échantillons indépendants (ils peuvent avoir des effectifs différents). L'hypothèse est que les deux moyennes sont égales, donc que la différence entre m et m est voisine de zéro. Il serait possible de calculer les intervalles de confiance de chaque moyenne, et de voir si les deux intervalles ont une intersection non nulle. On calcule en fait une statistique t, selon les principes précédents. Il est cependant nécessaire de calculer une estimation de la variance de la distribution des différences (m-m). On montre que la meilleure estimation de cette variance intragroupe est égale à: V ε = v( n ) + v ( n ) n + n Puis on calcule la quantité t m m t = dll=(n +n )- V ( ε + ) n n

24 Ces statistiques t doivent être comprises comme le rapport entre la variance véritable (ou la différence véritable entre les moyennes) et la variance d'erreur (c'est-àdire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les groupes, alors la variance véritable et la variance d'erreur sont équivalentes. le rapport sera alors égal à. Lorsque t est significatif, on en conclut que la variance véritable est supérieure à la variance d'erreur. Exemple:. m=, σ= m=, σ= Vε=[²(0-)+²(-)]/(0-)+(-)=. t=(-)/ (.(/0)+(/))=.8 dll=0+-= On prend sur la table le ddl immédiatement inférieur (0) à p=.0, t=.0 tcalc>tlu l'hypothèse nulle est rejetée. Il y a donc une différence significative entre les deux groupes.. groupe :, 0,,,, 0,, 8,, 7,, 7 groupe :,,, 8, 9,,,,, 0 m=. m=. n= n=0 v=.7 v=.9 Vε=90. t=.79 tlu=.09 tcalc<tlu l'hypothèse nulle est acceptée. On n'apporte pas la preuve d'un comportement différent entre les deux groupes... Analyse de variance

25 ... Analyse de variance à un facteur Le test de Student ne peut comparer que deux groupes. Lorsque l'on a plus de deux groupes expérimentaux, il est nécessaire d'utiliser l'analyse de variance, ou ANOVA. L'analyse de variance va comme le test de Student porter sur un rapport entre la variance véritable (c'est-à-dire liée à un facteur expérimental) et la variance liée à l'erreur expérimentale. Mais la comparaison ne portera pas sur deux échantillons, mais sur l'ensemble des échantillons affectés par le facteur. Le cas le plus simple est l'analyse de variance à un facteur: il s'agit en fait de comparer plusieurs échantillons indépendants. L'usage de tests de Student répétés est inapproprié. Deux conditions doivent être réunies: - les distributions doivent être normales. - les variances doivent être homogènes. L'hypothèse nulle est que les moyennes m, m,..,mn, ne diffèrent pas dans leur ensemble. Principe de solution: La variance totale dépend de deux sources de variation: - La variance intra-groupe (c'est-à-dire la variance de la variable, à l'intérieur de chaque groupe, autour des moyennes de groupe). - La variance inter-groupe, qui mesure la dispersion des moyennes La statistique F de Snedecor est le rapport entre la variance inter-groupe et la variance intra-groupe. F est d'autant plus petit que la variance intergroupe est faible et la variance intra-groupe élevée. Dans ce cas, le moyennes sont proches et les distributions tendent à se chevaucher. Inversement, il est d'autant plus grand que la variance inter-groupe est forte et la variance intra-groupe faible. Dans ce cas les moyennes sont nettement séparées et les distributions, peu étalées, ne se chevauchent pas. Le théorème fondamental de l'analyse de variance énonce l'additivité des sommes de carré: SC totale= SC inter + SC intra SC Totale= ij (x ij -m)² m représentant la moyenne totale

26 SC inter= n i (m i -m)² n i représentant l'effectif du groupe i et m i la moyenne du groupe i. SC inter est donc la somme des carrés des écarts des moyennes de groupe à la moyenne générale, pondérée par l'effectif de chaque groupe. SC Intra= ij (x ij -m i )² SC Intra est égale à la somme des sommes de carrés de chaque groupe. Par ailleurs, on a une additivité des degrés de liberté: ddl Total= ddl Inter + ddl Intra N-= (K-) + (N-K) K représentant le nombre de groupes et N l'effectif total. L'analyse de variance n'utilise pas de scores de variance, mais des grandeurs appelées carrés moyens (mean squares), définis comme le rapport entre les sommes de carrés et le nombre correspondant de degrés de liberté. Le carré moyen total est égal à: CM total=( ij (x ij -m)²)/n- On voit que CM total est égal à la variance de l'échantillon total des scores. On a vu précédemment une formule de calcul plus rapide, soit: CM total = N étant l'effectif cumulé des k groupes. Le carré moyen intra-groupe est égal à: La variance inter-groupe est égale à: ( x) x N N CM Intra= ( ij (x ij -m i )²)/(N-k) CM inter= (n i (m i -m)²)/(k-) Afin de comprendre le sens des carrés moyens inter et intra, on peut considérer le cas où l'effectif des K groupes est identique. Dans ce cas, le carré moyen intra-groupe

27 est égal à la moyenne des variances de chaque groupe. Par ailleurs le carré moyen intergroupe est égal au produit de l'effectif par la variance des moyennes de groupe. On dispose également de formules rapides pour le calcul des carrés moyens inter et intra. xi x ( ( ) ) ni CMintra= N K xi x ( ( ) ( ) ) ni N CMinter= k- La méthode "ABC" de calcul permet de simplifier l'analyse: On commence par calculer les trois grandeurs: A= x² B=(x)²/N C=[(x i )²/n i ]= (x )²/n +(x )²/n (x k )²/n k Le tableau d'anova est constitué de la manière suivante: Source Somme des ddl Carrés moyens F carrés (variance) Inter (réelle) C-B K- (C-B)/(K-) CMinter/CMintra Intra (erreur) A-C N-K (A-C)/(N-K) Total A-B N- Exemple: Groupes

28 Effectif (n i ) 7 N= x i 9 x= m i. M=. ( )² 7 Vt = 77. =. 9 ( ² + ² 9 + ² + ² ) ² Vinter = 7 =7.9/=.98 ² ² 9² ² 7 ( ) Vintra = 7 =9./8=. Fcalc=.98/.=.8 La table de F est lue en fonction du nombre de degré de liberté du numérateur (K-) et du dénominateur (N-K) Flu=. à p=.0 Fcalc<Flu L'hypothèse nulle est acceptée, on n'apporte pas la preuve d'une différence entre les moyennes. Remarque: la comparaison de deux groupes peut être réalisée indifféremment par le t de student et par l'analyse de variance. On remarque alors que F=t². Exemple: X X² X X² X X² Σx=0 m=0 Σx²= A=ΣX²=++0=879 Σx= m=7 Σx²= B=(Σx)²/N=(0++0)²/=0²/=0/=7 Σx=0 m= Σx²=0 8

29 C=[(x i )²/n i ]=0²/ + ²/ + 0²/ = 00/ + / + 00/=8 9

30 Source Somme des ddl Carrés moyens F carrés (variance) Inter (réelle) Intra (erreur). Total pour p=.0, F,=.88 L'hypothèse nulle est rejetée. Test post-hoc. L'analyse de variance ne permet que de déceler des différences d'ensemble dans les moyennes, mais pas de localiser avec précision les différences. Si le facteur comporte plusieurs niveaux, il est nécessaire de procéder à des tests post-hoc (Newmann-Keuls, Scheffé,...), pour localiser avec précision les différences. Les tests post-hoc ne peuvent être réalisés que si l'analyse de variance est significative. La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une somme pondérée de moyennes: C= c m + c m c k m k avec c i =0 et c i = (afin d'homogénéiser les coefficients) exemples:, -, 0, 0 pour comparer m avec m, 0, -, 0 pour comparer m avec m /, /, -/, -/ pour comparer m et m avec m et m Le contraste est jugé significatif si la valeur absolue de C est supérieure à ci S = ( k )( Fc)( CMint ra)( ) n k étant le nombre de niveaux de la V.I. Fc étant la valeur critique de F avec k- et n-k ddl, pour le seuil α déterminé. i 0

31 n i étant l'effectif du groupe du niveau i Exemple: VD CAT VD A=ΣX²=7 B=(Σx)²/N=7 /=8. C=[(x i )²/n i ]=0.8 C-B= A-C=.7 A-B=. Source Somme des ddl Carrés moyens F carrés (variance) CAT erreur p=.00 Moyennes= :.7 : : 8. Post-hoc.,-,0 C=-0. S=.9 0,,- C=-. S=.7,0,- C=-.9 S=.7 Matrice calculée par systat Sheffe

32 Mais: /,/,- C=-.79 S=.8... Analyse de variance à deux facteurs Lorsque l'on croise plusieurs facteurs, l'analyse de variance donne des renseignements d'une part sur les effets simples, mais également sur les effets d'interaction entre les facteurs. Le tableau ci-dessous expose le problème d'une ANOVA x (anova à deux facteur, comprenant respectivement et niveaux B B A mab mab ma A mab mab ma A mab mab ma mb mb Il s'agit d'étudier d'une part l'effet principal A (sur les moyennes colonnes ma, d'autre part l'effet principal B (dur les moyennes lignes mb) et enfin l'effet d'interaction, sur l'ensemble des moyennes mab. On utilise trois statistiques F: - F A = (Variance réelle due à A)/(variance d'erreur) - F B = (Variance réelle due à B)/(variance d'erreur) - F AB = (Variance réelle due à AxB)/(variance d'erreur) La méthode ABC est organisée selon le tableau suivant: A= x² B=(x)²/N C (lignes)=[(x i )²/n i ]= (x )²/n +(x )²/n (x l )²/n l

33 l représentant le nombre de lignes D (colonnes)=[(x j )²/n j ]= (x )²/n +(x )²/n (x c )²/n c c représentant le nombre de lignes E (lignes x colonnes)=[(x ij )²/n ij ]= (x )²/n +(x )²/n (x lc )²/n lc Le tableau d'anova est constitué de la manière suivante: Source Somme des ddl Carrés moyens F carrés (variance) Ligne C-B l- SCL/ddlL CML/CMerr Colonne D-B c- SCC/ddlC CMC/CMerr LxC (E-B)-(C-B)-(D-B) (l-)(c-) SCLC/ddlLC CMLC/CMerr Erreur (A-B)-(E-B) (N-)-(l-)- SCerr/ddlerr (c-)-(l-)(c-) Total A-B N-... Analyse de variance à un facteur avec mesures répétées. Le problème est de comparer les moyennes obtenues par un même groupe de sujets lors de la répétition d'une mesure. La méthode ABC est organisée selon le tableau suivant: A= x² B=(x)²/N C (sujets)=[(x i )²]/e= [(x )²+(x )²+... +(x l )²]/e s représentant le nombre de sujets et e représentant le nombre d'essais D (essais)=[(x j )²]/s= [(x )²+(x )²+... +(x e )²]/s Le tableau d'anova est constitué de la manière suivante:

34 Source Somme des ddl Carrés moyens F carrés (variance) Sujets C-B s- SCS/ddlS CMS/CMres Essais D-B e- SCE/ddlE CME/CMres Résidus (A-B)-(C-B)+(D-B) (s-)(e-) SCR/ddlres Total A-B N-... Test de l'homogénéité des variances. Même si les tests de normalité sont valides, on ne peut appliquer l'analyse de variance que si les deux échantillons sont issus de populations parentes ayant les mêmes variances. Le test porte sur les variances d'échantillon v et v. On calcule le rapport v/v (l'estimation la plus élevée est au numérateur). L'hypothèse nulle est que les variances des populations parentes sont égales. Ce rapport devrait donc être égal à. Plus ce rapport s'écarte de, plus H0 a de chance de devoir être rejetée. ddl. Le rapport v/v peut être testé sur la table du F de Snedecor, avec n- et n-.. Tests non paramétriques Les tests paramétriques précédemment décrits, supposent qu'un certain nombre de conditions soient vérifiées, et notamment la normalité de la distribution, et l'homogénéité des variances. Ces deux propriétés doivent être testées avant de réaliser les tests statistiques. Si ces propriétés ne sont pas vérifiées, il faut remplacer les tests paramétriques par leurs équivalents non-paramétriques. Lorsque les tests de normalité ne sont pas significatifs, l'usage de l'analyse de variance n'est pas permise. On dispose alors d'une batterie de tests alternatifs, analogues à ceux qui viennent d'être décrits. D'une manière générale, ces tests sont réalisés après une transformation des données brutes en données de score (échelle ordinale). On peut établir les correspondances suivantes... Comparaison d'échantillons indépendants. On utilise le test du U de Mann-Whitney. Ce test travaille sur les rangs. On mélange les données des deux échantillons, on les ordonne et on leur attribue des rangs. Soit TA la somme des rangs de l'échantillon A et TB la somme des rangs de l'échantillon B

35 On peut calculer la moyenne générale des rangs, la moyenne des rangs pour A et la moyenne des rangs pour B. On peut de même calculer les variances des échantillons de rangs. L'hypothèse nulle est que la distribution des rangs est la même dans les deux groupes(même moyenne et même écart-type). Le test de Mann-Whitney ne fonctionne que pour la comparaison de deux groupes. Si l'on veut comparer plus de deux groupes, on utilise le test de Kruskal- Wallis. Ce test débute par une démarche similaire (agrégation et classement des données, calcul des données de rang). On calcule pour chaque groupe Ti (somme des rangs), mi (moyenne des rangs) et ni (effectif). On calcule ensuite la statistique H H=[((/N(N+))*Σn i T i ] - (N+) H suit une loi de Chi- à k- ddl. Exemple: Groupe Score Rang Score Rang Score Rang Score Rang Ti Mi ni 7 H=.9 pour ddl=-=et p=.0, Chi-=.. L'hypothèse nulle peut être rejetée. Si l'hypothèse nulle est rejetée (différences significatives entre les groupes), on peut utiliser le test de Mann-Whitney en post-hoc pour localiser les différences.... Comparaison d'échantillons appareillés. Pour deux échantillons appareillés, on utilise le test de Wilcoxon.

36 - On calcule les différences entre test et test, pour chaque sujet. - On classe les sujets dans l'ordre croissant des différences non nulles (les différences nulles ne sont pas prises en compte). - On calcule le rang de chaque sujet dans ce classement - On calcule la somme des rangs des différences positives (T+) et la somme des rangs de différences négatives (T-). remarque: T+ + T-=n(n+)/ (somme des rangs) Sous l'hypothèse nulle, T+ = T- = n(n+)/ Wilcoxon a proposé une table pour lire la significativité des T+ calculés. Lorsque la comparaison porte sur plus de deux échantillons appareillés, on dispose du test de Friedman... Comparaison d'échantillons en données de numération. Le test de χ Un échelle nominale permet la constitution de tableau d'effectifs. Ces tableaux représentent souvent une distribution bivariée, c'est-à-dire selon deux variables. La figure suivante présente la distribution de 00 sujets, selon les variables sexe et choix d'études. Garçons Filles Totaux Littéraires Scientifiques 8 0 Techniques 8 0 Totaux Le problème est de savoir s'il existe une relation entre sexe et le choix des études. On fait l'hypothèse qu'il n'y a pas de lien, que les deux variables sont indépendantes. On peut reconstituer le tableau des effectifs correspondant théoriquement à cette hypothèse: Les effectifs de chaque case sont calculée de manière à ce que la répartition sur un des niveau du premier facteur (littéraires par exemple) soit proportionnel à la répartition totale sur le second facteur (sexe par exemple) Effectif théorique = Total ligne x Total colonne Total général

37 7

38 Littéraires 7 Garçons Filles Totaux () Scientifiques () Techniques () 8 () (.) 8 (.) 0 Totaux Si i représente les études et j le sexe, on calcule la statistique suivante: χ = ( O T ) ij ij T i j O ij représentant les effectifs observés pour chaque cellule et T ij les effectifs théoriques. Cette quantité χ² est d'autant plus grande qu'il y a des différences entre la distribution observée et la distribution théorique. Des tables statistiques permettent d'apprécier le degré de signification de la valeur de χ² calculée, en fonction du nombre de degrés de liberté associé au tableau d'effectif (ν=(l-)(c-)). Enfin, il est nécessaire, si l'effectif d'une cellule est inférieur à 0, de faire la correction de Yates, en retirant 0. à (O-T). Exemple: CSP et orientation Sciences Lettres Technologie Ouvriers 0 0 Cadres moyens 0 Cadres sup Effectifs théoriques Sciences Lettres Technologie Ouvriers. (.) 7. (.).0 (.7) Cadres moyens. (.). (.8). (.09) ij 0 0 8

39 Cadres sup. 9.9 (.). (.9) 8.9 (.) H 0 : équirépartition des orientations dans les CSP. χ² =(.--.0)²/ (.-9)²/. + (8.9--.)²/8.9 = 8.0 avec ddl=(-)(-)=x= au seuil p=.0 χ² =9.9 χ²<χ²lu, H 0 est acceptée: il n'y a pas de différence de répartition entre CSP.. Relations entre séries d'observation... Le coefficient de corrélation de Bravais-Pearson Le coefficient de corrélation est une mesure de la relation entre deux variables x et y. Afin d'étudier cette relation, on peut transformer les scores x et y en scores z: z x =(x-m x )/σ x et z y =(y-m y )/σ y On calcule alors pour chaque point le produit croisé z x z y. Ce produit croisé a des caractéristiques importantes: Si les scores bruts sont simultanément élevés, le produit croisé sera important et positif. Ce sera également le cas si les scores bruts sont simultanément faibles. Si les scores bruts sont élevé d'un côté, et faible de l'autre, le produit croisé sera élevé, mais négatif. Le coefficient de corrélation de Bravais-Pearson est la somme algébrique des produits croisés, pondéré par la taille de l'échantillon moins. r = z z x n y ou encore: r = ( x m )( y m ) x ( x m )² ( y m )² x y y = ( x m )( y m ) x Nσ σ x y y Ce coefficient rend compte de la tendance des couples (x,y) à entretenir une relation forte et prévisible. 9

40 Exemple: Sujets x y z x z y z x z y x² y² xy m x = m y =0. z x z y =.7 x²=8 y²=7 xy=9 σ x =. σ y=.8 x=8 y=7 r=.70/=.90 On utilise couramment une formule plus pratique, dérivée de la précédente: r = N xy x y ( N x ² ( x )²)( N y ² ( y )²) Calcul: (x)²=70 et (y)²=09 r = ( 9) ( 8)( 7) ( ( 8) 70)( ( 7 ) ( 09 )) =980/08.87=0.90 0

41 Exemple: x y n nx ny nx² ny² nxy N=0 x=77 y=80 x²= y²=7 xy= r=0(-(77*80))/ (-77²)(7-80²)=.7 L'hypothèse nulle est qu'il n'y a pas de relation entre les deux variables. La valeur calculée est comparée à la valeur lue sur la table de Bravais-Pearson, à ddl=n- à ddl=8 p=.0 r=.0 p=.0 r=. p=.0 r=. L'hypothèse nulle peut donc être rejetée. La corrélation peut également être approchée au travers de l'analyse de régression: une fois calculée la droite de régression de x vers y, on peut calculer l'équation de régression de y vers x. On a : y=a'x + b'

42 avec et a' = ( y m )( x m ) b'=m x - am y y ( y m )² y x Si l'on reprend l'équation brute du coefficient de corrélation de Pearson: ( x mx )( y my ) ( x mx )( y my ) r = = ( x m )² ( y m )² Nσ xσ y On remarque que r x = a. a' Si a=a'=0, la corrélation est nulle: les deux droites des moindres carrés sont parallèles aux axes de coordonnées. Dans ce cas il n'y a aucune relation entre les deux variables. Si a.a'=, la corrélation est parfaite et positive. Si a.a'=-, la corrélation est parfaite et positive: les deux droites sont alors confondues. y.. Corrélation et causalité Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il existe une relation de cause à effet entre les deux variables. La corrélation peut en effet être liée à une troisième variable, qui agit de manière indépendante sur les deux première Par exemple il existe une corrélation élevée entre le taux de délinquance et le nombre d'églises (influence de la taille de la cité). Il existe une corrélation positive entre la réussite à des tests d'intelligence et la taille du pied (influence de l'âge). La corrélation est à ce niveau essentiellement descriptive... Corrélation partielle La corrélation partielle permet parfois d'éviter de se laisser abuser par certaines corrélations artefactuelles. Par exemple, si l'on calcule les corrélations entre () l'intelligence, () le poids, et () l'âge. On trouve une corrélation r =.0 entre intelligence et poids. Cette corrélation doit être rapportée aux deux autres, soit r =.9, et r =.88. La corrélation partielle exprime la liaison entre deux variables, en contrôlant l'influence d'une troisième variable: dans ce cas on calcule la liaison entre intelligence et poids, à âge constant: La procédure de corrélation partielle consiste à calculer l'équation de régression de () vers (). Puis on calcule la corrélation entre les résidus de cette régression et ().

43 On dispose d'un moyen plus rapide, à condition de pouvoir calculer les corrélations entre les trois variables: r ( r r) r = ( r ²)( r ²) Dans ce cas la corrélation partielle est de -.0. La procédure de corrélation partielle consiste à calculer l'équation de régression de () vers (). Puis on calcule la corrélation entre les résidus de cette régression et ()... Comparaison des corrélations Il est impossible de comparer directement des coefficients de corrélation, dans la mesure ou ces coefficients ne sont pas normalement distribués, et ce d'autant plus que le coefficient est élevé (r>.0 ou r<-.0). Il est nécessaire dans un premier temps de transformer r par la transformation de Fischer. On applique la formule suivante: exemple: Zr= (log(+r/-r))/ On calcule ensuite, pour chaque couple (r a,r b ), une statistique t, selon la formule: t ra,rb = (Z ra -Z rb ) / S zra-zrb avec S zra-zrb = [(/(n a -)+(/(n b -)] n a et n b représentant les effectifs des échantillons impliqués dans le calcul des coefficients r a et r b. t ra,rb suivant une distribution de Student, on peut en apprécier la signification, pour un nombre de degrés de liberté égal à (n a - ) + (n b - ). Exemple: n=0 r=.80 Zr=.09 n=0 r=.8 Zr=.

44 t=.7/ (/7)+(/7)=-.7 ddl= tlu=... Relations entre deux séries d'observations. La corrélation est une mesure de la manière dont deux variables varient de manière simultanée. Par exemple, pour deux variables ordinales, elle permet de répondre des questions du type: le classement réalisé sur des élèves en français est-il similaire à celui réalisé en histoire? Deux statistiques permettent de calculer l'importance de cette liaison. La première est le τ (tau) de Kendall, et la seconde le ρ (rô) de Spearman. Ce dernier est en fait un coefficient de corrélation linéaire, calculé sur les rangs. Ces deux coefficients relevant d'une logique de calcul différente, il n'y a pas de relation directe entre les valeurs qu'ils prennent. Concernant le coefficient de Spearman, on montre que: d ρ = n( n ) Σd² étant la somme des carrés des différences des rangs. Exemple Sujet x y rang x rang y d d² Σd²=7. ρ=-((*7.)/(8(8²-)))=0.9. Régression et covariance.. Régression linéaire Soit la représentaton graphique, en deux dimensions, de la relation entre deux variables x et y. Chaque point M est associé à un couple (x,y). On cherche à déterminer

45 une droite qui représenterait au mieux la relation, qui s'ajusterait au nuage de points. La droite retenue est celle pour laquelle la somme des carrés des distances verticales de chaque point M à la droite est minimale. On démontre que cette droite passe par un point de coordonnées (mx,my), et que son équation est de la forme avec et a = y=ax + b ( x m )( y m ) b=m y - am x x ( x m )² x y On peut développer ces équation pour obtenir des formules de calcul plus pratiques: N ( xy) x y a = N x² ( x)² b = x² y x xy N x² ( x)² a et b sont les paramètres de la droite des moindres carrés. r = N xy x y ( N x ² ( x )²)( N y ² ( y )²) La formule y=ax + b permet de calculer pour chaque x une valeur théorique de y. L'échantillon des yth-y constitue les résidus de la régression. La droite des moindres carrés est donc la droite qui minimise la somme des carrés des résidus. x y x² y² xy 9 9 Σx= Σy= Σx²= Σy²= Σxy= a =((*)-(*))/((*)-(²) =(70-)/(7-) =/0 =0.9

46 b =((*)-(*))/((*)-(²) = (8-80)/(7-) = (/0) = 0. r =((*)-²)/ ((*)-(²))*((*)-(²)) =/ (7-)(7-) =/ (7-)(7-) = / 0² = /0 =0.9 y=(.9)x +. x y réel y théorique résidus Régression curvilinéaire Par une transformation logarithmique de X, de Y ou des deux simultanément, on peut reconstituer les ajustements logarithmiques, exponentiel et puissance. log(x) et Y ajustement logarithmique y=alogx + B A et B sont ici donnés directement. X et log(y) ajustement exponentiel y=b*e Ax log(y)= ax + b donc y= e ax + b y=e b *e ax y=b*e ax A=a et B=eb log(x) et log(y) ajustement puissance y=bx A log(y)=a(log(x)) + b donc y=e a(log(x)) + b y=e a(log(x) )*e b y=e b *x a

47 A=a et B=eb D'autres fonctions plus complexes peuvent être obtenues par la même méthode. Le choix du meilleur ajustement se fait ensuite par comparaison des coefficients de corrélation de chaque équation... Analyse de la covariance L'analyse de la covariance est une combinaison de l'analyse de variance et de la régression linéaire. L'analyse de la covariance permet d'étudier l'effet d'une variable A en contrôlant l'effet d'une seconde variable B. La variable B est mesurée pour chaque sujet. Une équation de régression est calculée entre la variable dépendante et la variable B. On calcule alors pour chaque sujet les résidus, c'est-à-dire la différence entre le B réel et le B prédit par l'équation de régression. Une ANOVA est ensuite réalisée en utilisant les résidus comme variable dépendante. 7. Analyses multivariées Les procédures décrites jusqu'à présent ne prenaient en compte qu'une seule variable dépendante. On parle de statistiques univariées. Un certains nombre de procédures permettent la prise en compte simultanée de plusieurs variables dépendante. Ces procédures sont dites multivariées (multivariate techniques). On retrouve à leur niveaux des procédures expérimentales (analyse discriminante, analyses de la variance et de la covariance multivariées) et des procédures corrélationnelles (corrélation canonique, analyse factorielle, analyse des pistes causales). 7.. Régression multiple La régression permet de résumer la relation entre deux variables, et donc de prédire une variables Y en fonction d'une variable X. Mais la prédiction d'une variable donnée peut être plus fine si l'on prend en compte plus de variables prédictives. La régression multiple permet de calculer une équation additive de forme: z=ax + by + c prédisant une variable z à partir de deux (ou plus) variables mesurées. L'équation de régression multiple est caractérisée par un coefficient de régression multiple, exprimant la précision de la prédiction. 7.. Analyse discriminante Cette analyse est réalisée pour une VI et deux ou plus VD. Il s'agit d'utiliser une combinaison des VD pour prédire la VI (dans la logique de la régression multiple). Cette 7

LA MESURE EN PSYCHOLOGIE Didier Delignières Université Montpellier I

LA MESURE EN PSYCHOLOGIE Didier Delignières Université Montpellier I LA MESURE EN PSYCHOLOGIE Didier Delignières Université Montpellier I 1. THEORIE DE LA MESURE. Puisque les statistiques servent à traiter des données numériques, se pose dans un premier temps le problème

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

D'UN THÉORÈME NOUVEAU

D'UN THÉORÈME NOUVEAU DÉMONSTRATION D'UN THÉORÈME NOUVEAU CONCERNANT LES NOMBRES PREMIERS 1. (Nouveaux Mémoires de l'académie royale des Sciences et Belles-Lettres de Berlin, année 1771.) 1. Je viens de trouver, dans un excellent

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Résumé du Cours de Statistique Descriptive. Yves Tillé

Résumé du Cours de Statistique Descriptive. Yves Tillé Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R 2. RAPPEL DES TECHNIQUES DE CALCUL DANS R Dans la mesure où les résultats de ce chapitre devraient normalement être bien connus, il n'est rappelé que les formules les plus intéressantes; les justications

Plus en détail

Élément 424b Introduction à la statistique descriptive

Élément 424b Introduction à la statistique descriptive CTU Master AGPS De la donnée à la connaissance : traitement, analyse et transmission Élément 44b Introduction à la statistique descriptive Prof. Marie-Hélène de Sède-Marceau Année / Statistique Introduction

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

DOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10.

DOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. A1 Trouvez l entier positif n qui satisfait l équation suivante: Solution 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. En additionnant les termes du côté gauche de l équation en les mettant sur le même dénominateur

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation ) DÉRIVÉES I Nombre dérivé - Tangente Eercice 0 ( voir animation ) On considère la fonction f définie par f() = - 2 + 6 pour [-4 ; 4]. ) Tracer la représentation graphique (C) de f dans un repère d'unité

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Les probabilités. Chapitre 18. Tester ses connaissances

Les probabilités. Chapitre 18. Tester ses connaissances Chapitre 18 Les probabilités OBJECTIFS DU CHAPITRE Calculer la probabilité d événements Tester ses connaissances 1. Expériences aléatoires Voici trois expériences : - Expérience (1) : on lance une pièce

Plus en détail

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire CHAPITRE N5 FONCTIONS LINEAIRES NOTION DE FONCTION FONCTIONS LINEAIRES NOTION DE FONCTION FONCTIONS LINEAIRES NOTION DE FONCTION Code item D0 D2 N30[S] Items étudiés dans le CHAPITRE N5 Déterminer l'image

Plus en détail

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 1 Régime transitoire dans les systèmes physiques Chapitre 1 Régime transitoire dans les systèmes physiques Savoir-faire théoriques (T) : Écrire l équation différentielle associée à un système physique ; Faire apparaître la constante de temps ; Tracer

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Statistiques 0,14 0,11

Statistiques 0,14 0,11 Statistiques Rappels de vocabulaire : "Je suis pêcheur et je désire avoir des informations sur la taille des truites d'une rivière. Je décide de mesurer les truites obtenues au cours des trois dernières

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Notion de fonction. Résolution graphique. Fonction affine.

Notion de fonction. Résolution graphique. Fonction affine. TABLE DES MATIÈRES 1 Notion de fonction. Résolution graphique. Fonction affine. Paul Milan LMA Seconde le 12 décembre 2011 Table des matières 1 Fonction numérique 2 1.1 Introduction.................................

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R². Statistiques - Cours Page 1 L I C E N C E S c i e n t i f i q u e Cours Henri IMMEDIATO S t a t i s t i q u e s 1 Gén éralités Statistique descriptive univari ée 1 Repr é s e n t a t i o n g r a p h i

Plus en détail

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme Fonctions linéaires et affines 3eme 1 Fonctions linéaires 1.1 Vocabulaire Définition 1 Soit a un nombre quelconque «fixe». Une fonction linéaire associe à un nombre x quelconque le nombre a x. a s appelle

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Fonction inverse Fonctions homographiques

Fonction inverse Fonctions homographiques Fonction inverse Fonctions homographiques Année scolaire 203/204 Table des matières Fonction inverse 2. Définition Parité............................................ 2.2 Variations Courbe représentative...................................

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Les devoirs en Première STMG

Les devoirs en Première STMG Les devoirs en Première STMG O. Lader Table des matières Devoir sur table 1 : Proportions et inclusions....................... 2 Devoir sur table 1 : Proportions et inclusions (corrigé)..................

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET TOUT E QU IL FUT SVOIR POUR LE REVET NUMERIQUE / FONTIONS eci n est qu un rappel de tout ce qu il faut savoir en maths pour le brevet. I- Opérations sur les nombres et les fractions : Les priorités par

Plus en détail

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA) La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA) I. L'intérêt de la conversion de données, problèmes et définitions associés. I.1. Définitions:

Plus en détail

BACCALAUREAT GENERAL MATHÉMATIQUES

BACCALAUREAT GENERAL MATHÉMATIQUES BACCALAUREAT GENERAL FEVRIER 2014 MATHÉMATIQUES SERIE : ES Durée de l épreuve : 3 heures Coefficient : 5 (ES), 4 (L) 7(spe ES) Les calculatrices électroniques de poche sont autorisées, conformement à la

Plus en détail

Pour l épreuve d algèbre, les calculatrices sont interdites.

Pour l épreuve d algèbre, les calculatrices sont interdites. Les pages qui suivent comportent, à titre d exemples, les questions d algèbre depuis juillet 003 jusqu à juillet 015, avec leurs solutions. Pour l épreuve d algèbre, les calculatrices sont interdites.

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Polynômes à plusieurs variables. Résultant

Polynômes à plusieurs variables. Résultant Polynômes à plusieurs variables. Résultant Christophe Ritzenthaler 1 Relations coefficients-racines. Polynômes symétriques Issu de [MS] et de [Goz]. Soit A un anneau intègre. Définition 1.1. Soit a A \

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Pourquoi un autre catalogue en Suisse romande Historique En 1990, la CRUS (Conférences des

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie... 1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................

Plus en détail

Unité E Variation et analyse statistique

Unité E Variation et analyse statistique Unité E Variation et analyse statistique VARIATION ET ANALYSE STATISTIQUE Introduction Ce module présente aux élèves deux méthodes d'utilisation des statistiques pour décrire des données et tirer des conclusions

Plus en détail