Statistiques Descriptives

Dimension: px
Commencer à balayer dès la page:

Download "Statistiques Descriptives"

Transcription

1 Statistiques Descriptives Serge Iovleff 5 avril 2007 Table des matières 1 Introduction 2 11 Qu est ce que les statistiques? 2 12 Recueil des données statistiques Le recensement Le plan d expérience L exploitation des bases de données 3 13 Définitions 4 2 Statistiques descriptives univariés 5 21 Étude statistique d une variable qualitative Distributions d effectifs et de fréquences Représentations de la distribution 6 22 Étude statistique d une variable quantitative Représentation de la distribution Résumés statistiques de position : La moyenne et la médiane Résumés statistiques de dispersion 12 3 Statistiques descriptives bivariés Introduction Étude statistique de deux variables qualitatives Distributions marginales et conditionnelles Indépendances de deux variables Étude statistique d une variable qualitative et d une variable quantitative Étude statistique de deux variables quantitatives 17 4 La régression linéaire 19 A Liste des variables pour les clientes d une société de VPC 22 B Programmes R 24 B1 Traitements univariés : Étude d une variable qualitative 24 B2 Traitements univariés : Étude d une variable quantitative 25 C Traitements bivariés 28 C1 Analyse de la variance 28 C2 Régression 29 1

2 1 Introduction 11 Qu est ce que les statistiques? Definition 1 On appelle Statistique Descriptive l ensemble des méthodes et techniques mathématiques permettant de présenter, décrire et résumer un ensemble de données Les méthodes utilisées en Statistique descriptive sont très vite limitées Definition 2 La Statistique Inférentielle est l ensemble des techniques visant à modéliser un ensemble de données en vue d une extrapolation éventuelle à un ensemble plus vaste La statistique inférentielle utilise de manière importante les probabilités Elle atteint ses limites lorsque l on est en présence d un trop grand nombre de données, ou en présence de données hétérogènes Definition 3 L apprentissage statistique est l ensemble des techniques visant à modéliser et à extraire automatiquement une connaissance d une grande base de données On atteint la frontière avec les méthodes utilisées en Intelligence Artificielle 12 Recueil des données statistiques 121 Le recensement Exemple 4 Pour étudier la répartition des terres agricoles d une région, on réalise le recensement des exploitations agricoles (soit n leur nombre) et on note pour chacune d elles un certains nombre de caractéristiques comme : leurs tailles, le type de cultures, l âge de l exploitant, Les résultats obtenus sont consignés dans un tableau : N Taille(ha) Âge (années) Culture Nbre d employés blé ,5 45 vigne orge vigne 1 Tab 1 Résultat du recensement des exploitations agricoles de la région A partir de cette table on pourra réaliser différentes études statistiques 2

3 122 Le plan d expérience Exemple 5 Pour étudier l effet d un antidépresseur, on administre en double aveugle un placebo et un principe actif On mesure à intervalle régulier l évolution de la maladie On cherche ensuite à en tirer des conclusions sur l efficacité du traitement Pour mesurer l efficacité du produit on demande aux patients de répondre à un questionnaire de ce type tous les mois pendant un an : 1 I say how bad or useless I am, for example, that I am a burden on others 2 I laugh or cry suddenly 3 I often moan and groan in pain or discomfort 4 I act nervous or restless 5 I keep rubbing or holding areas of my body that hurt or are uncomfortable 6 I talk about the future in a hopeless way 7 I get sudden frights Les résultats obtenus sont consignés dans un tableau : Visite Individu Rep1 Rep7 Groupe Tab 2 Réponses de 175 personnes tous les mois pendant un an Cet exemple est particulier dans la mesure où les individus sont indexés par le temps : c est ce que l on appelle une série chronologique 123 L exploitation des bases de données Exemple 6 Un VPCiste possède environ 3 millions de clientes Pour chaque cliente il dispose d environ 3000 données En vue d avoir une profitabilité maximum, l envoi d une promotion est faite sur une partie de ces clientes L objectif est d identifier les clientes qui sont le plus susceptible d acheter Pour réaliser son objectif, la société doit pouvoir exploiter les bases de données internes et externes qui vont nous renseigner sur le comportement d achat des clientes Cela nécessite de stocker un maximum d information utile sur les clientes (comportements d achats passés, mode d achat, âge, boutiques d achats,) et éventuellement d avoir recours à des panèlistes (INSEE, SECODIP,) 3

4 Liste des variables Numcli numéro de client Dep département Com commune Reg Région Sig Signalétique Agepro Âge Probable RpQuEn Réponse à la question Avez vous des enfants? RpQuTr Réponse à la question Travaillez vous? Unitur Taille d unité urbaine Niveauvie Niveau de vie PROPRIÉTAIRES proportion de propriétaires de leur logement dans l iris STABILITE mesure du lien employeurs-employés dans l iris par type de contrat CONFORT mesure de l équipement en bien ou pièces de conforts des logements de l iris REVENU réalisé à partir des fichiers des impôts 13 Définitions Definition 7 Une population statistique est l ensemble sur lequel on effectue des observations Elle est bien spécifiée s il n y a pas d ambiguïté sur la définition de l ensemble Dans la partie Statistique Descriptive on appellera population l ensemble des individus effectivement étudiés, sans chercher à étendre les constatations faites à une population plus vaste, ce qui relève de la Statistique Inférentielle Dans les exemples précédents, les populations étaient : 1 L ensemble des exploitation agricole de la région, 2 L ensemble de personnes interrogées dans le cadre d un essai thérapeutique, 3 L ensemble des clientes d un VPCiste à un instant donné Definition 8 Les individus (ou unités statistiques) sont les éléments de la population statistique étudiée Pour chaque individu, on dispose d une ou plusieurs observations Dans les exemples précédents, les individus étaient : 1 Une exploitation agricole, 2 Un patient, 3 Une cliente Definition 9 Une variable statistique (ou caractère statistique) est ce qui est observé ou mesuré sur les individus d une population statistique Definition 10 Une variable est dite, selon le cas : 1 Quantitative : ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, etc) ont un sens La variable peut alors être discrète ou continue selon la nature de l ensemble des valeurs qu elle est susceptible de prendre (valeurs isolées ou intervalle de R) 2 Qualitative : ses valeurs sont des modalités, (ou catégories, ou caractères) exprimées sous forme littérale ou par un codage numérique sur lequel des opérations arithmétiques n ont aucun sens On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent être naturellement ordonnées ou pas 4

5 Une variable est dichotomique si elle n a que 2 modalités Fig 1 Résumé des différents types de variables 2 Statistiques descriptives univariés 21 Étude statistique d une variable qualitative 211 Distributions d effectifs et de fréquences En présence d une variable qualitative X pouvant prendre K modalités x 1, x 2,, x K, on commence par réaliser un tri à plat, c est à dire faire l inventaire des modalités ou valeurs rencontrées dans la série, avec les effectifs correspondants On construit donc un tableau de la forme : Modalités Effectifs x 1 n 1 x 1 n 2 x K Total n K Tab 3 Tri à plat (distribution d effectifs) n On parle alors de la distribution d effectifs de la variable X On calcule ensuite les proportions (ou fréquence) de chaque modalité en divisant l effectif de chaque modalité par l effectif total f k = n k n On résume cette distribution dans un tableau de la forme : 5

6 Modalités fréquences x 1 f 1 x 1 f 2 x K f K Total 1 Tab 4 Distribution de Fréquences Definition 11 Le mode de la variable X est la modalité ayant l effectif le plus important Par exemple, si on a un tableau de la forme Numéro de Cliente Signalétique 1 M 2 Mme 3 Mlle Mme Tab 5 Variable Signalétique On va par un tri à plat construire un tableau de la forme : Signalétique Nombre de Clientes Proportions M ,0972 Mme ,6766 Mlle ,2262 Total Tab 6 Distributions de la Variable Signalétique Le mode de la variable Signalétique est Mme 212 Représentations de la distribution Une variable qualitative peut se représenter à l aide de trois types de diagrammes : 1 Un diagramme rectangulaire 2 Un diagramme en camembert (ou semi-camembert) 3 Un diagramme en bâton Remarque 12 A lire dans la documentation en ligne de R : Pie charts are a very bad way of displaying information The eye is good at judging linear measures and bad at judging relative areas A bar chart or dot chart is a preferable way of displaying this type of data En présence d une variable ordinale il est impératif de respecter l ordre naturel des modalités 6

7 Fig 2 Distribution de la taille des habits achetés par les clientes 22 Étude statistique d une variable quantitative Soit X une variable quantitative observée sur une population P de taille n Le but d une étude de statistique descriptive de cette variable est : de visualiser à l aide de graphique la distribution de cette variable, les principales représentations utilisées sont : 1 l histogramme en bâton si la variable est discrète 2 l histogramme des densités si la distribution est continue 3 la courbe des fréquences cumulées (ou des effectifs cumulés) 4 les boîtes à moustache de résumer la distribution de cette variable à l aide de quelques Statistiques, les principales statistiques sont : 1 des statistiques de positions comme la moyenne et la médiane 2 des statistiques de dispersions comme la variance ou l intervalle inter-quartile 3 des statistiques de formes comme le kurtosis et le skewness 4 des découpages de la distribution de la variable en quantités d intérêt comme les quartiles, les déciles, les percentiles, et d une manière générale les fractiles 221 Représentation de la distribution L histogramme en bâtons On considère une variable X quantitative discrète qui prend un nombre fini de valeurs {x 1, x 2,, x K } On dispose pour chacune de ces valeurs de l effectif correspondant {n 1, n 2,, n K } Exemple 13 On s intéresse au nombre d enfants des clientes d un VPCiste et on a un tableau de la forme : Nombre d enfants Nombre de Clientes Tab 7 Distribution d effectif des clientes pour la variable Nombre d enfants 7

8 Fig 3 Un exemple d histogramme en bâton L histogramme des densités La variable est continue et prend ses valeurs dans un intervalle [l, L[ On va chercher à regrouper les valeurs proches, en découpant l intervalle des valeurs en classes contiguës, de la forme : [l 0 ; l 1 [, [l 1 ; l 2 [, [l 2 ; l 3 [, [l K 1 ; l K [ On appelle ce découpage, et on note n1, n2,, n K les effectifs associés On calcule pour chaque intervalle, la fréquence associée puis la densité de fréquence On résume les calculs dans un tableau de la forme : No k Intervalles [l k 1, l k [ Amplitudes a k Effectifs n k Fréquences f k Densités de fréquence d k 1 [l 0, l 1 [ a 1 n 1 f 1 d 1 k [l k 1, l k [ a k n k f k d k K [l K 1, l K [ a K n K f K d K L amplitude de l intervalle k est donnée par a k = l k l k 1, la fréquence des individus dans l intervalle k est donnée par f k = n k n, finalement la densité de fréquence dans l intervalle k est donnée par d k = f k a k Definition 14 L histogramme des fréquences associée au découpage est le graphe de la fonction f constante par morceau sur R définie par 0 si x < l 0 f (x) = d k si x [l k 1 ; l k [ 0 si x l k Proposition 15 La fonction f vérifie lk l k 1 f (x)dx = f k et + f (x)dx = 1 8

9 Exemple 16 On s intéresse au montant des achats des clientes au cours de l année : NO k Courbes des fréquences cumulées Intervalles [l k 1, l k [ Amplitudes a k Effectifs (en millier ) n k 1 [0, 20[ [20, 50[ [50, 80[ [80, 100[ [100, 150[ [150, 300[ [300, 500[ [500, 1000[ [1000, 2000[ , 1 Definition 17 Si X est une variable quantitative discrète, la courbe des fréquences cumulées est la fonction F constante par morceau sur R définie par 0 si x < x 0 F (x) = F k 1 si x [x k 1 ; x k [ 1 si x x K avec F k = k l=1 f l Si X est une variable quantitative continue, la courbe des fréquences cumulées associée au découpage est la fonction F linéaire par morceau sur R définie par 0 si x < l 0 F (x) = F k 1 + (x l k 1 ) F k F k 1 l k l k 1 si x [l k 1 ; l k [ 1 si x l k avec F k = k l=0 f l Proposition 18 On a F (x) = x f (t)dt 222 Résumés statistiques de position : La moyenne et la médiane Calcul de la moyenne sur la série brute La moyenne est le résumé statistique le plus souvent utilisé pour caractériser la position de la variable X On la note m(x) où X La médiane est aussi très souvent utilisée, on la note M(X) Pour calculer la moyenne, on fait la somme des valeurs observées et on divise par l effectif total : m(x) = 1 n Exemple 19 Par exemple, si on a un tableau de la forme n i=1 X i 9

10 Numéro de Cliente CA (en euros) 1 0, , , ,70 Total ,00 Tab 8 Variable CA On trouve que le chiffre d affaire moyen par cliente est de : m(ca) = = 32, 6 Calcul de la moyenne dans le cas de regroupement d effectifs On a un tableau de la forme : NO k Intervalles (cas continu) [l k 1, l k [ Valeur (ou milieu) x k Effectifs n k Fréquences f k 1 [l 0, l 1 [ x 1 n 1 f 1 k [l k 1, l k [ x k n k f k K [l K 1, l K [ x K n K f K Dans ce cas on effectue une moyenne pondérée par les effectifs : m(x) = 1 n K K n k x k = f k x k k=1 k=1 Proposition 20 Soit X une variable statistique et soient a et b deux nombres réels Considérons la nouvelle variable Z = ax + b, on a alors m(z) = m(ax + b) = am(x) + b On peut utiliser cette proposition pour calculer la moyenne de X en utilisant un changement de variable Cela permet de simplifier les calculs Calcul de la médiane sur la série brute Pour calculer la Médiane, on commence par ordonner les valeurs prises par la variable statistique On note X (1) la première valeur, X (2) la deuxième valeur,, X (n) la plus grande valeur On a donc : X (1) X (2) X (n) On pose ensuite X ( n+1 2 ) si n est impair M(X) = X ( n 2 ) +X ( n 2 +1 ) 2 si n est pair 10

11 Exemple 21 Si on réordonne les clientes par CA, on aura un tableau de la forme Rang de la cliente Numéro de Cliente CA (en euros) 1 1 0, , , , , ,70 Total ,00 Tab 9 Variable CA On trouve que le chiffre d affaire médian des clientes est de : Les fractiles M(CA) = 40, , 00 2 = 40, 85 Definition 22 On appelle fractiles d ordre k les valeurs G 1, G 2,, G k 1 qui divisent la série en k parties d effectifs égaux Par exemple les quartiles Q 1, Q 2, Q 3 divisent la série statistique ordonnée en 4 parties d effectifs égaux Les déciles, D 1, D 2,, D 9 divisent la série ordonnée en dix parties d effectifs égaux Sur la série brute, les fractiles se déterminent en ordonnant les valeurs et en faisant des paquets égaux en effectifs Calcul de la médiane (et des fractiles) à l aide de la courbe des fréquences cumulées On ne traite que le cas de la médiane, les autres fractiles se traitent de manière similaire On cherche le nombre M tel que F (M) = 0, 5 On commence par déterminer l intervalle [l k 1, l k [ tel que F k 1 0, 5 < F k Si F k 1 = 0, 5 alors M = l k 1, sinon M est une nombre dans l intervalle ]l k 1, l k [ à déterminer par interpolation linéaire Fig 4 Calcul de la médiane 11

12 D après la définition 17, on doit résoudre en M l équation 0, 5 = F k 1 + (M l k 1 ) F k F k 1 l k l k 1 M l k 1 0, 5 F k 1 = C est un rapport d accroissement On en déduit que l k l k 1 F k F k 1 M = l k 1 + (0, 5 F k 1 ) l k l k 1 F k F k Résumés statistiques de dispersion La moyenne et la médiane sont des valeurs autour desquelles les observations sont réparties On cherche désormais à quantifier la dispersion des mesures autour de ces valeurs centrales Fig 5 Deux distributions également positionnées mais plus ou moins dispersées Les statistiques utilisées sont 1 L étendue E = X max X min, cette mesure est peu pratique et très sensible aux valeurs extrêmes de la série (erreurs de saisie,) 2 L intervalle interquartile Q 3 Q 1 3 L écart absolu moyen 1/n n i=1 X i X mais il est peu utilisé car il se prête mal au calcul 4 La variance est la statistique la plus utilisée, elle est définie comme la moyenne des carrés des écarts à la moyenne Pour une série brute V (X) = 1 n (X i m(x)) 2 n et lorsque l on a des effectifs regroupés : V (X) = 1 n i=1 K n k (x k m(x)) 2 L écart-type est défini comme la racine carrée de la variance s(x) = V (X) k=1 12

13 Propriétés de la Variance Proposition 23 Soit X une variable statistique 1 On a V (X) 0 et V (X) = 0 ssi X i = c pour tout i 2 On a V (X) = m(x 2 ) m(x) 2, c est à dire que la variance est la moyenne de la variable X 2 moins la moyenne de X élevée au carré 3 Pour tous réels a et b, V (ax + b) = a 2 V (X) et s(ax + b) = as(x) 4 Pour toute population de moyenne m et d écart-type s, la proportion d individus appartenant à des intervalles de la forme [m ks; m + ks] est supérieure ou égale à 1 1/k 2, pour tout k > 1 (inégalité de Bienaymé-Tchébichev) Les boîtes à moustaches La boîte à moustache (le box-plot) est un graphique qui permet de visualiser la distribution d une variable X On la construit de la manière suivante : 1 On trace une boîte de longueur Q 3 Q 1 2 On partage la boîte par un trait à la position M 3 on trace la moustache de gauche de longueur min(q 1 X min, 1, 5 (Q 3 Q 1 )) 4 on trace la moustache de droite de longueur min(x max Q 3, 1, 5 (Q 3 Q 1 )) 5 Si certains individus sont en dehors des moustaches, on les représente par des 3 Statistiques descriptives bivariés 31 Introduction A la suite d une étude statistique, on a étudié un certain nombre de variables, par exemple : 1 le nombre d enfant par cliente, 2 le montant des achats sur l année dépensé par cliente, 3 les types des produits les plus achetés par les clientes, 4 Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être entre l âge et les produits achetés : les clientes jeunes achètent elles les mêmes produits que leurs aînées? le type de produit acheté est-il le même quelle que soit le nombre d enfant de la cliente? Le montant moyen dépensé par une cliente est-il fonction de sa CSP? On a jusqu à maintenant fait de la statistique descriptive univariée, c est-à-dire de la description d une série statistique selon une seule variable (l âge par exemple) En plus de l étude séparée de chaque variable, on veut visualiser, et mesurer le cas échéant, les liens existant entre les variables prises deux à deux : c est l objet de la statistique descriptive bivariée Ceci se fera, comme précédemment, au moyen de tableaux, graphiques, et calcul de paramètres-clés On traitera donc maintenant du cas où l on dispose de deux variables, X et Y, observées sur les mêmes n individus Chacune des deux variables pouvant être qualitative, quantitative discrète, quantitative continue, on envisagera chaque cas de figure 13

14 32 Étude statistique de deux variables qualitatives X est une variable qualitative pouvant prendre K modalités x 1,, x K et Y est une variable qualitative pouvant prendre L modalités y 1,, y L On construit le tableau de contingence : X \ Y y 1 y l y L Total x 1 n 11 n 1l n 1L n 1 x k n k1 n kl n kl n k x K n K1 n Kl n KL n K Total n 1 n l n L n = n qui représente la distribution d effectif du couple de variable (X, Y ) Par définition n k = n l = L l=1 n kl K n kl Exemple 24 On a une variable binaire qui prend la valeur 1 si la cliente achète du haut de gamme et 0 sinon, et une variable binaire qui prend la valeur 1 si la cliente fait ses achats par internet 0, sinon Lorsque l on croise ses deux variables, on obtient un tableau de la forme : k=1 Haut de Gamme \ Internet Faux Vrai Total Vrai Faux Total Tab 10 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? La distribution de fréquence du couple de variable (X, Y ) est résumée dans un tableau similaire : Exemple 25 On obtient un tableau de la forme : X \ Y y 1 y l y L Total x 1 f 11 f 1l f 1L f 1 x k f k1 f kl f kl f k x K f K1 f Kl f KL f K Total f 1 f l f L f = 1 Haut de Gamme \ Internet Faux Vrai Total Vrai 0,097 0,234 0,331 Faux 0,287 0,382 0,669 Total 0,384 0,616 1,000 Tab 11 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? (suite) 14

15 321 Distributions marginales et conditionnelles Definition 26 On appelle distribution marginale des fréquences (des effectifs) la distribution des fréquences (effectifs) obtenue dans la marge d un tableau de contingence, en ajoutant les fréquences (effectifs) ligne par ligne, ou colonne par colonne La distribution conditionnelle de la variable Y, pour X = x k fixé, est la distribution statistique des valeurs de Y obtenue en se limitant aux individus pour lesquels X est égal à x k La distribution conditionnelle de Y sachant X = x k s obtient en calculant les quantités : f kl = n kl/n f k n k /n = n kl n k La distribution conditionnelle de X sachant Y = y l s obtient en calculant les quantités : f kl f l = n kl/n n l /n = n kl n l Exemple 27 On obtient les distributions conditionnelles du Haut de Gamme sachant Internet suivantes : Haut de Gamme \ Internet Faux Vrai Vrai 0,25 0,38 Faux 0,75 0,62 Total 1,00 1,00 Tab 12 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? (suite) On observe sur cet exemple que parmi les acheteuses sur internet, une proportion plus importante achète du haut de gamme Il semble qu il existe une liaison entre ces deux variables 322 Indépendances de deux variables Notion d indépendance Definition 28 Deux variables statistiques X et Y sont dites indépendantes si la distribution conditionnelle de Y, pour tout x, est constante (c est-à-dire ne dépend pas de x) Cela signifie que les lignes du tableau de contingence sont proportionnelles, ou de façon équivalente que les colonnes du tableau de contingence sont proportionnelles, et donc que la distribution conditionnelle de X, pour tout y, est constante Remarque 29 Cette définition n est (presque) jamais vérifiée En pratique, il faut vérifier que les lignes (ou les colonnes) sont presque proportionnelles Le critère du χ 2 Definition 30 On appelle fréquences et effectifs théoriques sous l hypothèse d indépendance du couple de variable X et Y les quantités : ˆf kl = f k f l et ˆn kl = n ˆf kl = n kn l n Le critère du χ 2 permet de tester l indépendance entre deux variables en mesurant la distance entre la distribution observée et la distribution théorique K L χ 2 (n kl ˆn kl ) 2 = k=1 l=1 ˆn kl = n K L k=1 l=1 (f kl ˆf kl ) 2 ˆf kl 15

16 En première approximation, on considérera que les variables X et Y ne sont pas indépendantes si χ 2 p + 2 2p où p = (K 1)(L 1) est le nombre de degré de liberté Un critère plus précis sera construit en statistique inférentielle 33 Étude statistique d une variable qualitative et d une variable quantitative Soient Y une variable quantitative et soit X une variable qualitative de modalités x 1,, x K On note I l ensemble des individus {1,, n} La variable X induit une partition de cet ensemble en K sous-ensembles I 1,, I K vérifiant K I k = I, et I k I l = si k l k=1 de plus on a Card(I k ) = n k et donc n n k + + n K = n On parlera alors de sous-population Exemple 31 Le montant moyen d achat réalisé (en euros) a été relevé parmi trois groupes de clients classés suivant les critères FID, (fidèle), OCC (Occasionnel) NOU (Nouvelle) FID No OCC No NOU No Moyennes et Variances conditionnelles Definition 32 Pour k = 1,, K, on définit la moyenne conditionnelle de Y sachant que X = x k par : m(y X = x k ) = Ȳk = 1 n k i I k Y i et la variance conditionnelle de Y sachant que X = x k par V (Y X = x k ) = s 2 k = 1 (Y i n Ȳk) 2 = 1 Yi 2 k n Ȳ k 2 k i I k i I k Les sommes sont faites sur les n k individus qui ont pris la modalité x k Formule de décomposition de la variance On résume les moments conditionnels dans le tableau suivant : Populations Effectifs Moyennes Variances conditionnelles conditionnelles 1 n 1 m(y X = x 1 ) V (X X = x 1 ) 2 n 2 m(y X = x 2 ) V (X X = x 2 ) K n K m(y X = x K ) V (X X = x K ) 16

17 Proposition 33 La moyenne générale de Y est égale à la moyenne des moyennes : m(y ) = 1 n K n k m(y X = x k ) Definition 34 On appelle Variance Intra-Classe la moyenne des variances V intra (Y ) = 1 n k=1 K n k V (Y X = x k ) = 1 n k=1 et on appelle Variance Inter-Class la variance des moyennes V inter (Y ) = 1 n K n k (Ȳk Ȳ )2 = 1 n k=1 K k=1 K n k s 2 k k=1 n k Ȳ 2 k Ȳ 2 Proposition 35 La variance de la variable Y se décompose sous la forme V (Y ) = V intra (Y ) + V inter (Y ) L analyse de la variance Cette technique a été développée au début du siècle par l agronome Fischer On veut mesurer l effet d un facteur sur une variable d intérêt Voici des exemples : 1 On épand des niveaux d engrais {faible, moyen, fort} (variable X) sur des parcelles de blé et on relève le rendement à l hectare (variable Y ) 2 On nourrit des rats avec trois sources de protéines {boeuf, porc, soja} (variable X) et on relève la prise de poids au bout d un mois (variable Y ) 3 On soumet à un groupe de patient un placebo ou un principe actif (variable X) et on étudie l évolution de leur maladie (variable Y ) Un critère pour mesurer l effet de ce facteur est de calculer la variance intra-classe et la variance inter-classe et de faire le rapport : e 2 = V inter(y ) V (Y ) Plus e 2 est grand et plus cela indique qu il y a un effet facteur 34 Étude statistique de deux variables quantitatives Représentation graphique Pour représenter deux variables quantitatives, on trace un nuage de points 17

18 Fig 6 Représentation de la taille et du poids par un nuage de point Le point de coordonnée (m(x), m(y )) est appelé le centre de gravité du nuage Mesures de liaison linéaire : La Covariance et la Corrélation Definition 36 On appelle Covariance des variables X et Y et on note Cov(X, Y ) la quantité : Cov(X, Y ) = 1 n n (X i m(x))(y i m(y )) On appelle Corrélation des variables X et Y et on note r(x, Y ) la quantité : i=1 r(x, Y ) = Cov(X, Y ) V (X)V (Y ) Proposition 37 Soient X et Y, Z trois variables et soient a, b, c, d 4 nombres réels, la covariance vérifie : 1 Cov(aX + b, cy + d) = accov(x, Y ) 2 Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) 3 Cov(X, Y ) = m(xy ) m(x)m(y ), en particulier en prenant X = Y, V (X) = Cov(X, X) Le coefficient de corrélation vérifie 1 r(x, Y ) 1 de plus r(x, Y ) = ±1 ssi les points (X i, Y i ) sont alignés sur une droite La variance vérifie V (X + Y ) = V (x) + V (Y ) + 2Cov(X, Y ) Quelques exemples de nuages de points : 18

19 D autres exemples de nuages de points : Fig 7 Coefficients de corrélations importants Fig 8 Coefficients de corrélations faibles Remarque 38 Ce n est pas parce que le coefficient de corrélation est proche de 0, qu il n existe pas de relations entre les variables Il peut exister une relation qui n est pas linéaire Remarque 39 Ce n est pas parce que le coefficient de corrélation est proche de 1, qu il existe une relation entre les variables!!! Par exemple si on relève au cours des années écoulées les effectifs de l enseignement supérieur (X) et le nombre de chômeurs au Canada (Y ) on trouve un coefficient de corrélation r = 0, 94 En fait ces deux variables ont augmenté en même temps 4 La régression linéaire Introduction Relations fonctionnelles et tendancielles Un physicien mesure à différents moments : la température la longueur d une barre métallique 19

20 Des ingénieurs, procédant à l étude d un nouveau système de freinage sur un véhicule, mesurent au cours de plusieurs essais : la vitesse du véhicule la distance parcourue en ligne droite avant l arrêt Un médecin scolaire note pour chaque enfant : sa taille son poids Un économiste rassemble pour plusieurs pays, à une date donnée, les informations suivantes : le nombre d habitants le produit national brut (PNB) Un comptable, étudiant l évolution des comptes d une entreprise note sur plusieurs années : l année étudiée le chiffre d affaires réalisé cette année là Relation Fonctionnelle et corrélations linéaires (a) (b) (c) Fig 9 (a) Température (X) et Longueur (Y ), (b) Taille (X) et Poids (Y ), (c) PNB (Y ) et Nombre d habitants (X) en Europe Le premier graphique représente une relation fonctionnelle, c est à dire que à chaque valeur de la variable X est associée une valeur et une seule de la variable Y Les deux autres graphiques représentent des cas de corrélation linéaire entre deux variables Dans ce cas on dira que Y a tendance à croitre (ou à décroître) lorsque X croit Absence de relation 20

21 (d) (e) Fig 10 (d) Balance des paiements (X), taux de change (Y ), (e) Effectifs du secteur privé en Lozère (Y ), Dates (X) Définition de la droite des moindres carrés On cherche à exprimer la relation entre deux variables X et Y : X est appelée la variable indépendante ou explicative Les valeurs de X sont fixées par l expérimentateur ou connues sans erreur (exemple : concentrations d un produit à doser, dates, ) Y est la variable dépendante ou expliquée (exemple : réponse de l analyseur) Les valeurs de Y peuvent être déterminées à partir de la variable X à une erreur près L un des buts de la régression sera précisément d estimer cette erreur On va chercher une relation de la forme : Y = ax + b + E (1) C est l équation d une droite, d où le terme de régression linéaire, plus un terme d erreur Solution de la droite des moindres carrés La méthode des moindres carrés consiste à chercher les valeurs des paramètres a et b qui rendent la somme des carrés des erreurs résiduelles minimale min a,b n e 2 i = i=1 n (y i ax i b) 2 Proposition 40 Si V ar(x) 0 alors la droite des moindres carrés a pour coefficient directeur i=1 â = Cov(X, Y ) V ar(x) (2) et pour constante ˆb = m(y ) âm(x) (3) Propriétés de la droite des moindres carrés Proposition 41 La droite des moindres carrés passent par le centre de gravité du nuage (m(y ), m(x)) 21

22 la variable E est centrée (m(e) = 0) La variable Ŷ = âx + ˆb s appelle la valeur prédite par le modèle et on a la formule de décomposition de la variance : V ar(y ) = V ar(ŷ ) + V ar(e), ce qui se lit variance totale = variance expliquée + variance résiduelle On appelle R 2 la part de variance expliquée : C est un indicateur de la qualité de la régression R 2 = V ar(ŷ V ar(y ) A Liste des variables pour les clientes d une société de VPC 1 Numcli : numéro de client 2 Dep : département 3 Com : commune 4 Reg : Région 5 Sig : Signalétique 1-Mr 2-Mme 3-Mlle 6 Agepro : Âge Probable 1- moins de 30 ans ans ans ans ans 6- plus de 70 ans 7 bf RpQuEn Réponse à la question : Avez vous des enfants? 8 RpQuTr Réponse à la question : Travaillez vous? 9 TypFem : Typologie Femme F1 :femme âgée traditionnelle F2 :femme classique plus âgée F3 :femme sportive pratique F4 : femme classique sophistiquée F5 : femme classique diversifiée F6 : femme mode haut de gamme F7 : jeune femme, urbaine, mode F8 : jeune femme sportwear basique F9 : Jeune femme mode petit prix 10 Unitur : Taille d unité urbaine 0- rural 1-moins de habitants habitants habitants habitants habitants 22

23 habitants Millions habitants 8- Région parisienne + agglo 11 Groupe : typologie iris TYPE 1 : Rural âgé modeste TYPE 2 : Rural profond peu attractif TYPE 3 : Saisonnier petites villes TYPE 4 : Saisonnier villages TYPE 5 : Rural jeune TYPE 6 : Rural aisé TYPE 7 : Urbain précaire TYPE 8 : Urbain moyen TYPE 9 : Urbain dynamique TYPE 10 : Urbain aisé 12 Niveauvie : -La classe 1 : iris précarisés, qui regroupe les zones les plus pauvres, fortement touchées par le chômage, et avec un niveau d études très bas De plus, c est la classe contenant la plus faible proportion de cadres -La classe 2 : iris modestes actifs, contient elle aussi des zones aux revenus faibles Mais c est aussi la classe la moins touchée par le chômage Les CSP ouvriers et agriculteurs y sont le plus sur-représentées, Et elle est composée de 87% d iris appartenant à des communes rurales -La classe 3 : iris intermédiaires, est composée de zones au revenu moyen, avec un niveau d études moyen et un taux de chômage assez élevé Les habitants de ces zones appartiennent à peu près équitablement à toutes les CSP -La classe 4 : iris moyens supérieurs possède un revenu moyen par contribuable de 30% supérieur au revenu global français Les habitants de ces zones sont d un niveau d études élevé, et appartiennent à toutes les catégories de CSP Le taux de chômage de cette zone est assez faible -La classe 5 : iris aisés est la classe qui contient la plus forte proportion de cadres (2 fois plus que la moyenne) Le revenu moyen par contribuable est très élevé, et le niveau d études également 13 propriétaires (La proportion de propriétaires de leur logement dans l iris) : 6 valeurs qui correspondent à la proportion de logements avec propriétaires dans l iris par rapport au total des logements Valeur 1 : 25% > x Valeur 2 : 25% <= x < 4% Valeur 3 : 5% <= x < 6% Valeur 4 : 6% <= x < 6% Valeur 5 : 6% <= x < 7% Valeur 6 : 7% <= x 14 STABILITÉ (Valeurs basées sur des coefficients représentant le lien employeur-employé des habitants de l iris selon la stabilité des contrats) : 5 valeurs selon la solidité des contrats de travail des habitants de l iris (fonctionnaire, CDD, Emploi jeune, CDI) Pour les CES, contrats jeunes, apprentis sous contrats et stage rémunéré un coef de 30 a été appliqué Pour les intérims un coef de 60 Pour les CDD un coef de 80 Pour les CDI un coef de 110 Pour les fonctionnaires un coef de 140 Valeur 1 : Le lien de contrat employeur-employé est très faible concernant les habitants de cette zone 20% des iris Valeur 2 : Le lien de contrat employeur-employé est faible concernant les habitants de cette zone 20% des iris Valeur 3 : Le lien de contrat employeur-employé est moyen concernant les habitants de cette zone 20% des iris 23

24 Valeur 4 : Le lien de contrat employeur-employé est fort concernant les habitants de cette zone 25% des iris Valeur 5 : Le lien de contrat employeur-employé est très fort concernant les habitants de cette zone 15% des iris 15 CONFORT (Valeurs basées selon l équipement en bien ou pièces de conforts des logements de l iris) : 5 valueurs selon l équipement des maisons Une courbe de percentiles de confort est réalisé à partir de coefficients puis découpée : Le pourcentage de taudis*10 + le pourcentage de logement sans salles d eau et toilettes intérieurs*8 + le pourcentage de logement avec wc intérieur et sans salles d eau*5 + le pourcentage de logement avec salle d eau sans wc intérieur*5 +% d habitats sans chauffages centrales*3 +% des logements équipés d une fosse sceptique*1 +% des logements avec tout à l égout *-005 +% des logements tout conforts*-005 +% habitats avec garage*-005 Valeur 1 : 20% des iris, Logements très peu équipés Valeur 2 : 20% des iris, Logements peu équipés Valeur 3 : 20% des iris, Logements moyennement équipés Valeur 4 : 20% des iris, Logements équipés Valeur 5 : 20% des iris, Logements très équipés 16 ENFANTS (Proportion d individus de la tranche d âge 0 à 15 ans sur la population totale de l iris) : 10 valeurs Valeur 1 : x<105% Valeur 2 : 105%<=x<12% Valeur 3 : 12%<=x<145% Valeur 4 : 145%<=x<16% Valeur 5 : 16%<=x<175% Valeur 6 : 175%<=x<185% Valeur 7 : 185%<x<=20% Valeur 8 : 20%<x<=22% Valeur 9 : 22%<x<=24% Valeur 10 : 24%<x : 17 REVENU (réalisée à partir des fichiers des impôts), elle comprend 10 valeurs allant des communes les plus pauvres aux communes les plus riches (en Frs) Ddonnées COMPLEX DATA Valeur 1 : frs>x Valeur 2 : 60000<=x<65000 Valeur 3 : 65000<=x<70000 Valeur 4 : 70000<=x<75000 Valeur 5 : 75000<=x<82000 Valeur 6 : 82000<=x<88000 Valeur 7 : 88000<=x<95000 Valeur 8 : 95000<=x< Valeur 9 : <=x< Valeur 10 : <=x 18 Macrocible : segmentation RFM (3 types de cliente : bonne, fidèle, ni bonne ni fidèle) B Programmes R B1 Traitements univariés : Étude d une variable qualitative La commande R pour obtenir un graphique en camembert est la commande pie() piesales <- c(012, 03, 026, 016, 004, 012) 24

25 names(piesales) <- c("blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") pie(piesales, col = c("purple", "violetred1", "green3","cornsilk", "cyan", "white")) title(main = "January Pie Sales", cexmain = 18, fontmain = 1) title(xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3) et la commande correspondante pour obtenir un diagramme en bâton est la commande dotchart() ou la commande barplot() piesales <- c(012, 03, 026, 016, 004, 012) names(piesales) <- c("blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") colors = c("purple", "violetred1", "green3","cornsilk", "cyan", "yellow") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # dotchart dotchart( piesales, col = colors, xlim = c(0,04)) title( main = "January Pie Sales", cexmain = 18, fontmain = 1, xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3 ) # barplot barplot( piesales, space = 15, col = colors) title( main = "January Pie Sales", cexmain = 18, fontmain = 1, xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3 ) ## At end of plotting, reset to previous settings: par(op) B2 Traitements univariés : Étude d une variable quantitative On obtient un diagramme en bâton de la distribution des effectifs puis des fréquences à l aide de la commande plot() : nbenf <- c(81023, , , 76298, 42087, 10965, 782) names(nbenf) <- c("0", "1", "2", "3", "4", "5", "6") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, 25

26 ftit <- "Distribution en effectif" xtit <- "Nombre d enfants par clientes" plot( names(nbenf), nbenf, type="h", xlab = xtit, cexlab = 08, fontlab = 3 ) title( main = ftit, cexmain = 18, fontmain = 1 ) n = sum(nbenf) n freqenf <-nbenf/n nbenf ftit <- "Distribution en fréquence" plot( names(nbenf), freqenf, type="h", xlab = xtit, cexlab = 08, fontlab = 3 ) title( main = ftit, cexmain = 18, fontmain = 1 ) ## At end of plotting, reset to previous settings: par(op) Il existe une commande hist qui réalise l histogramme sur la série brute # # Variables quantitatives continues : série brute # data(islands) op <- par(mfrow=c(2, 2)) # histogramme basique hist(islands) # histogramme moins basique str(hist(islands, col="gray", labels = TRUE)) #-- Intervalles non-equidistant # histogramme de la racine carré 26

27 r <- hist( sqrt(islands), br = c(5*0:4, 10*3:5, 70, 100, 140), col= blue1 ) #Ajout des nombres text(r$mids, r$density, r$counts, adj=c(5, -5), col= blue3 ) # combien valent sapply(r[2:3], sum) sum(r$density * diff(r$breaks)) # toujours 1!!! # initialisation du device par(op) op <- par(mfrow = c(2, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # histogramme faux -> 0/20 # histogramme de la racine carré hist( sqrt(islands), br = c(5*0:4, 40, 70, 100, 140), col="lightblue", border="pink" ) #-- Intervalles non-equidistant # histogramme de la racine carré hist( sqrt(islands), br = c(5*0:4, 40, 70, 100, 140), col= blue1, border="pink", freq = TRUE, main = "WRONG histogram" ) # and warning # histogramme de la série brute # look at default str(hist(islands, br=6, plot= FALSE)) # str(hist( islands, br=c(12,20,36,80,200,1000,17000), col="lightblue", border="pink", plot = TRUE )) hist( islands, br=c(12,20,36,80,200,1000,17000), freq = TRUE 27

28 , col= blue1, border="pink", main = "WRONG histogram" ) # you get warning par(op) La command ecdf permet de calculer la courbe des fréquences cumulées data(islands) fc<-ecdf(islands) summary(fc) plot(fc) Commandes R pour le tracé des boîtes à moustache : data(iris) par(bg = "cornsilk") boxplot(split(iris[1], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Length", xlab = "Group", fontmain = 4, fontlab = 1) boxplot(split(iris[2], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Width", xlab = "Group", fontmain = 4, fontlab = 1) C Traitements bivariés C1 Analyse de la variance On réalise une analyse de la variance des données à l aide du programme R suivant ventes <- list() ventes$obs <- c(79, 62, 78, 81, 75, 87, 71, 85, 75, 91,51, 88, 58, 57, 59, 69, 51, 71, 38,,52, 51, 44, 37, 79, 36) ventes <-asdataframe(ventes) ventes$factor<- asfactor(c("fid", "FID","FID","FID","FID","FID","FID","FID","FID","FID", "OCC", "OCC","OCC","OCC","OCC","OCC","OCC","OCC","OCC", "NOU","NOU","NOU","NOU","NOU","NOU",)) boxplot(split(ventes$obs, ventes$factor), col = "lavender", notch = TRUE) histventes <-hist( ventes$obs, br=8, col="lightblue", border="pink", freq = TRUE, main = "Histogramme des ventes" ) text( histventes$mids, histventes$density, histventes$counts, adj=c(5, -5), col= blue3 ) analyse <- lm(ventes$obs ~ ventes$factor ) 28

29 analyse ventes$fittedvalues <- analyse$fittedvalues ventes On peut ensuite obtenir e 2 en faisant le rapport des variances : e2 <- var(ventes$fittedvalues) / var(ventes$obs) e2 C2 Régression On obtient une régression à l aide de la commande lm que nous avons utilisé en analyse de la variance : data(cars) x<-lm(dist~speed, data=cars) # regression de dist par speed par(bg ="lightsteelblue") plot( dist~speed, data=cars, main = "Distance et Vitesse", fg = "blue", xlab= "Vitesse", ylab = "Distance", pch = 9 # diamond ) abline(x, col="red") # tracé de la droite de régression print(x) names(x) x$coefficients x$fittedvalues x$residuals # elements de x # coefficients de la droite de régression # valeurs prédites # erreurs var(x$fittedvalues)/var(cars$dist) # R^2 29

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015.

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Thèmes des séances de TD Thème n.1: Tableaux statistiques et représentations graphiques. Thème

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Résumé du Cours de Statistique Descriptive. Yves Tillé

Résumé du Cours de Statistique Descriptive. Yves Tillé Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

SERIE 1 Statistique descriptive - Graphiques

SERIE 1 Statistique descriptive - Graphiques Exercices de math ECG J.P. 2 ème A & B SERIE Statistique descriptive - Graphiques Collecte de l'information, dépouillement de l'information et vocabulaire La collecte de l information peut être : directe:

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières Interrogation 1 : Indice et taux d évolution........................... 2 Devoir maison 1 : Taux d évolution................................ 4 Devoir maison 1

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

MATHÉMATIQUES. Mat-4104

MATHÉMATIQUES. Mat-4104 MATHÉMATIQUES Pré-test D Mat-404 Questionnaire e pas écrire sur le questionnaire Préparé par : M. GHELLACHE Mai 009 Questionnaire Page / 0 Exercice ) En justifiant votre réponse, dites quel type d étude

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Introduction à la statistique descriptive

Introduction à la statistique descriptive Chapitre chapitre 1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c est-à-dire

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R². Statistiques - Cours Page 1 L I C E N C E S c i e n t i f i q u e Cours Henri IMMEDIATO S t a t i s t i q u e s 1 Gén éralités Statistique descriptive univari ée 1 Repr é s e n t a t i o n g r a p h i

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE CHAPITRE Statistiques Population (en milliers) 63 6 6 6 Évolution de la population en France 9 998 999 3 Année Le graphique ci-contre indique l évolution de la population française de 998 à. On constate

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Lecture graphique. Table des matières

Lecture graphique. Table des matières Lecture graphique Table des matières 1 Lecture d une courbe 2 1.1 Définition d une fonction.......................... 2 1.2 Exemple d une courbe........................... 2 1.3 Coût, recette et bénéfice...........................

Plus en détail

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours Statistique descriptive Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne Notes de cours Dernière mise à jour le mercredi 25 février 2009 1 ère année de Licence Aix & Marseille

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free. Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

BACCALAURÉAT PROFESSIONNEL SUJET

BACCALAURÉAT PROFESSIONNEL SUJET SESSION 203 Métropole - Réunion - Mayotte BACCALAURÉAT PROFESSIONNEL ÉPREUVE E4 CULTURE SCIENTIFIQUE ET TECHNOLOGIQUE : MATHÉMATIQUES Toutes options Durée : 2 heures Matériel(s) et document(s) autorisé(s)

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Observatoire Economique et Statistique d Afrique Subsaharienne

Observatoire Economique et Statistique d Afrique Subsaharienne Observatoire Economique et Statistique d Afrique Subsaharienne Termes de référence pour le recrutement de quatre (4) consultants dans le cadre du Projet «Modules d initiation à la statistique à l attention

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Statistiques 0,14 0,11

Statistiques 0,14 0,11 Statistiques Rappels de vocabulaire : "Je suis pêcheur et je désire avoir des informations sur la taille des truites d'une rivière. Je décide de mesurer les truites obtenues au cours des trois dernières

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE 1 Factures de doit p. 9 Processus 1 2 Réductions sur factures de doit p. 11 Processus 1 3 Frais accessoires sur factures p. 13 Processus 1 4 Comptabilisation

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Corefris RAPPORT ANNUEL 2011. Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

Corefris RAPPORT ANNUEL 2011. Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France? Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France? (DGTrésor) 1. Indépendamment de facteurs d offre et de demande, qui jouent indéniablement sur les prix,

Plus en détail

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts CORRIGES DES CAS TRANSVERSAUX Corrigés des cas : Emprunts Remboursement par versements périodiques constants - Cas E1 Objectifs : Construire un échéancier et en changer la périodicité, Renégocier un emprunt.

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases SINE QUA NON Découverte et Prise en main du logiciel Utilisation de bases Sine qua non est un logiciel «traceur de courbes planes» mais il possède aussi bien d autres fonctionnalités que nous verrons tout

Plus en détail

Optimiser ses graphiques avec R

Optimiser ses graphiques avec R Optimiser ses graphiques avec R Jérôme Sueur MNHN Systématique et Evolution UMR CNRS 7205 OSEB sueur@mnhn.fr 28 Avril 2011 1 Typologie 2 Base 3 ggplot2 4 Références Outline 1 Typologie 2 Base 3 ggplot2

Plus en détail

Correction du bac blanc CFE Mercatique

Correction du bac blanc CFE Mercatique Correction du bac blanc CFE Mercatique Exercice 1 (4,5 points) Le tableau suivant donne l évolution du nombre de bénéficiaires de minima sociaux en milliers : Année 2002 2003 2004 2005 2006 2007 2008 2009

Plus en détail

Élément 424b Introduction à la statistique descriptive

Élément 424b Introduction à la statistique descriptive CTU Master AGPS De la donnée à la connaissance : traitement, analyse et transmission Élément 44b Introduction à la statistique descriptive Prof. Marie-Hélène de Sède-Marceau Année / Statistique Introduction

Plus en détail

TD1 Signaux, énergie et puissance, signaux aléatoires

TD1 Signaux, énergie et puissance, signaux aléatoires TD1 Signaux, énergie et puissance, signaux aléatoires I ) Ecrire l'expression analytique des signaux représentés sur les figures suivantes à l'aide de signaux particuliers. Dans le cas du signal y(t) trouver

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Collecter des informations statistiques

Collecter des informations statistiques Collecter des informations statistiques FICHE MÉTHODE A I Les caractéristiques essentielles d un tableau statistique La statistique a un vocabulaire spécifique. L objet du tableau (la variable) s appelle

Plus en détail

Définitions. Définitions sur le logement

Définitions. Définitions sur le logement Définitions sur le logement Logement Un logement est défini par son utilisation : c est un local séparé et indépendant utilisé pour l habitation. Il doit être séparé d autres locaux par des murs ou cloisons

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Les devoirs en Première STMG

Les devoirs en Première STMG Les devoirs en Première STMG O. Lader Table des matières Devoir sur table 1 : Proportions et inclusions....................... 2 Devoir sur table 1 : Proportions et inclusions (corrigé)..................

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan 1 Objectifs Traitement statistique des données d enquête avec introduction à SPSS Gilbert Ritschard Département d économétrie, Université de Genève gilbert.ritschard@themes.unige.ch Bamako, 7-11 octobre

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b I Définition d une fonction affine Faire l activité 1 «une nouvelle fonction» 1. définition générale a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Séance 0 : Linux + Octave : le compromis idéal

Séance 0 : Linux + Octave : le compromis idéal Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est

Plus en détail

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire CHAPITRE N5 FONCTIONS LINEAIRES NOTION DE FONCTION FONCTIONS LINEAIRES NOTION DE FONCTION FONCTIONS LINEAIRES NOTION DE FONCTION Code item D0 D2 N30[S] Items étudiés dans le CHAPITRE N5 Déterminer l'image

Plus en détail

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES Coût de revient du produit + Marge du fabricant = Prix de vente HT au distributeur Prix d'achat HT du distributeur + Marge du distributeur =

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

- Ressources pour les classes

- Ressources pour les classes Mathématiques Collège - Ressources pour les classes de 6 e, 5 e, 4 e, et 3 e du collège - - Organisation et gestion de données au collège - Ce document peut être utilisé librement dans le cadre des enseignements

Plus en détail